信息论-熵


概率空间:设是一个样本空间,上的域,P是上的概率测度,则称为概率空间

:设为随机变量,称是随机变量X的熵,即为X的不确定度,若X的概率分布为P,也可记作

  • 上的对称连续泛函
  • 设n是一个大于2的正整数,定义 关于n不减

Grouping property:设,记第i个组为 则有

定理:设m和n是正整数,则满足

证明:应用Grouping Property 可以得到


推论

定理:设n是正整数,则有

证明:设,则,s.t. 故可知 令N为任意正整数,则有 由于 从而有 由于N的任意性,知


:设 是随机变量X在概率分布P上的熵

自信息:设,称X的自信息为

联合熵、条件熵

联合熵:称为联合熵,若一组离散随机变量

对于多元随机变量,称为联合熵,若

联合自信息: 若,则定义的联合自信息为

类似于单元随机变量,有 - 联合熵可以写成 - 联合熵可以写成

条件熵:若,则条件熵定义为

定理

证明


  • 当且仅当 等号成立
  • 当且仅当 等号成立

相对熵、互信息

相对熵:设是概率密度函数,称的相对熵(Kullback-Leibler距离)为

  • 也称作散度(divergence)
  • 定义

Fundamental Inf Inequality,当且仅当时等号成立

证明

条件相对熵:设是联合概率分布,则条件相对熵为

互信息:设是两个随机变量,同分布于联合概率,其边际分布为,则互信息是联合概率分布与边际分布之积的相对熵


我们可以重写互信息的定义为 因此,互信息的不确定度在已知的信息下的减少量

由此,我们有 特别地,我们指出

互信息与熵:

条件互信息:对于随机变量,条件互信息定义为

定理

链式法则

熵链式法则

法一: 重复利用二元随机变量的链式法则,有


法二:由于


条件熵链式法则

互信息链式法则

证明


相对熵链式法则

证明


琴生不等式及其应用

凸函数:称是在上是凸函数,若满足,有 是严格凸函数,当且仅当时,等号成立

琴生不等式:若是凸函数,是随机变量,则有

信息不等式:设是概率密度函数,则有 等号成立当且仅当

证明:设,则


互信息的非负性:对于任意两个随机变量,有 等号成立当且仅当独立

证明

等号成立当且仅当,即独立


定理,等号成立当且仅当

定理,等号成立当且仅当下条件独立

最大熵分布,等号成立当且仅当X在上服从均匀分布

证明:设上的均匀分布概率函数,的概率密度函数,则


定理,等号成立当且仅当独立

直观上,这个定理表明知道另一个随机变量能够降低的不确定度,同时也只能降低的不确定度,值得一提,这仅在平均时成立,特别地,可能大于或小于或等于,但一定有

定理,等号成立当且仅当独立

证明:由熵链式法则

Log Sum 不等式及其应用

对数和不等式:对于非负数,有 当且仅当等号成立

证明:不失去一般性,可设,设,可知是严格凸函数,由Jensen不等式,有

于是得到


使用对数和不等式可以证明

相对熵的凸性:设是两组概率密度函数对,则有

证明

对所有的求和即可


熵的凹性是关于的凹函数

证明

其中上的均匀概率分布,由的凸性,可得是凹函数


定理:设,互信息在固定是关于的凹函数,在固定是关于的凸函数

证明

  • 由于 固定,则的线性函数

    由于是关于的凹函数,故也是关于的凹函数

    由于的线性函数,不影响凹凸性,从而的凹函数


数据处理不等式

马尔科夫链:称随机变量构成马尔科夫链,若满足的条件分布只依赖于,与条件独立,即

马尔科夫链的条件独立

数据处理不等式:若,则有

证明:由链式法则,有 由于条件独立,从而有,由于,则


推论:令,则有

推论:若,则有

证明

由于,故


Fano 不等式

Fano 不等式:对于任意估计使得,且,则有

证明:定义错误随机变量 由链式法则 由于条件减少熵,故,同时由于的函数,则条件熵,且有 从而得到 由于是马尔科夫链,由数据处理不等式,有 因此


推论:对于任意随机变量,令,则有

推论: 令,则

定理:设独立同分布,熵为,则有 等号成立当且仅当满足均匀分布

证明:设,由琴生不等式,得


推论: 设独立,,则有

证明



  目录