信息论-数据压缩


数据压缩

编码

信源编码:关于随机变量的信源编码是从的取值空间的一个映射,其中表示元字母表上有限长度的字符串所构成的集合,用表示的码字并用表示的长度


编码期望长度设随机变量的概率密度函数为,称信源编码的期望长度


非奇异码:若编码将的取值空间中的每个元素映射称中不同的字符串,即

则称这个编码是非奇异的


扩展编码:编码的扩展是从上的有限长字符串到上的有限长字符串的映射,即

其中表示相应码字的串联


唯一可译码:若一个编码的扩展编码是非奇异的,则称该编码是唯一可译的


前缀码:若码中无任何码字是其他码字的前缀,则称该编码是前缀码或即时码



Kraft 不等式

Kraft 不等式:对于元字母表上的前缀码,码字长度必定满足不等式

反之,若给定满足以上不等式的一组码字长度,则存在一个相应的前缀码,其码字长度为给定的长度

证明

  • 考虑每一节点均含个子节点的叉树,假定数值代表码字的字符,每个码字均由树的 一片叶子表示,因此,始于根节点的路径可描绘出码字中的所有字符,码字的前缀条件表面树中无一码字是其他任一码字的祖先,因而,在这样的编码树中,每一码字都去除了它的可能称为码字的所有后代

    为码字集中最长码字长度,考虑在树中层的所有节点,可知其中有些是码字,有些是码字的后代,而另外的节点既不是码字,也不是码字的后代,在树中层的码字拥有层中个后代,所有这样的后代集不相交,而且,这些集合中的总节点数必定小于或等于,因而,对所有的码字求和,则可得

  • 反之,若给定任意一组满足Kraft不等式的码字长度,总可以构造出满足条件的编码树,将第一个深度为的节点标为1,同时除去树中属于它的所有后代,然后再剩余的节点中找出第一个深度为的节点,将其标为码字2,同时除去树中所有属于它的所有后代,以此类推,即可构造出一个码字长度为的前缀码


无限前缀码Kraft不等式:对任意构成前缀码的可数无限码字集,码字长度满足Kraft不等式

反之,若给定任意满足Kraft不等式的,则可构造出具有相应码长的前缀码


最优码

定理:随机变量的任一元前缀码的期望长度必定大于或等于熵,即

当且仅当,等号成立

证明:将期望长度与熵的差写成如下形式:

,由相对熵的非负性以及,可得

因此,,当且仅当等号成立


D进制:若对于某个,概率分布的每个概率值均等于,则称这个概率分布是进制的


最优码长的界

定理:设是关于信源分布和一个元字母表的一组最优码长,为最优码的相应期望长度,则

证明:设,则满足Kraft不等式,且有

从而有

但由于是最优码的期望长度,它不大于,于是

定理说明,实际最优码的期望长度比熵大,但不会超出1比特的附件位,这是由于不总是整数造成的


定理:每字符最小期望码字长度满足


偏码定理:码字长度分配关于的期望码长满足


证明:期望码长为

类似的,可以得到下界


唯一可译码Kraft不等式:任一唯一可译的元码的码字长度必然满足Kraft不等式

反之,若给定满足上述不等式的一组码字长度,则可以构造出具有同样码字长度的唯一可译码


赫夫曼码

赫夫曼码



典则码:对于任何概率分布,存在一个最优前缀码满足以下性质

  • 长度序列与按概率分布列排列的次序相反
  • 两个最长的码字有着相同的长度
  • 两个最长的码字只在最后一位不同,并对应于两个最不可能的符号

赫夫曼码最优性:赫夫曼码是最优的



  目录