浅谈Huffman编码

Huffman编码

鸣谢大佬

哈夫曼编码(Huffman Coding),又称霍夫曼编码,是一种编码方式,哈夫曼编码是可变字长编码(VLC)的一种。Huffman于1952年提出一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长度最短的码字,有时称之为最佳编码,一般就叫做Huffman编码(有时也称为霍夫曼编码)。
(来自百度百科)
霍夫曼编码使用变长编码表对源符号(如文件中的一个字母)进行编码,其中变长编码表是通过一种评估来源符号出现机率的方法得到的,出现机率高的字母使用较短的编码,反之出现机率低的则使用较长的编码,这便使编码之后的字符串的平均长度、期望值降低,从而达到无损压缩数据的目的。
<来自大佬博客>

在了解Huffman编码之前,首先你得对哈夫曼树进行了解
这里我浅谈一下哈夫曼树,具体定义我给不上来了,我举例子说明
譬如给你一些数,让你求这些数的最小两两合并代价(每一次合并的代价都是两堆数字的总和)
For example:
1 3 4 9 2
我们先合并 1 2, 得到3
再合并 3 3 得到6,
在合并 4 6 得到10,
最后合并9 10 得到 19;

这就是哈夫曼树的用法,每次把权值最小(在编码中就是所谓出现频率)的两个节点先进行合并
那么你仔细推一推可以发现,出现频率越高(权值越大)的节点(未合并过的)距离跟根也就越近,

所以可以由以上例子可以得到以下这棵树

在这里插入图片描述

那么我们手动规定,往左的边编号为1,往右的边编号为0;

在这里插入图片描述

好了到此,每个节点的编码,就是根通向它的路径了

给出例子:
9 :0
4 : 10
3 : 110
2 : 1110
1 : 11110

换到实际应用里来说,我们用到最频繁的元素,编码也最短,那么久一定程度上节省了空间。
然后,这里需要注意的是,Huffman编码使得每一个字符的编码都与另一个字符编码的前一部分不同,不会出现像’A’:00, ’B’:001,这样的情况,解码也不会出现冲突。

霍夫曼编码的局限性

利用霍夫曼编码,每个符号的编码长度只能为整数,所以如果源符号集的概率分布不是2负n次方的形式,则无法达到熵极限;输入符号数受限于可实现的码表尺寸;译码复杂;需要实现知道输入符号集的概率分布;没有错误保护功能。

那么,浅谈到此为止,各位好好努力,共勉。

猜你喜欢

转载自blog.csdn.net/beautiful_CXW/article/details/83016760