Huffman编码

鸣谢大佬

哈夫曼编码(Huffman Coding)，又称霍夫曼编码，是一种编码方式，哈夫曼编码是可变字长编码(VLC)的一种。Huffman于1952年提出一种编码方法，该方法完全依据字符出现概率来构造异字头的平均长度最短的码字，有时称之为最佳编码，一般就叫做Huffman编码（有时也称为霍夫曼编码）。
(来自百度百科)
霍夫曼编码使用变长编码表对源符号（如文件中的一个字母）进行编码，其中变长编码表是通过一种评估来源符号出现机率的方法得到的，出现机率高的字母使用较短的编码，反之出现机率低的则使用较长的编码，这便使编码之后的字符串的平均长度、期望值降低，从而达到无损压缩数据的目的。
<来自大佬博客>

在了解Huffman编码之前，首先你得对哈夫曼树进行了解
这里我浅谈一下哈夫曼树，具体定义我给不上来了，我举例子说明
譬如给你一些数，让你求这些数的最小两两合并代价（每一次合并的代价都是两堆数字的总和）
For example:
1 3 4 9 2
我们先合并 1 2，得到3
再合并 3 3 得到6，
在合并 4 6 得到10，
最后合并9 10 得到 19；

这就是哈夫曼树的用法，每次把权值最小（在编码中就是所谓出现频率）的两个节点先进行合并
那么你仔细推一推可以发现，出现频率越高(权值越大)的节点（未合并过的）距离跟根也就越近，

所以可以由以上例子可以得到以下这棵树

在这里插入图片描述

那么我们手动规定，往左的边编号为1，往右的边编号为0；

在这里插入图片描述

好了到此，每个节点的编码，就是根通向它的路径了

给出例子：
9 ：0
4 : 10
3 : 110
2 : 1110
1 : 11110

换到实际应用里来说，我们用到最频繁的元素，编码也最短，那么久一定程度上节省了空间。
然后，这里需要注意的是，Huffman编码使得每一个字符的编码都与另一个字符编码的前一部分不同，不会出现像’A’：00， ’B’：001，这样的情况，解码也不会出现冲突。

霍夫曼编码的局限性

利用霍夫曼编码，每个符号的编码长度只能为整数，所以如果源符号集的概率分布不是2负n次方的形式，则无法达到熵极限；输入符号数受限于可实现的码表尺寸；译码复杂；需要实现知道输入符号集的概率分布；没有错误保护功能。

那么，浅谈到此为止，各位好好努力，共勉。

浅谈Huffman编码

Huffman编码

猜你喜欢