信息论中的信息量为什么表示成对数

声明两个前提，然后根据这两个前提推导信息量的形式：

翻译成数学语言：

设 $f (x)$ 表示事件A的信息量，其中x为事件A发生的概率，则：

$f(x_1x_2)=f(x_1)+f(x_2)$ 其中 $x_1,x_2\in\left(0,1\right]$

进一步抽象：

已知 $f (x)$ 定义域 $x\in\left(0,1\right]$ ，满足 $f (x y) = f (x) + f (y)$ ，求 $f (x)$ 。

解如下：

令 $x = y = 1$ ，则：

$f (1) = f (1) + f (1)$ ，所以 $f (1) = 0$

由牛顿-莱布尼兹公式：

$f (1) - f (x)$

$=\displaystyle\int_x^1f\prime(t)dt$

$=\displaystyle\int_x^1\dfrac{f(t+dt)-f(t)}{dt}dt$

$=\displaystyle\int_x^1\dfrac{f(t\dfrac{t+dt}{t})-f(t)}{dt}dt$

$=\displaystyle\int_x^1\dfrac{f(t)+f(1+\dfrac{dt}{t})-f(t)}{dt}dt$

$=\displaystyle\int_x^1\dfrac{f(1+\dfrac{dt}{t})}{dt}dt$

$=\displaystyle\int_x^1\dfrac{f(1+\dfrac{dt}{t})-f(1)}{dt}dt$

$=\displaystyle\int_x^1\dfrac{1}{t}\dfrac{f(1+\dfrac{dt}{t})-f(1)}{\dfrac{dt}{t}}dt$

由于 $\lim_{ {dt}\rightarrow0}\dfrac{dt}{t}=0$ ，所以：

$f(1)-f(x)=\displaystyle\int_x^1\dfrac{1}{t}f\prime(1)dt$

$0-f(x)=f\prime(1)\displaystyle\int_x^1\dfrac{1}{t}dt$ ，由于 $0<t\leq1$ 且 $f (1) = 0$ ，所以：

$f(x)=-f\prime(1)\ln x其中(x\in(0,1])$

到此基本已经完成了推导，换底公式一般化：

$f(x)=-\dfrac{f\prime(1)}{\log_ae}\log_ax$

设 $\gamma=\dfrac{\log_ae}{f\prime(1)}$ ，上式两边同乘 $\gamma$ ：

$F(x)=\gamma f(x)=-\log_ax$

$F (x)$ 就是信息量的表示形式。

数学式子推导出来了不代表理解了。问题在于对数到底是什么，理解了这个才能理解信息量。

对数 $log_a x$ 是一次探索，探索的目标是求多少个 $a$ 连乘的结果等于 $x$ 。这个求对数的问题可以转化为“最少问多少个问题可以把事情搞清楚”，信息的多少就是把事情搞清楚之所需狠劲儿的度量，因此问题的数量就是这件事的信息量。

以猜数字为例，假设整数数字范围1～32，要问几个问题呢？

二分法最快，先问是16吗？根据回答继续递归询问。一次询问可以排除掉 $\dfrac{1}{2}$ 的结果，一共问多少次可以得到确定的结论呢？

$\dfrac{32}{2^x}=1$

求 $x$ 很容易：

$x=\log_2 32$

$x = 5$ 就是猜数字的信息量。

世界万物的探究均可转化为不断询问是或否，万物皆信息。

浙江温州皮鞋湿，下雨进水不会胖。