信息论中的信息量为什么表示成对数

声明两个前提,然后根据这两个前提推导信息量的形式:

  • 多个事件同时发生的概率是多个事件发生概率的乘积。
  • 多个事件同时发生的总信息量等于每个事件信息量的和。

翻译成数学语言:

f ( x ) f(x) f(x)表示事件A的信息量,其中x为事件A发生的概率,则:

f ( x 1 x 2 ) = f ( x 1 ) + f ( x 2 ) f(x_1x_2)=f(x_1)+f(x_2) f(x1x2)=f(x1)+f(x2)其中 x 1 , x 2 ∈ ( 0 , 1 ] x_1,x_2\in\left(0,1\right] x1,x2(0,1]

进一步抽象:

已知 f ( x ) f(x) f(x)定义域 x ∈ ( 0 , 1 ] x\in\left(0,1\right] x(0,1],满足 f ( x y ) = f ( x ) + f ( y ) f(xy)=f(x)+f(y) f(xy)=f(x)+f(y),求 f ( x ) f(x) f(x)

解如下:

x = y = 1 x=y=1 x=y=1,则:

f ( 1 ) = f ( 1 ) + f ( 1 ) f(1)=f(1)+f(1) f(1)=f(1)+f(1),所以 f ( 1 ) = 0 f(1)=0 f(1)=0

由牛顿-莱布尼兹公式:

f ( 1 ) − f ( x ) f(1)-f(x) f(1)f(x)

= ∫ x 1 f ′ ( t ) d t =\displaystyle\int_x^1f\prime(t)dt =x1f(t)dt

= ∫ x 1 f ( t + d t ) − f ( t ) d t d t =\displaystyle\int_x^1\dfrac{f(t+dt)-f(t)}{dt}dt =x1dtf(t+dt)f(t)dt

= ∫ x 1 f ( t t + d t t ) − f ( t ) d t d t =\displaystyle\int_x^1\dfrac{f(t\dfrac{t+dt}{t})-f(t)}{dt}dt =x1dtf(ttt+dt)f(t)dt

= ∫ x 1 f ( t ) + f ( 1 + d t t ) − f ( t ) d t d t =\displaystyle\int_x^1\dfrac{f(t)+f(1+\dfrac{dt}{t})-f(t)}{dt}dt =x1dtf(t)+f(1+tdt)f(t)dt

= ∫ x 1 f ( 1 + d t t ) d t d t =\displaystyle\int_x^1\dfrac{f(1+\dfrac{dt}{t})}{dt}dt =x1dtf(1+tdt)dt

= ∫ x 1 f ( 1 + d t t ) − f ( 1 ) d t d t =\displaystyle\int_x^1\dfrac{f(1+\dfrac{dt}{t})-f(1)}{dt}dt =x1dtf(1+tdt)f(1)dt

= ∫ x 1 1 t f ( 1 + d t t ) − f ( 1 ) d t t d t =\displaystyle\int_x^1\dfrac{1}{t}\dfrac{f(1+\dfrac{dt}{t})-f(1)}{\dfrac{dt}{t}}dt =x1t1tdtf(1+tdt)f(1)dt

由于 lim ⁡ d t → 0 d t t = 0 \lim_{ {dt}\rightarrow0}\dfrac{dt}{t}=0 limdt0tdt=0,所以:

f ( 1 ) − f ( x ) = ∫ x 1 1 t f ′ ( 1 ) d t f(1)-f(x)=\displaystyle\int_x^1\dfrac{1}{t}f\prime(1)dt f(1)f(x)=x1t1f(1)dt

0 − f ( x ) = f ′ ( 1 ) ∫ x 1 1 t d t 0-f(x)=f\prime(1)\displaystyle\int_x^1\dfrac{1}{t}dt 0f(x)=f(1)x1t1dt,由于 0 < t ≤ 1 0<t\leq1 0<t1 f ( 1 ) = 0 f(1)=0 f(1)=0,所以:

f ( x ) = − f ′ ( 1 ) ln ⁡ x 其 中 ( x ∈ ( 0 , 1 ] ) f(x)=-f\prime(1)\ln x其中(x\in(0,1]) f(x)=f(1)lnx(x(0,1])

到此基本已经完成了推导,换底公式一般化:

f ( x ) = − f ′ ( 1 ) log ⁡ a e log ⁡ a x f(x)=-\dfrac{f\prime(1)}{\log_ae}\log_ax f(x)=logaef(1)logax

γ = log ⁡ a e f ′ ( 1 ) \gamma=\dfrac{\log_ae}{f\prime(1)} γ=f(1)logae,上式两边同乘 γ \gamma γ

F ( x ) = γ f ( x ) = − log ⁡ a x F(x)=\gamma f(x)=-\log_ax F(x)=γf(x)=logax

F ( x ) F(x) F(x)就是信息量的表示形式。

数学式子推导出来了不代表理解了。问题在于对数到底是什么,理解了这个才能理解信息量。

对数 log ⁡ a x \log_a x logax是一次探索,探索的目标是求多少个 a a a连乘的结果等于 x x x。这个求对数的问题可以转化为“最少问多少个问题可以把事情搞清楚”,信息的多少就是把事情搞清楚之所需狠劲儿的度量,因此问题的数量就是这件事的信息量。

以猜数字为例,假设整数数字范围1~32,要问几个问题呢?

二分法最快,先问是16吗?根据回答继续递归询问。一次询问可以排除掉 1 2 \dfrac{1}{2} 21的结果,一共问多少次可以得到确定的结论呢?

32 2 x = 1 \dfrac{32}{2^x}=1 2x32=1

x x x很容易:

x = log ⁡ 2 32 x=\log_2 32 x=log232

x = 5 x=5 x=5就是猜数字的信息量。

世界万物的探究均可转化为不断询问是或否,万物皆信息。

浙江温州皮鞋湿,下雨进水不会胖。

猜你喜欢

转载自blog.csdn.net/dog250/article/details/121565546