浙江大学-包家立计算生物学1

数据挖掘的过程 在这里插入图片描述

数据开采的目的

分类
聚类
相关性分析(自相关,互相关)
偏差分析

结果解释和评价
除无关模式
新选择算法

信息的传递
从信源出发,通过信道,传递给信宿
信息的编码,即从信源发出的信号,经过编码形成机器可以识别的信号,经过信道进行传播。
简单的如同,打电话,声音信号的传播,先经过编码,然后先通过信道(此处是电磁波)进行电信号的传播,通过电磁4信号干扰,可以影响信号的质量,这也就是为什么通过电磁波的屏蔽可以阻断电子设备的通讯 。

采用二进制编码
先把事件分为等概率的两个事件,然后再将每一层的事件进行层层细分(按照发生的概率进行细分)。
在这里插入图片描述

字符位数

h(i)=log2(1/Pi),以二进制为例,此处的底就是进制数

此处的h(i)也是信息量的表示I(xi)

而信息熵是h(i)和相应的事件的概率的乘积,信息熵用H表示,即黑板上的第三个式子
H=Σp_i*Log_a(1/pi) (i从1到n),这个表示的是平均信息熵
在这里插入图片描述

信息熵的性质
1.非负性
2.可加性
3.确定性
4.可扩展性
5.极值性

互信息,输入变量和输出变量(数值可能不同,比如输入时核苷酸的个数,输出的时氨基酸的个数)

在这里插入图片描述

联合概率,
条件信息熵即为在某一条件下的信息量的期望值,
在这里插入图片描述

平均条件信息熵,就是在联合分布的空间里,整个事件发生的平均信息熵。
在这里插入图片描述

发布了48 篇原创文章 · 获赞 6 · 访问量 6689

猜你喜欢

转载自blog.csdn.net/leianuo123/article/details/104703918