TensFlow

自编码器

无监督学习,提取最有用,最频繁高阶特征

随机森林

决策树
ID3算法用的是信息增益,C4.5算法用信息增益率;CART算法使用基尼系数
ID3的缺点,倾向于选择水平数量较多的变量,可能导致训练得到一个庞大且深度浅的树;另外输入变量必须是分类变量(连续变量必须离散化);最后无法处理空值。

C4.5选择了信息增益率替代信息增益。

CART以基尼系数替代熵;最小化不纯度而不是最大化信息增益。
随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。

  1. 熵代表不确定性,不确定性越大,熵越大。代表内部的混乱程度 I(x)用来表示随机变量的信息,p(xi)指是当xi发生时的概率。

  2. 熵是用来度量不确定性的,当熵越大,X=xi的不确定性越大,反之越小。对于机器学习中的分类问题而言,熵越大即这个类别的不确定性更大,反之越小。

  3. 信息增益在决策树算法中是用来选择特征的指标,信息增益越大,则这个特征的选择性越好。

Data-Frame

Embeddings

CBOW 表示可以通过求单词表示向量和或者通过将一个单词词袋向量乘
以一个每一行对应于一个稠密单词表示的矩阵(这样的矩阵也叫作嵌入矩阵( embedd i ng
matricy ))来得到。
cbow是给定上下文来预测中心词,skip-gram是通过中心词预测上下文,两者所用的神经网络都只需要一层hidden layer.
cbow与skip-gram的区别:

cbow在学习过程中,类似k个学生(周围词)同时由一位老师(中心词)授课,如果下次学习的时候还在该老师的课上(窗口内)则可以继续学习,否则不会继续。

而skip-gram类似一个学生(中心词)多个老师(周围词),学生通过向多位老师学习学到最终的知识能力,所以比cbow学习的时间长,即时间复杂度高,数据量少或有生僻字时适用,另外,直接训练Skip-Gram类型的算法,很容易使得高曝光词汇得到过多的权重。同样地,cbow效率较高,速度快,数据量大时适用。

猜你喜欢

转载自blog.csdn.net/qq_39161216/article/details/89036083