TensFlow

自编码器

无监督学习，提取最有用，最频繁高阶特征

随机森林

决策树
ID3算法用的是信息增益，C4.5算法用信息增益率；CART算法使用基尼系数
ID3的缺点，倾向于选择水平数量较多的变量，可能导致训练得到一个庞大且深度浅的树；另外输入变量必须是分类变量（连续变量必须离散化）；最后无法处理空值。

C4.5选择了信息增益率替代信息增益。

CART以基尼系数替代熵；最小化不纯度而不是最大化信息增益。
随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一大分支——集成学习（Ensemble Learning）方法。

熵代表不确定性，不确定性越大，熵越大。代表内部的混乱程度 I(x)用来表示随机变量的信息，p(xi)指是当xi发生时的概率。
熵是用来度量不确定性的，当熵越大，X=xi的不确定性越大，反之越小。对于机器学习中的分类问题而言，熵越大即这个类别的不确定性更大，反之越小。
信息增益在决策树算法中是用来选择特征的指标，信息增益越大，则这个特征的选择性越好。

Data-Frame

Embeddings

CBOW 表示可以通过求单词表示向量和或者通过将一个单词词袋向量乘
以一个每一行对应于一个稠密单词表示的矩阵（这样的矩阵也叫作嵌入矩阵（ embedd i ng
matricy ））来得到。
cbow是给定上下文来预测中心词，skip-gram是通过中心词预测上下文,两者所用的神经网络都只需要一层hidden layer.
cbow与skip-gram的区别：

cbow在学习过程中，类似k个学生（周围词）同时由一位老师（中心词）授课，如果下次学习的时候还在该老师的课上（窗口内）则可以继续学习，否则不会继续。

而skip-gram类似一个学生（中心词）多个老师（周围词），学生通过向多位老师学习学到最终的知识能力，所以比cbow学习的时间长，即时间复杂度高，数据量少或有生僻字时适用，另外，直接训练Skip-Gram类型的算法，很容易使得高曝光词汇得到过多的权重。同样地，cbow效率较高，速度快，数据量大时适用。

自编码器

随机森林

Data-Frame

Embeddings

猜你喜欢