马尔可夫模型
条件随机场CRF
Stanford模型
Word Embedding
词向量有关
word2vec
词向量有关
glove
词向量有关
RNN(循环神经网络)
LSTM
GRU
lstm的一种变体
CNN(卷积神经网络)
比RNN快
Attention
所有输入隐含层都将用于输出。
Attention就是根据输入隐含层和当前输出隐含层,计算出来的一个分配比例(概率),该分配比例决定了如何将输入的所有隐含层,综合得到一个对当前输出的context向量,从而代替之前的固定context向量,影响输出结果。
加入Attention可以使得不同输入,对每个输出单词贡献不同,从而达到句子对齐的目的。
Transform
建立在Attention基础之上,是更加一般化的Attention应用。
Bert处理模型
NLP领域的迁移学习方法,
迁移学习主要分两步:
1)预训练:通过CNN学习一个神经网络,去掉最后1-*层,保持前几层参数不变,用于提取特征。
2)Fine-tuning:加入新的最后全连接和softmax分类层,Fine tuning最后几层参数。