第
4
部分
:
比较深度学习方式方法
你可能会问
:
为什么词袋模型更好
?
最大的原因是
,
在我们的教程中
,
平均向量
,
利用重心失去词语的顺序
,
使其非常相似的概念袋的话。性能是相似的
(
标准误差范围内
)
使所有三种方法几乎等价
一些尝试
:
首先
,
训练
Word2Vec
更多的文本应该极大地提高性能。谷歌的搜索结果都是基于词向量是学习的一个多
billion-word
语料库
;
我们的标记和未标记的训练集在一起只有区区
1800
万字左右。方便
,Word2Vec
提供函数加载任何
pre-trained
模型由谷歌的原始输出
C
工具
,
所以它也可以训练在
C
模型
,
然后将其导入
Python
。
第二
,
出版文献中
,
分布式词向量技术已被证明比袋字模型。本文的算法叫做段落向量在
IMDB
上使用数据集产生的一些最先进的成果。在某种程度上
,
它确实比我们尝试的方法因为向量平均和集群失去词序
,
而段落向量保存订单信息。