文本异常检测

原文

简单的word2vec进行平均在句子语义相似性的计算上效果一般般(很好理解,我爱你和你爱我的句子含义不一样,但是直接进行平均最终的结果是一样的,这类策略忽略了item的顺序信息(不过对于无序的items来说问题不大吧。。。))

sif并没有解决上面的问题。(这里就简单说下w2的问题)

这里sif的思路是

计算句子中词向量的加权平均,然后这些词向量分别减去他们各自在句向量矩阵(有词向量组合而成)的第一主向量上的投影;

1、加权平均的方法是:

其中a是一个超参数用户可以自行进行设置;

2、

猜你喜欢

转载自blog.csdn.net/u013250861/article/details/133102313