推荐: https://blog.csdn.net/abcjennifer/article/details/8131087
LSI(或者LSA,潜在语义分析),简单来说:
给定矩阵A, shape = (m,n),其中m是文档数,n是单词数,
表示第i篇文档中第j个单词的特征,比如:词频、TF-IDF。
通过SVD,将A分解成三个矩阵。
A = XBY
X: shape=(m,k), 含义:
表示第i篇文档和第j个主题的相关性
B: shape=(k,k),含义:
表示第i个主题和第j个词义的相关性
Y: shape=(k,n),含义:
表示第i个词义和第j个词语的相关性
分解后得到的X和Y矩阵是十分有用的,通过X,可以进一步分析出主题相似的文章;通过Y,可以进一步分析出同义词。
注意:奇异值分解后,X,B,Y中的元素可以是负的,因此在这一点上并不好。