[干货汇总]LSA及SVD介绍

1. 前言

近期在看关于NER(Named Entity Recognition)的paper，里面涉及到的几个机器学习的算法，需要学习一下，在网上看了一些相关干货，汇总一下前人智慧。

首先贴出几篇写的还不错的blog

blog1 LSA潜在语义分析

该blog是在Wiki中翻译过来，翻译的反正比我看原文理解的好，进行初步了解还是不错的。

blog2 SVD矩阵奇异值分解 && LSA潜语义分析算法 && PLSA

该blog讲解了一些矩阵的基本知识，比如矩阵的秩、单位矩阵、对角矩阵、特征向量、特征值等。

blog3 机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用

该blog介绍了一种LSI实际的应用例子，可以拿来参考。

blog4 Latent Semantic Analysis(LSA/ LSI)算法简介

该blog中讲解了传统向量空间模型的缺陷

website1 特征值与特征向量

该网页介绍了特征值和特征向量的算法，需要在上述算法中使用到的。

SVD Tutorial

SVD官方介绍

2、LSA or LSI的应用

摘自blog1
低维的语义空间可以用于以下几个方面:
1 在低维语义空间可对文档进行比较，进而可用于文档聚类和文档分类。(–ing)
2 在翻译好的文档上进行训练，可以发现不同语言的相似文档，可用于跨语言检索。
3 发现词与词之间的关系，可用于同义词、歧义词检测。(–ing)
4 通过查询映射到语义空间，可进行信息检索。
5 从语义的角度发现词语的相关性，可用于“选择题回答模型”（multi choice qustions answering model）。

3 内容

由上述文章可以对SVD、LSA有一个基本上的了解，LSA使用SVD对矩阵进行奇异分解，说白了其实就是是降维，将原本的稀疏矩阵(该矩阵的行列是比较大的，比如10000*10000等等，所以注定为稀疏矩阵)进行去燥，在 blog3 中提到了在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了 ，具体原因总结如下：

原始的词-文档矩阵太大导致计算机无法处理，从此角度来看，降维后的新矩阵式原有矩阵的一个近似。

原始的词-文档矩阵中有噪音，从此角度来看，降维后的新矩阵式原矩阵的一个去噪矩阵。

原始的词-文档矩阵过于稀疏。原始的词-文档矩阵精确的反映了每个词是否“出现”于某篇文档的情况，然而我们往往对某篇文档“相关”的所有词更感兴趣，因此我们需要发掘一个词的各种同义词的情况。