在NLP中文本均会被表示为向量的形式,为了给出任何两个文本之间的相似程度,则可以利用各类的距离进行表示,其中最为著名的两种距离就是欧式距离和宇轩相似度,此外还有曼哈顿距离也被广泛使用。而这三个测度方式均是在欧式空间下进行的。
本文以如下的两个向量作为例子进行具体的阐述:
vec1=[x1,x2,x3...xn]
vec2=[y1,y2,y3...yn]
欧氏距离
欧式距离就是最简单最直观的测度方式,两点之间连线最短
,把这两个点的连线的距离计算出来就可以得到欧氏距离的结果了。也就是利用如下的公式可以计算出来。
Euclidean_Distance(vec1,vec2)=i=1∑n(xi−yi)2
曼哈顿距离
曼哈顿距离作为向量距离的另一种测度方式,是将某一向量在绝对值方向上进行移动,最终变为另一向量的总体变动的距离之和。具体的公式可以表示为如下形式。
Manhattan_Distance(vec1,vec2)=i=1∑n∣xi−yi∣
曼哈顿距离和欧氏距离的区别
引用最经典的一个图,上图可以认为是两点之间的4个路径。其中绿色路径的距离是欧式距离,而剩下的三条均是曼哈顿距离。
可以直观的理解,欧式距离与平方相关,曼哈顿距离与绝对值相关。
余弦相似度
本质上余弦相似度并不是一种距离的测度,当然可以利用1-余弦相似度
的方法来定义余弦距离。但是余弦相似度与欧氏距离经常一起出现。所以本文也一并将其列出来进行简单的介绍。
cosine_similarity(vec1,vec2)=∣vec1∣×∣vec2∣vec1⋅vec2=∑i=1nxi×∑i=1nyi∑i=1n(xi×yi)
余弦相似度和欧氏距离的区别
上图较为清晰的表示出欧氏距离与余弦相似度的本质内容,一个是真实在数值上的差异,另一个是在方向与趋势上的差异。
不同的使用场景需要选择不同的度量方式。