邻近性的度量

简单匹配系数
Jaccard 系数
广义 Jaccard 系数
距离
余弦相似度
皮尔森系数
Bregman 散度
选择正确的度量指标

邻近性度量的应用非常广泛，例如在推荐算法的协同过滤中可以用来衡量物品之间或用户之间的相似性，从而做推荐；又例如在做特征工程，衡量特征之间的相关性，从而筛选特征。那么接下来就讲一下特征性度量的指标。

简单匹配系数

简单匹配系数（Simple Match Coefficient，SMC）：

$smc=\frac{f_{00}+f_{11}}{f_{00}+f_{11}+f_{10}+f_{01}}$

对于取值是二元的 $x_1,x_2$ 两个样本或两个特征：

$f_{00},f_{11}$ 表示它们取值都为 0 或都为 1 的个数；

$f_{10}，f_{01}$ 表示它们取值不同的个数；

例如：

对用户 $u_1,u_2,u_3$ 之间的相似度进行衡量（ $1$ 代表 “是”， $2$ 代表 “否”）：

ID	爱看书	爱唱歌	爱购物	爱睡觉
u₁	1	1	0	1
u₂	0	0	1	1
u₃	1	0	0	0

$\bullet$ 对 $u_1/u_2：f_{11}=1，f_{00}=1，f_{10}=2，f_{01}=1$

$smc_{u_1,u_2}=\frac{f_{00}+f_{11}}{f_{00}+f_{11}+f_{10}+f_{01}}=\frac{1+1}{1+1+2+1}=\frac{2}{5}$

$\bullet$ 对 $u_2/u_3：f_{11}=0，f_{00}=1，f_{10}=2，f_{01}=1$

$smc_{u_2,u_3}=\frac{f_{00}+f_{11}}{f_{00}+f_{11}+f_{10}+f_{01}}=\frac{0+1}{0+1+1+2}=\frac{1}{4}$

因为： $smc_{u_1,u_2} > smc_{u_2,u_3}$ ，所以用户 $u_1,u_2$ 更相似，所以可以将 $u_1$ 的爱好推荐给 $u_2$ .

Jaccard 系数

一般来讲，我们更关注值为 1 的特征，当数据向量非常稀疏时，值为 1 的特征个数少，值为 0 的特征个数非常多，此时 SMC 对每个用户间计算的值都是非常相近的，容易判定都相似，所以引入 Jaccard 系数，它忽略了取值都是 0 的特征：

$J=\frac{f_{11}}{f_{11}+f_{10}+f_{01}}$ ，忽略了 $f_{00}$
广义 Jaccard 系数

对于多值属性可以使用广义 Jaccard 系数：

$EJ(x_1,x_2)=\frac{(x_1,x_2)}{||x_1||^2+||x_2||^2-(x_1,x_2)}$ ，其中 $(x_1,x_2)$ 为 $x_1,x_2$ 的内积，即对应特征乘积的和。

可用于稀疏向量，且在特征都为二元取值的条件下归约为 Jaccard 系数。
距离

定义 $x_1,x_2$ 之间的距离为： $d(x_1,x_2)=[\sum_{k=1}^{n}|x_1-x_2|^β]^{\frac{1}{β}}$

当 $β=1$ 时，称为曼哈顿距离，或 L₁ 范数，L₁ 正则项；

当 $β=2$ 时，称为欧氏距离，或 L₂ 范数，L₂ 正则项；

当 $β=\infty$ 时，称为上确界距离，或 L_max 范数， $d(x_1,x_2)=\mathop{}_{β→\infty}^{\lim}[\sum_{k=1}^{n}|x_1^{(k)}-x_2^{(k)}|]^{\frac{1}{β}}$

距离易受值域大的特征的影响，应注意规范化。

对于一个距离，需要满足三条距离公理：正定性、对称性、三角不等式。

$\bullet$ 正定性： $d(x_1,x_2)\ge0$

$\bullet$ 对称性： $d(x_1,x_2)=d(x_2,x_1)$

$\bullet$ 三角不等式： $d(x_1,x_3)\le d(x_1,x_2)+d(x_2,x_3)$

只有满足此三条公理，此度量标准才能称为距离。显然以上所说的三种都满足。
余弦相似度

定义 $x_1,x_2$ 之间的余弦相似度为： $\cos(x_1,x_2)=\frac{(x_1,x_2)}{||x_1||+||x_2||}$

计算的是两个向量夹角的余弦值，其中 $(x_1,x_2)$ 为内积， $||x||=\sum_{k=1}^{n}x^{(k)}·x^{(k)}$ 。余弦相似度在计算过程中有求和操作，自动忽略 0 值。

余弦相似度还可改写为： $\cos(x_1,x_2)=\frac{x_1}{||x_1||}·\frac{x_2}{||x_2||}$

相当于 $x_1,x_2$ 被各自的长度除，将长度规范化，意味着不考虑 $x_1,x_2$ 量值。

余弦相似度不是一个严格定义的距离，它只满足正定性与对称性，但不满足三角不等式。
皮尔森系数

皮尔森系数（Pearson’s Correlation）定义为： $pc(x_1,x_2)=\frac{S_{x_1,x_2}}{S_{x_1}·S_{x_2}}$

其中 $S_{x_1,x_2}=cov(x_1,x_2)=\frac{1}{n-1}\sum_{k=1}^{n}(x_1-\overline x_1)(x_2-\overline x_2)$ 为 $x_1,x_2$ 的协方差。

$S_{x_1}=\sqrt{\frac{1}{n}\sum_{k=1}^{n}(x_1-\overline x_1)}$ ， $S_{x_2}=\sqrt{\frac{1}{n}\sum_{k=1}^{n}(x_2-\overline x_2)}$ 为标准差。

$\bullet$ $pc=1$ ， $x_1,x_2$ 完全正相关；

$\bullet$ $pc=-1$ ， $x_1,x_2$ 完全正相关；

$\bullet$ $pc=0$ ， $x_1,x_2$ 不存在线性关系（可能非线性）；
Bregman 散度

Bregman 散度（Bregman Divergence）：假设 $y$ 为真实点， $x$ 为 $y$ 的近似点或失真点（例如向 $y$ 点加入噪声得到 $x$ ），Bregman 散度的目的是度量 $x$ 与 $y$ 之间的损失量或差，是度量相异性的函数，当然相异性越小则意味着相似性越大。

$d(x,y)=f(x)-f(y)-<\nabla f(y),(x-y)>$

其中， $f(t)$ 为一个函数， $f(y)$ 为 $f(t)$ 在 $t=y$ 时的斜率， $(x-y)$ 为向量差， $<\nabla f(y),(x-y)>$ 为二者的内积。

$\bullet$ 注：可从 $d(x,y)=f(x)-L(x)，L(x)=f(y)+<\nabla f(y),(x-y)>$

$L(x)$ 代表在 $y$ 上正切与 $f(t)$ 函数的（平面）方程； $d(x,y)$ 是 $f(t)$ 与 $f(t)$ 的线性近似之间的差。

例： $f(t)=t^2$ ，假设真实点 $y=1$ ，求 $x=2,x=3$ 时分别的 Bregman 散度：
解： $d(x,y)=x^2-y^2-2y·(x-y)=\begin{cases}1,x=2\\4,x=3 \end{cases}$
选择正确的度量指标

$\bullet$ 对于稠密的、连续的数据：使用距离、SMC等；

$\bullet$ 对于稀疏的、非对称的数据：余弦相似度、Jaccard、广义Jaccard等；

$\bullet$ 对于量值重要的，衡量数值是否相近：距离等；

$\bullet$ 对于形状重要的，衡量形状是否相似：余弦等。