第三章 K邻近法

算法流程

输入：训练数据集

T = {(x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{N}, y_{N})}

$T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$
其中

x_{i} \in R^{n}

${x_i\in \bf R^n}$ 为实例的特征向量

y_{i} \in {c_{1}, c_{2}, \dots, c_{K}}, i = 1, 2, \dots, N

$y_i\in \{c_1,c_2,\cdots,c_K\},i=1,2,\cdots,N$ 为实例的类别
输出：实例

x

$x$ 所属的类

y

$y$
（1）根据给定的距离度量，在训练集

T

$T$ 中找出与

x

$x$ 最邻近的

k

$k$ 个点，涵盖着

k

$k$ 个点的

x

$x$ 的邻域记做

N_{k} (x)

$N_k(x)$
（2）在

N_{k} (x)

$N_k(x)$ 中根据分类决策规则（如多数表决）决定

x

$x$ 的类别

y

$y$ ：

y = a r g max_{c_{j}} \sum_{x_{i} \in N_{k} (x)} I (y_{i} = c_{j}), i = 1, 2, \dots, N; j = 1, 2, \dots, K

$y=arg\max_{c_j}\sum_{x_i\in N_k(x)}I(y_i=c_j),i=1,2,\cdots,N;j=1,2,\cdots,K$
其中

I

$I$ 为指示函数，当

y_{i} = c_{j}

$y_i=c_j$ 的时候等于1，否则为0

距离度量

一般为 $L_p$ 距离，设特征空间 $X$ 是 $n$ 维实数向量空间 $\bf R^n$ ， $x_i,x_j \in X,x_i=({x_i}^{(1)},{x_i}^{(2)},\cdots,{x_i}^{(n)})^T,x_j=({x_j}^{(1)},{x_j}^{(2)},\cdots,{x_j}^{(n)})^T$
$x_i,x_j$ 的 $L_p$ 距离定义为

L_{p} (x_{i}, x_{j}) = {(\sum_{l = 1}^{n} | x_{i}^{(l)} - x_{j}^{(l)} |^{p})}^{\frac{1}{p}}

$L_p(x_i,x_j)=\left({\sum_{l=1}^n |x_i^{(l)}-x_j^{(l)}|^p}\right)^\frac{1}{p}$
当

p = 2

$p=2$ 时，称为欧氏距离

L_{2} (x_{i}, x_{j}) = {(\sum_{l = 1}^{n} | x_{i}^{(l)} - x_{j}^{(l)} |^{2})}^{\frac{1}{2}}

$L_2(x_i,x_j)=\left({\sum_{l=1}^n |x_i^{(l)}-x_j^{(l)}|^2}\right)^\frac{1}{2}$
当

p = 1

$p=1$ 时，称为曼哈顿距离

L_{1} (x_{i}, x_{j}) = \sum_{l = 1}^{n} | x_{i}^{(l)} - x_{j}^{(l)} |

$L_1(x_i,x_j)={\sum_{l=1}^n |x_i^{(l)}-x_j^{(l)}|}$
当

p = \infty

$p=\infty$ 时，为各坐标距离的最大值

L_{\infty} (x_{i}, x_{j}) = max_{l} | x_{i}^{(l)} - x_{j}^{(l)} |

$L_{\infty}(x_i,x_j)=\max_l{|x_i^{(l)}-x_j^{(l)}|}$

K值的选择

选择较小的K值相当于用较小的领域中的训练实例进行预测，近似误差会减小但是估计误差会增大
选择较大的K值近似误差会增大但是估计误差会减小

分类决策规则

一般采用多数表决规则