1. 一些散记知识点

1.1 数据对象与属性类型

关于属性

定义：属性(attribute)是一个数据字段，表示数据对象的一个特征。一般习惯称为”特征”
属性的分类

(1) 标称属性： “与名称相关”，标称属性的值是一些符号或事物的名称。每个值代表某种类别、编码或状态，一次标称属性又被看作是分类的，这些值不必具有有意义的序。例如：水果的种类，苹果、香蕉

(2) 二元属性：二元属性是一种特殊的标称属性，只有两个类别或状态：0或1，若对应True和False则又称为布尔属性。
注意：如果一个二元属性的两种状态具有同等价值并且携带相同权重；即关于哪个结果应该用0或1编码并无偏好。则称这个二元属性是对称的 例如“男、女”这两种状态；如果一个二元属性的状态结果不是同等重要的，如HIV的阳性和阴性，则称这个二元属性为非对称的。因为用1表示最重要的结果（通常是稀有的）编码（HIV阳性），另一方用0编码。
(3) 序数属性：其可能的值之间具有有意义的序或秩评定，但是相继值的差是未知的。例如：成绩的差、良好、优划分。
注意，标称、二元和序数属性都是定性的，即他们描述对象的特征，而不给出实际大小或数值。
(4) 数值属性：数值属性是定量的，即它是可度量的量，用整数或实数值表示。数值属性可以是区间标度的或比率标度的。

1.2 数据的基本统计描述

中心趋势度量：均值、中位数和众数

(1) 均值(mean)：令 $x_{1}, ..., x_{i},...,x_{N}$ 为 $X$ 的 $N$ 个观测值，则该值集合的算术平均为：

\bar{x} = \frac{\sum_{i = 1}^{N} x_{i}}{N} = \frac{x_{1} + x_{2} + . . . + x_{N}}{N}

$\bar{x}=\frac{\sum_{i=1}^{N}x_{i}}{N} = \frac{x_{1}+x_{2}+...+x_{N}}{N}$
若每个

x_{i}

$x_{i}$ 有对应的权重

w_{i}

$w_{i}$ ，则可以计算 加权平均为：

\bar{x} = \frac{\sum_{i = 1}^{N} w_{i} x_{i}}{N} = \frac{w_{1} x_{1} + w_{2} x_{2} + . . . + w_{N} x_{N}}{N}

$\bar{x}=\frac{\sum_{i=1}^{N}w_{i}x_{i}}{N} = \frac{w_{1}x_{1}+w_{2}x_{2}+...+w_{N}x_{N}}{N}$
评价：尽管均值是描述数据集的最有用的单个量，但是它并非总是度量数据中心的最佳方法。主要问题是，均值对极端值（例如，离群点）很敏感。为了抵消少数极端值的影响，可以使用 截尾均值。
(2) 中位数(median)：对于倾斜的非对称数据，数据中心的更好的度量是中位数。假设某属性

X

$X$ 的

N

$N$ 个值按递增序排列，如果

N

$N$ 是奇数，则中位数为该有序集的中间值；如果

N

$N$ 是偶数，则中位数不唯一，它可以是最中间两个值和它们之间的任意值，一般取二者平均。当观测数量很大时，中位数的计算开销很大。例如对给定形式为区间的数据分布：目标人群的收入10000~20000美元的人数为500，20000~30000美元的人数为200……中位数很难精确具体值，需要进行估计，用插值计算数据集的中位数近似值为：

m e d i a n = L_{i} + \frac{N / 2 - (\sum f r e q)_{l}}{f r e q_{m e d i a n}} w i d t h

$median=L_{i} + \frac{N/2-(\sum freq)_{l}}{freq_{median}}width$
其中，

L_{i}

$L_{i}$ 是中位数的下界，

N

$N$ 是整个数据集数值的个数，

(\sum f r e q)_{l}

$(\sum freq)_{l}$ 是低于中位数区间的所有区间数值个数的频数和，

f r e q_{m e d i a n}

$freq_{median}$ 是中位数区间的频数，

w i d t h

$width$ 是中位数区间的宽度。
(3) 众数(mode)：数据集的众数是集合中出现最频繁的值。具有一个、两个、三个众数的数据集合分别称为单峰的、双峰的和三峰的。一般，具有两个或更多众数的数据集是多峰的。极端情况下，若集合中每个数值只出现一次，则该集合没有众数。
经验关系有：

m e a n - m o d e \approx 3 \times (m e a n - m e d i a n)

$mean - mode \approx 3 \times (mean - median)$ ，表示：如果均值和中位数已知，则适度倾斜的单峰频率曲线的众数容易近似计算。
(4) 中列数：一个集合中的最大值减去最小值。
下图是数据的倾斜程度示意图：
这里写图片描述

众数出现在中位数之前，表示数据是正倾斜的，看“尾巴”数据表现为右偏；反之，众数出现的中位数之后，表示数据是负倾斜的，左偏。

1.3 度量数据散布：极差、四分位数、方差、标准差和四分位数极差

极差、四分位数和四分位数极差

极差：集合中最大值max()与最小值min()之差
四分位数：4-分位数是3个数据点把数据（按大小升序排列）等分为4个相等的部分，使得每部分表示数据分布的四分之一。其中，第2个4-分位数为中位数。
四分位数极差：第1个和第3个4-分位数之间的距离是散步的一种简单度量，它给出被数据的中间一半所覆盖的范围。该距离称为四分位数极差(IQR)，定义为： $IQR = Q_{3} - Q_{1}$
五数概括、盒图与离散点
(1) 识别可疑的离群点的通常规则是，挑选落在第3个4-分位数数之上或第1个4-分位数之下的至少 $1.5 \times IQR$ 处的值。
(2) 五数概括：中位数( $Q_{2}$ )、四分位数 $Q_{1}$ 和 $Q_{3}$ 、最小和最大观测值。即按次序： $Minimum, Q_{1}, Median, Q_{3}, Maximum$ 。
(3) 盒图：
i. 盒的端点一般在四分位数上，使得盒的长度是四分位数极差IQR
ii. 中位数用盒内的线标记。
iii. 盒外的两条线（称为胡须）延伸到最小(Minimum)和最大(Maximum)观测值。
对于离群点，仅当最高和最低观测值超过四分位数不到 $1.5 \times IQR$ ，胡须扩展到它们。否则，胡须在出现在四分位数的 $1.5 \times IQR$ 之内的最极端的观测值处终止，剩下的情况个别绘出。如下图：
方差和标准差

(1) 方差：数值属性 $X$ 的 $N$ 个观测值 $x_{1},x_{2}, ..., x_{N}$ 的方差是：

σ^{2} = \frac{1}{N} \sum_{i = 1}^{N} (x_{i} - \bar{x})^{2} = (\frac{1}{N} \sum_{i = 1}^{n} x_{i}^{2})^{2} - {\bar{x}}^{2}

$\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_{i}-\bar{x})^2 = (\frac{1}{N}\sum_{i=1}^{n}x_{i}^{2})^2 - \bar{x}^2$
(2)标准差：观测值的标准差

σ

$\sigma$ 是方差

σ^{2}

$\sigma^2$ 的平方根。可以证明最少

(1 - \frac{1}{k^{2}}) \times 100 %

$(1-\frac{1}{k^2}) \times 100\%$ 的观测值离均值不超过

k

$k$ 个标准差。

1.4 度量数据的相似性和相异性

数据矩阵与相异性矩阵

(1) 数据矩阵(data matrix)：数据矩阵或称对象-属性结构：这种数据结构用关系表的形式或 $n \times p(n个对象 \times p 个属性)$ 矩阵存放n个数据对象。假设有n个对象（如人，商品），被p个属性（如身高、年龄、体重等）所刻画。这些对象是 $x_{1} = (x_{11},x_{12}, x_{13}, ...,x_{1p}), x_{2}=(x_{21}, x_{22}, x_{23},...,x_{2p})$ ，等等，其中 $x_{ij}$ 是对象 $x_{i}$ 的第 $j$ 个属性的值。数据矩阵可以表示为如下：

[\begin{matrix} x_{11} & \dots & x_{1 f} & \dots & x_{1 p} \\ \dots & \dots & \dots & \dots & \dots \\ x_{i 1} & \dots & x_{i f} & \dots & x_{i p} \\ \dots & \dots & \dots & \dots & \dots \\ x_{n 1} & \dots & x_{n f} & \dots & x_{n p} \end{matrix}]

$\left[ \begin{matrix} x_{11} & \cdots &x_{1f} & \cdots & x_{1p} \\ \cdots & \cdots &\cdots & \cdots & \cdots \\ x_{i1} & \cdots &x_{if} & \cdots & x_{ip} \\ \cdots & \cdots &\cdots & \cdots & \cdots \\ x_{n1} & \cdots &x_{nf} & \cdots & x_{np} \\ \end{matrix} \right]$

(2) 相异性矩阵(dissimilarity matrix)：相异性矩阵或称对象-对象结构，存放n个对象两两之间的临近度(距离)，通常用一个 $n \times n$ 的矩阵表示：

[\begin{matrix} 0 \\ d (2, 1) & 0 \\ d (3, 1) & d (3, 2) & 0 \\ ⋮ & ⋮ & ⋮ \\ d (n, 1) & d (n, 2) & \dots & \dots & 0 \end{matrix}]

$\left[ \begin{matrix} 0 \\ d(2,1) & 0 \\ d(3,1) &d(3,2) &0 \\ \vdots & \vdots &\vdots \\ d(n,1) & d(n,2) &\cdots & \cdots & 0 \\ \end{matrix} \right]$
其中，

d (i, j)

$d(i,j)$ 表示对象i和j之间的相异性或距离，一般

d (i, j)

$d(i,j)$ 非负，当i和j相近时，其值接近于0；i和j远离时，其值接近于1。相似性度量可以表示为相异性度量的函数，对于标称函数：

s i m (i, j) = 1 - d (i, j)

$sim(i,j) = 1-d(i,j)$
对于，像相关系数，互信息熵这类的度量方式，在某种程度上可以看成相似性度量。

标称属性的邻近性度量
两个对象i和j的相异性，可以根据不匹配率来计算：

$d (i, j) = \frac{p - m}{p}$ $d(i, j)=\frac{p-m}{p}$
其中，m是匹配的数目（即i和j取值状态相同的属性数），而p是刻画对象的属性总数。一个计算例子：
序数属性的邻近性度量

序数属性的值之间具有有意义的序或排位，而相继值之间的量值未知，如上图的表2.2的 $test$ -2属性。假设 $f$ 是用于描述 $n$ 个对象的一组序数属性之一。则关于 $f$ 的相异性计算有以下步骤：

① 第 $i$ 个对象的 $f$ 值为 $x_{if}$ ，属性 $f$ 有 $M_{f}$ 个有序的状态，表示排位 $1, ..., M_{f}$ 。用于对应排位 $r_{ij}\in \{1,...,M_{f}\}$ 取代 $x_{if}$ 。
② 将每个序数属性的值域映射到 $[0.0 , 1.0]$ 之间，以便每个属性都有相同的权重，该权重定义为：

z_{i j} = \frac{r_{i f} - 1}{M_{f} - 1}

$z_{ij} = \frac{r_{if}-1}{M_{f} -1}$
③相异性可以用数值属性距离度量计算，使用

z_{i f}

$z_{if}$ 作为第

i

$i$ 个对象的

f

$f$ 值。
例如：上图的表2.2的

t e s t

$test$ -2属性这里记作

f

$f$ 有三个状态，分别是一般、好、优秀，即

M_{f} = 3

$M_{f}=3$ ，第一步，把

f

$f$ 的每个值替换为它的排位，则四个对象将分别被赋值为3、1、2、3。第二步，将排位1映射到0.0，排位2映射到0.5，排位3映射到1.0来实现对排位的规格化。第三步，使用欧几里得距离得到如下的相异性矩阵：

[\begin{matrix} 0 \\ 1.0 & 0 \\ 0.5 & 0.5 & 0 \\ 0 & 1.0 & 0.5 & 0 \end{matrix}]

$\left[ \begin{matrix} 0 \\ 1.0 & 0 \\ 0.5 & 0.5 &0 \\ 0 & 1.0 &0.5 &0 \\ \end{matrix} \right]$
可以看出，对象1和2距离为1最大，不相似，对象2和4也不相似。对象1和4距离为0最小，最相似。

二元属性的邻近性度量

(1) 对称的二元相异性：对于对称的二元属性，每个状态都同样重要。对于下表，如果对象i和j都用对称的二元属性刻画，则i和j的相异性为：

d (i, j) = \frac{r + s}{q + r + s + t}

$d(i,j)=\frac{r+s}{q+r+s+t}$
这里写图片描述

(2) 非对称的二元相异性：对于非对称的二元属性，两个状态不是同等重要的。给定两个非对称二元属性，若两个都取值为1的情况（正匹配）被认为比两个都取0的情况（负匹配）更有意义。可以在计算时忽略负匹配数。对于上表计算非对称二元相异性为：

d (i, j) = \frac{r + s}{q + r + s}

$d(i,j) = \frac{r+s}{q+r+s}$

数值属性的相异性

可用于计算数值属性刻画的对象的相异性的距离度量有：欧几里得距离、曼哈顿距离和闵可夫斯基距离等。令 $i = (x_{i1}, x_{i2},...,x_{ip})$ 和 $j = (x_{j1}, x_{j2}, ..., x_{jp})$ 是两个被p个数值属性描述的对象。

(1)欧几里得距离：上述对象i和j的欧几里得距离定义为：

d (i, j) = \sqrt{(x_{i 1} - x j 1)^{2} + (x_{i 2} - x j 2)^{2} + . . . + (x_{i p} - x j p)^{2}}

$d(i,j)=\sqrt{(x_{i1}-x{j1})^2+(x_{i2}-x{j2})^2+...+(x_{ip}-x{jp})^2}$

(2) 曼哈顿距离：上述对象i和j的曼哈顿距离定义为：

d (i, j) = | x_{i 1} - x j 1 | + | x_{i 2} - x j 2 | + . . . + | x_{i p} - x j p |

$d(i,j)=|x_{i1}-x{j1}|+|x_{i2}-x{j2}|+...+|x_{ip}-x{jp}|$

(3) 闵可夫斯基距离：闵可夫斯基距离是欧几里得距离和曼哈顿距离的推广，定义如下：

d (i, j) = \sqrt[h]{| x_{i 1} - x j 1 |^{h} + | x_{i 2} - x j 2 |^{h} + . . . + | x_{i p} - x j p |^{h}}

$d(i,j)=\sqrt[h]{|x_{i1}-x{j1}|^h+|x_{i2}-x{j2}|^h+...+|x_{ip}-x{jp}|^h}$
这种距离又被称为

L_{h}

$L_{h}$ 范数

(h \geq 1)

$(h\ge1)$ ，当

(h = 1)

$(h=1)$ 时它表示曼哈顿距离即

L_{1}

$L_{1}$ 范数，当

(h = 2)

$(h=2)$ 它表示欧几里得距离即

L_{2}

$L_{2}$ 范数。

(3) 上确界距离：又称 $L_{max}, L_{\infty}$ 范数和切比雪夫距离，是 $h\to \infty$ 时闵可夫斯距离的推广，形式化地定义为：

d (i, j) = lim_{h \to \infty} (\sum_{f = 1}^{p} | x_{i f} - x_{j f} |^{h})^{\frac{1}{h}} = {max}_{f}^{p} | x_{i f} - x_{j f} |

$d(i,j)=\lim_{h\to\infty}(\sum_{f=1}^p|x_{if}-x_{jf}|^h)^{\frac{1}{h}}=\max_{f}^p|x_{if}-x_{jf}|$
以上距离都满足如下数学性质：

非负性： $d(i,j)\ge0$ :距离是一个非负的数值
同一性： $d(i,i) = 0$ : 对象到自身的距离为0
对称性： $d(i,j)=d(j,i)$ : 距离是一个对称函数
三角不等式： $d(i,j)\le d(i,k)+d(k,j)$ :从对象i到对象j的直接距离不会大于途径任何其他对象k的距离

满足以上条件的距离称作度量(metric)。

混合类型属性的相异性

将所有属性类型一起处理，只做一次分析。即将不同的属性组合在单个相异性矩阵中，把所有有意义的属性转换到共同的区间 $[0.0,1.0]$ 中。假设数据集包含p个混合类型的属性，对象 $i$ 和 $j$ 之间的相异性 $d(i,j)$ 定义为：

d (i, j) = \frac{\sum_{f = 1}^{p} δ_{i j}^{(f)} d_{i j}^{(f)}}{\sum_{f = 1}^{p} δ_{i j}^{(f)}}

$d(i,j)=\frac{\sum_{f=1}^p \delta_{ij}^{(f)}d_{ij}^{(f)}}{\sum_{f=1}^p\delta_{ij}^{(f)}}$
其中，如果

x_{i f}

$x_{if}$ 或

x_{j f}

$x_{jf}$ 缺失（即对象i或j没有属性f的度量值）或属性f为非对称二元属性的不重要值

x_{i f} = x_{j f} = 0

$x_{if}=x_{jf}=0$ ，则指示符

δ_{i j}^{(f)} = 0

$\delta_{ij}^{(f)}=0$ 。否则，为1。属性

f

$f$ 对于i和j之间相异性的贡献

d_{i j}^{(f)}

$d_{ij}^{(f)}$ 根据它的类型计算：

$f$ 是数值的： $d_{ij}^{(f)}=\frac{|x_{if}-x_{jf}|}{max_{h}x_{hf}-min_{h}x_{hf}}$ ，其中 $h$ 遍取f的所有非缺失对象。
$f$ 是标称或二元的：如果 $x_{if}=x_{jf}$ ，则 $d_{ij}^{(f)}=0$ ；否则等于1
$f$ 是序数的：计算排位 $r_{if}$ 和 $z_{if}=\frac{r_{if}-1}{M_{f}-1}$ ，并将 $z_{if}$ 作为数值属性对待。
- 余弦相似性

余弦相似性是一种度量，它可以用来比较文档，或针对给定的查询词向量对文档排序。令 $x$ 和 $y$ 是两个待比较的向量，则余弦相似性为：

s i m (x, y) = \frac{x \cdot y}{| | x | | | | y | |}

$sim(x,y)=\frac{x \cdot y}{||x|| ||y||}$
余弦值为0意味着两个向量呈90度夹角，没有匹配。余弦值越接近于1，夹角越小，向量之间的匹配越大。
当属性为二值属性时，余弦相似性函数可以用共享特征或属性解释。假设

x_{i} = 1

$x_{i}=1$ ，则对象x具有第i个属性，此时

x \cdot y

$x\cdot y$ 是x和y共有的属性数，而

| x | | y |

$|x||y|$ 是x具有的属性数与y具有的属性数的几何均值。于是，

s i m (x, y)

$sim(x,y)$ 是公共属性相对拥有的一种度量。
对于这种情况，余弦度量的一个简单的变种如下：

s i m (x, y) = \frac{x \cdot y}{x \cdot x + y \cdot y - x \cdot y}

$sim(x,y)=\frac{x\cdot y}{x\cdot x+y\cdot y - x\cdot y}$
这是x和y所共有的属性个数与x或y所具有的属性个数之间的比值。这个函数称为 Tanimoto系数(距离)。

数据挖掘读书笔记--第二章：认识数据

1. 一些散记知识点

猜你喜欢