1. 一些散记知识点
1.1 数据对象与属性类型
关于属性
定义:属性(attribute)是一个数据字段,表示数据对象的一个特征。一般习惯称为”特征”
属性的分类
(1) 标称属性: “与名称相关”,标称属性的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,一次标称属性又被看作是分类的,这些值不必具有有意义的序。例如:水果的种类,苹果、香蕉
(2) 二元属性:二元属性是一种特殊的标称属性,只有两个类别或状态:0或1,若对应True和False则又称为布尔属性。
注意:如果一个二元属性的两种状态具有同等价值并且携带相同权重;即关于哪个结果应该用0或1编码并无偏好。则称这个二元属性是对称的 例如“男、女”这两种状态;如果一个二元属性的状态结果不是同等重要的,如HIV的阳性和阴性,则称这个二元属性为非对称的。因为用1表示最重要的结果(通常是稀有的)编码(HIV阳性),另一方用0编码。
(3) 序数属性:其可能的值之间具有有意义的序或秩评定,但是相继值的差是未知的。例如:成绩的差、良好、优划分。
注意,标称、二元和序数属性都是定性的,即他们描述对象的特征,而不给出实际大小或数值。
(4) 数值属性:数值属性是定量的,即它是可度量的量,用整数或实数值表示。数值属性可以是区间标度的或比率标度的。
1.2 数据的基本统计描述
- 中心趋势度量:均值、中位数和众数
(1) 均值(mean): 令
为
的
个观测值,则该值集合的算术平均为:
若每个 有对应的权重 ,则可以计算 加权平均为:
评价:尽管均值是描述数据集的最有用的单个量,但是它并非总是度量数据中心的最佳方法。主要问题是,均值对极端值(例如,离群点)很敏感。为了抵消少数极端值的影响,可以使用 截尾均值。
(2) 中位数(median):对于倾斜的非对称数据,数据中心的更好的度量是中位数。假设某属性 的 个值按递增序排列,如果 是奇数,则中位数为该有序集的中间值;如果 是偶数,则中位数不唯一,它可以是最中间两个值和它们之间的任意值,一般取二者平均。当观测数量很大时,中位数的计算开销很大。例如对给定形式为区间的数据分布:目标人群的收入10000~20000美元的人数为500,20000~30000美元的人数为200……中位数很难精确具体值,需要进行估计,用插值计算数据集的中位数近似值为:
其中, 是中位数的下界, 是整个数据集数值的个数, 是低于中位数区间的所有区间数值个数的频数和, 是中位数区间的频数, 是中位数区间的宽度。
(3) 众数(mode):数据集的众数是集合中出现最频繁的值。具有一个、两个、三个众数的数据集合分别称为单峰的、双峰的和三峰的。一般,具有两个或更多众数的数据集是多峰的。极端情况下,若集合中每个数值只出现一次,则该集合没有众数。
经验关系有: ,表示:如果均值和中位数已知,则适度倾斜的单峰频率曲线的众数容易近似计算。
(4) 中列数:一个集合中的最大值减去最小值。
下图是数据的倾斜程度示意图:
众数出现在中位数之前,表示数据是正倾斜的,看“尾巴”数据表现为右偏;反之,众数出现的中位数之后,表示数据是负倾斜的,左偏。
1.3 度量数据散布:极差、四分位数、方差、标准差和四分位数极差
极差、四分位数和四分位数极差
极差:集合中最大值max()与最小值min()之差
四分位数:4-分位数是3个数据点把数据(按大小升序排列)等分为4个相等的部分,使得每部分表示数据分布的四分之一。其中,第2个4-分位数为中位数。
四分位数极差:第1个和第3个4-分位数之间的距离是散步的一种简单度量,它给出被数据的中间一半所覆盖的范围。该距离称为四分位数极差(IQR),定义为:五数概括、盒图与离散点
(1) 识别可疑的离群点的通常规则是,挑选落在第3个4-分位数数之上或第1个4-分位数之下的至少 处的值。
(2) 五数概括:中位数( )、四分位数 和 、最小和最大观测值。即按次序: 。
(3) 盒图:
i. 盒的端点一般在四分位数上,使得盒的长度是四分位数极差IQR
ii. 中位数用盒内的线标记。
iii. 盒外的两条线(称为胡须)延伸到最小(Minimum)和最大(Maximum)观测值。
对于离群点,仅当最高和最低观测值超过四分位数不到 ,胡须扩展到它们。否则,胡须在出现在四分位数的 之内的最极端的观测值处终止,剩下的情况个别绘出。如下图:
方差和标准差
(1) 方差:数值属性
的
个观测值
的方差是:
(2)标准差:观测值的标准差 是方差 的平方根。可以证明最少 的观测值离均值不超过 个标准差。
1.4 度量数据的相似性和相异性
- 数据矩阵与相异性矩阵
(1) 数据矩阵(data matrix):数据矩阵或称对象-属性结构:这种数据结构用关系表的形式或
矩阵存放n个数据对象。假设有n个对象(如人,商品),被p个属性(如身高、年龄、体重等)所刻画。这些对象是
,等等,其中
是对象
的第
个属性的值。数据矩阵可以表示为如下:
(2) 相异性矩阵(dissimilarity matrix):相异性矩阵或称对象-对象结构,存放n个对象两两之间的临近度(距离),通常用一个
的矩阵表示:
其中, 表示对象i和j之间的相异性或距离,一般 非负,当i和j相近时,其值接近于0;i和j远离时,其值接近于1。相似性度量可以表示为相异性度量的函数,对于标称函数:
对于,像相关系数,互信息熵这类的度量方式,在某种程度上可以看成相似性度量。
标称属性的邻近性度量
两个对象i和j的相异性,可以根据不匹配率来计算:
其中,m是匹配的数目(即i和j取值状态相同的属性数),而p是刻画对象的属性总数。一个计算例子:
序数属性的邻近性度量
序数属性的值之间具有有意义的序或排位,而相继值之间的量值未知,如上图的表2.2的 -2属性。假设 是用于描述 个对象的一组序数属性之一。则关于 的相异性计算有以下步骤:
① 第
个对象的
值为
,属性
有
个有序的状态,表示排位
。用于对应排位
取代
。
② 将每个序数属性的值域映射到
之间,以便每个属性都有相同的权重,该权重定义为:
③相异性可以用数值属性距离度量计算,使用 作为第 个对象的 值。
例如:上图的表2.2的 -2属性这里记作 有三个状态,分别是一般、好、优秀,即 ,第一步,把 的每个值替换为它的排位,则四个对象将分别被赋值为3、1、2、3。第二步,将排位1映射到0.0,排位2映射到0.5,排位3映射到1.0来实现对排位的规格化。第三步,使用欧几里得距离得到如下的相异性矩阵:
可以看出,对象1和2距离为1最大,不相似,对象2和4也不相似。对象1和4距离为0最小,最相似。
- 二元属性的邻近性度量
(1) 对称的二元相异性:对于对称的二元属性,每个状态都同样重要。对于下表,如果对象i和j都用对称的二元属性刻画,则i和j的相异性为:
(2) 非对称的二元相异性:对于非对称的二元属性,两个状态不是同等重要的。给定两个非对称二元属性,若两个都取值为1的情况(正匹配)被认为比两个都取0的情况(负匹配)更有意义。可以在计算时忽略负匹配数。对于上表计算非对称二元相异性为:
- 数值属性的相异性
可用于计算数值属性刻画的对象的相异性的距离度量有:欧几里得距离、曼哈顿距离和闵可夫斯基距离等。令 和 是两个被p个数值属性描述的对象。
(1)欧几里得距离:上述对象i和j的欧几里得距离定义为:
(2) 曼哈顿距离:上述对象i和j的曼哈顿距离定义为:
(3) 闵可夫斯基距离:闵可夫斯基距离是欧几里得距离和曼哈顿距离的推广,定义如下:
这种距离又被称为 范数 ,当 时它表示曼哈顿距离即 范数,当 它表示欧几里得距离即 范数。
(3) 上确界距离:又称
范数和切比雪夫距离,是
时闵可夫斯距离的推广,形式化地定义为:
以上距离都满足如下数学性质:
- 非负性: :距离是一个非负的数值
- 同一性: : 对象到自身的距离为0
- 对称性: : 距离是一个对称函数
- 三角不等式: :从对象i到对象j的直接距离不会大于途径任何其他对象k的距离
满足以上条件的距离称作度量(metric)。
- 混合类型属性的相异性
将所有属性类型一起处理,只做一次分析。即将不同的属性组合在单个相异性矩阵中,把所有有意义的属性转换到共同的区间
中。假设数据集包含p个混合类型的属性,对象
和
之间的相异性
定义为:
其中,如果 或 缺失(即对象i或j没有属性f的度量值)或属性f为非对称二元属性的不重要值 ,则指示符 。否则,为1。属性 对于i和j之间相异性的贡献 根据它的类型计算:
- 是数值的: ,其中 遍取f的所有非缺失对象。
- 是标称或二元的:如果 ,则 ;否则等于1
是序数的:计算排位 和 ,并将 作为数值属性对待。
- 余弦相似性
余弦相似性是一种度量,它可以用来比较文档,或针对给定的查询词向量对文档排序。令
和
是两个待比较的向量,则余弦相似性为:
余弦值为0意味着两个向量呈90度夹角,没有匹配。余弦值越接近于1,夹角越小,向量之间的匹配越大。
当属性为二值属性时,余弦相似性函数可以用共享特征或属性解释。假设 ,则对象x具有第i个属性,此时 是x和y共有的属性数,而 是x具有的属性数与y具有的属性数的几何均值。于是, 是公共属性相对拥有的一种度量。
对于这种情况,余弦度量的一个简单的变种如下:
这是x和y所共有的属性个数与x或y所具有的属性个数之间的比值。这个函数称为 Tanimoto系数(距离)。