一、模糊挖掘

不确定性挖掘方法——模糊挖掘
– 基于概率
– 基于粗糙集

– 基于模糊集

模糊集的表示

（1）Zadeh表示法

（2）序偶表示法

（3）向量表示法

模糊集运算
定义：设A，B是论域U的两个模糊子集，定义

模糊统计法

模糊矩阵

定义：设 R = (rij)m×n ,0 ≤ rij ≤ 1,称R为模糊矩阵。当 rij 只取0或1时，称R为布尔（Boole）矩阵。当模糊方阵 R = (rij)n×n的对角线上的元素 rij都为1时，称R为模糊单位矩阵

模糊矩阵运算

截矩阵

模糊聚类

相似矩阵建立方法

计算相似度：相似系数、距离、贴近度

贴近度

σ (A,B)表示两个模糊集A，B之间的贴近程度。

二、空间挖掘

空间挖掘（Spatial Mining）

– 是数据挖掘技术在空间数据方面的应用。
– 从空间数据库中抽取隐含的知识、空间关系或非显式地存储在空间数据库中的其他模式，用于理解空间数据、发现数据间（空间或非空间）的关系。
– 空间数据是从遥感、地理信息系统（GIS）、多媒体系统、医学和卫星图像等多种应用中收集而来。
– 空间数据一般具有空间拓扑或距离信息，通常需要以复杂的多维空间索引结构组织。

空间数据

– 与二维、三维或更高维空间的空间坐标及空间范围相关的数据，例如地图上的经纬度、湖泊、城市、身体器官、设备零部件等。
– 访问空间数据要比访问非空间数据更复杂。对空间数据的访问要使用专门的操作和数据结构。空间数据可以用包含着诸如“接近、上下左右前后、包含于”等空间操作符的查询来访问。

空间索引技术大多是基于空间目标的近似技术
– 空间映射法
    • （1）采用低维空间向高维空间映射的方式：ｋ维空间具有ｎ个顶点的目标可以映射成ｎ*ｋ维空间的点。映射后，可以直接采用点索引技术。
    • （2）直接向一维空间映射：通常数据空间被划分成大小相同的网格单元，通过给这些网格单元编码形成一维目标，用传统的一维的索引结构（如Ｂ+树等）索引。
– 分割方法
    • （1）采用不允许空间重叠的索引方法：将所在的数据空间按某种方法（如二叉树划分、四叉树划分、格网划分等）划分成彼此不相交的子空间。
    • （2）采用允许空间重叠的索引法：将索引空间划分为多级的子空间，这些子空间允许重叠，但是一个空间实体完全包含在某一子空间中。

• 空间索引是指依据空间实体的位置和形状或空间实体之间的某种空间关系，按一定顺序排列的一种数据结构，其中包含空间实体的概要信息。
• 空间索引的性能优劣直接影响空间数据库和地理信息系统的整体性能，也对空间数据挖掘的效率有影

空间数据操作

– 假定A 和B是二维空间中的两个空间实体。每个实体由空间中的点的集合组成：<xa,ya>∈ A, <xb,yb>∈B。两个空间实体之间存在若干拓扑关系。这些关系基于两个实体的位置：
• 分离（Disjoint）：A与B分离，表示B中任何点都不在A中，反之亦然。
• 重叠/相交： A与B重叠或相交表示至少有一个点既在A里也在B里。
• 等价： A与B这两个实体的所有点都是共有的。
• 包含于： A包含于B，表示A的所有点都在B里。反之不一定。
• 覆盖/包含： A覆盖或包含B，当且仅当B包含于A。
– 空间谓词有三种形式：
• 表示拓扑关系的谓词，如相交、覆盖等；
• 表示空间方向的谓词，如东、西、左、右等；
• 表示距离的谓词，如接近、远离等。

常用的两个空间实体之间的距离有：

最小值方法最大值方法平均值方法中心方法

空间关联规则

– 空间关联规则是空间数据实体之间的关联，有：
• 非空间的先决条件和空间性的结果：如在北京、所有的重点学校都是位于老住宅区附近。
• 空间性先决条件和非空间的结果：如在北京、房子在国贸附近，就比较贵。
• 空间性先决条件和空间性结果：如在北京、所有市区的房子都在三环以内。
– 空间关联规则挖掘是传统关联规则挖掘的延伸，常用最小支持度和最小可信度来作为基本的统计参数，由于空间数据的特点，往往是在多层概念上进行归纳。
– 挖掘空间关联规则的有效方法是自上而下、逐步加深的搜索技术。首先在高的概念层次进行搜索，在较粗的精度级别查找频繁发生的模式和在这些模式中较强的隐含关系；然后，对频繁发生的模式加深搜索至较低的概念层次，这种处理持续到找不到频繁发生的模式为止。

典型的五步算法：

– 步骤1：通过给定的查询抽取出相关的数据。
– 步骤2：应用一个粗的空间运算方法，计算整个相关数据的集合。
– 步骤3：过滤出那些支持度小于最小支持度阈值的1阶谓词。
– 步骤4：应用一个细化的空间计算方法，从所导出的粗的谓词集合中计算谓词。
– 步骤5：向低层深入，在多个概念层次上找到关联规则的完整集合

空间关联规则算法

– 输入：空间数据库D；概念层次C；层次的最小支持度和可信度s和α；寻找感兴趣实体的查询q ；感兴趣的拓扑关系p。
– 输出：空间关联规则R。
• （1）D’=q(D)；
• （2）在D’ 中应用粗糙谓词，建造CP；// CP是由满足D’中实体对的粗糙谓词组成的
• （3）通过寻找满足s的粗糙谓词来找到频繁粗糙谓词FCP；
• （4）从FCP中找到频繁精确谓词FFP；
• （5) 寻找所有的频繁精确谓词得到R，然后归纳准则.

空间分类

– 空间分类方法用来对空间实体的集合进行分类。给空间实体分类，可以通过非空间属性或空间属性或二者结合，并可利用概念层次来进行取样。对于样本数据的训练可以通过改造传统的分类算法来完成

建造一个决策树，有五个主要步骤：

– 根据已知的分类，从数据D中找到例子S。
– 确定最佳谓词p用来分类。一般首先在较粗的层次中寻找相关谓词，然后再在较为细化的层次。
– 找到最佳的缓冲区大小和形状。对于取样中的每个实体，它周围的区域被称为缓冲区。目标是选择一个能产生对测试集中的类型进行最不同的缓冲区。
– 使用p和C，对每个缓冲区归纳谓词。
– 使用泛化的谓词和ID3建造二叉树T。

空间决策树算法

– 输入：空间数据库D；概念层次C；预定的类别。
– 输出：二叉决策树T。
• （1）根据预定的类别，从数据D中找到例子S；
• （2）确定最佳谓词p用来分类；
• （3）找到最佳的缓冲区大小和形状；
• （4）使用p和C，对每个缓冲区归纳谓词；
• （5）使用泛化的谓词和ID3建造二叉树T.

空间聚类

– 多维聚类
– 空间聚类找到的聚类不应该依赖于检验空间中的点的顺序，而且聚类也不应该受不相干的点影响。
– 传统的聚类算法可以通过改造来实现空间数据聚类。

DBCLASD（Distribution Based Clustering of Large Spatial Databases），它是DBSCAN的扩展。假定聚类中的项目是均匀分布的，算法尝试确定满足最近邻居距离的分布。只要最近的邻居距离满足均一分布的假设，那么这个元素就被加入聚类。

DBCLASD算法

三、序列挖掘

时间序列数据库

– 不同时间重复测量得到的值或事件的序列构成
– 定期记录数据
– 时间序列成分的特征
• 趋势，循环，周期，突变

应用

– 金融：股票价格，通货膨胀
– 工业：能量功耗
– 自然科学：实验结果
– 气象学：天气

时间序列运动的种类

– T：趋势或长期运动(trend curve):值时间序列图在长时间间隔运动的大体方向
– C：周期运动或周期变化:关于趋势线或曲线的长期波动
• 例如：商业周期，可能是固定的也可能是不固定的
– S：季节性运动或季节性变化
• 即：连续几年在相应的月份都出现了相同的事件.
– I：不规则或随机的运动

时间序列分析

– 将时间序列分解为四种基本运动
– 加法模型: TS = T + C + S + I
– 乘法模型: TS = T × C × S × I

基本性质: Apriori (Agrawal & Sirkant’94)
– 如果序列s不频繁
– S的所有超序列都不是频繁的

GSP (广义序列模式)挖掘算法

– 由Agrawal和 Srikant提出, EDBT’9
• 方法
    – 最初，数据库中的每个元素都是length-1的候选对象
    – 在每一层(即：length-k序列) do
        • 扫描数据库，收集每个候选序列的支持
        • 使用Apriori从length-k的频繁序列中产生length-(k+1)的候选序列
    – 重复上述过程直至再找不到频繁序列或候选序列

• 主要优点:利用Apriori对候选序列

四、混合高斯分布

混合高斯模型Gaussian Mixture Model GMM

– 前述方法中点属于哪个类是固定的
– GMM中点属于哪个类是有概率的
– 优点：
• 在计算中间过程中，介于两个类之间的点归属不定，通过概率降低硬性分类造成的计算误差

GMM过程

– GMM分类过程就是找出k个高斯分布过程
– 每个样本点是k个高斯模型的加权和
– 每个高斯模型代表了一个类（Component ）
– 样本点在k个高斯模型上投影分别得到在各个类上的概率
– 可以选取概率最大的类做为样本点所在类的结果

【数据挖掘学习笔记】12.复杂类型数据挖掘