SLIQ (Supervised Learning In Quest)
算法利用
3
种数据结构来构造树,分别是属性表、类表和类直方图
。
SPRINT
算法是对
SLIQ
算法的改进,其目的有两个:
一是为了能够更好的并行建立决策树,二是为了使得决策树
T
适合更大的数据集
运用REP方法得到的决策树是关于测试数据集的具有最高精度的子树,并且是规模最小的树
CART 剪枝算法
EBP剪枝法是一种应用于C4. 5算法的自下向上的剪枝法,被认为是PEP剪枝法的改进,因为EBP剪枝基于对训练数据集的更加悲观的估计。同PEP剪枝,EBP仅利用训练数据集来构建和剪枝决策树。
关联规则:
支持度和置信度。
搜索算法
该类算法只适合于项集数量相对较小的数据集中的关联规则挖掘。
分层算法(宽度优先算法)
Apriori
算法是这类算法的典型代表,该算法需扫描数据集的次数等于最大频繁项目集的项目数
深度优先算法 FP-growth。
划分算法 划分算法的基本思想是将整个数据集划分成可以存放在内存中进行处理的数据块,以节省访问外存的I/0开销。
抽样算法 如何计算负边界以找回部分遗漏的频繁项集是抽样算法的关键。
有基于
Apriori
算法、
DHP
算法、
DIC
算法的并行算法和基于集群和格遍历的并行算法
。
CD
算法的基本思想是
:
在每一个处理机上都存储全局的候选项集和频繁项集,每一步计算时利用
Apriori
算法计算出候选集在本地数据上的支持数,然后做一次同步,各处理机交换本地的候选项集的支持数,使得每个处理机的候选项集都得到全局支持数,从而得到全局频繁项集
Lk
。
DD算法更好地利用了全局的有效存储空间,它在每个处理中存储不同的候选项集,这样在处理机数量增加时,一步可以增加计算的候选项集数量。每个处理机为了计算本地候选项集的全局支持数,必须既要计算候选项目集在本地的支持数,也要计算在所有其它的处理机上的支持数
CaD
算法综合了
DD
和
CD
算法,以弥补它们各自的不足。 与
DD
算法相似,
CaD
算法也是在各节点间分配候选集,但它有选择地对数据库进行分割,使每个节点可以根据本地的数据来处理它的候选集,减少处理器之间对数据和各候选集的依赖,从而减少同步,减少通信量。
增量式关联规则更新技术应具备下列特性:
(1)规则应可随数据的变化而变化;
(2)规则更新时应可避免再次处理旧数据,而可利用在先前发现过程中所获得的结果;
(3)更新维护方法应尽可能独立于具体的发现算法。
粗糙集理论:
粗糙集是一个强大的数据分析工具,它能表达和处理不完备信息;能在保留关键信息的前提下对数据进行化简并求得知识的最小表达式;能识别并评估数据之间的依赖关系,揭示出概念的简单模式;能从经验数据中获取易于证实的规则知识。
CEBARKCC
算法是一种比较典型的基于信息熵的属性约简算法。该算法是建立在决策属性集相对于条件属性集的条件熵的基础上的,
神经网络:
数据表示方法越明显,冗余数据越少,神经网络就越容易学习;神经网络的神经元节点个数越多,权值的个数越多,则它的训练时间就越长,而且神经网络的泛化能力就越差。
按五大个原则对神经网络进行归类:
按照网络的拓扑结构区分,有前向网络和反馈网络;
按照学习方式区分,则分为有教师学习和无教师学习网络;
按照网络性能区分,则有连续型和离散性网络,随机型和确定型网络;
按照突触性质区分则有一阶线性关联网络和高阶非线性关联网络;
按对生物神经系统的层次模拟区分,则有神经元层次模型,组合式模型,网络层次模型,神经系统层次模型和智能型模型。
人工神经网络由八个方面的要素组成,分别为:
l
一组处理单元;
l
处理单元的激活状态;
l
每个处理单元的输出函数;
l
处理单元之间的联接模式;
l
传递规则;
l
把处理单元的输入及当前状态结合起来产生激活值的激活规则;
l
通过经验修改联接强度的学习规则;
l
系统运行的环境
。
BP神经网络。RBF神经网络。hopfiend神经网络。sofm神经网络。
遗传算法:
遗传操作包含三个基本遗传算子(Genetic operator):
l
选择
(Selection)
从群体中选择优胜个体,淘汰劣质个体的操作叫选择。选择算子有时又称为再生算子(Reproduction operator)。
l
交叉
(Crossover)
所谓交叉又是指把两个父代个体的部分结构加以替换重组而生成新个体的操作。
l
变异
(Mutation)
变异算子的基本内容是对群体中个体串的某些基因座上的基因值作变动。
GA遗传算法编码策略的研究
改进遗传算法主要研究内容包括:
l
分层遗传算法;
l
自适应遗传算法;
l
小生境遗传算法;
l
并行遗传算法;
l
混合遗传算法
。
l
基于遗传算法的关联规则挖掘
l
基于遗传算法的聚类算法
l
基于遗传算法的分类算法
l
基于模糊遗传算法的建模
支持向量机
One-c1ass SVM算法
RSVM算法
LS-SVM算法
WSVM算法
FSVM
空间数据库挖掘
空间查询及其操作的主要特点有:
空间操作相对复杂和不精确
空间连接(
Spatial Join
)问题
相同的地理区域经常有不同的视图
一个空间实体可用空间和非空间的属性来描述
空间查询工作
:
区域查询或范围查询:寻找那些与在查询中指定区域相交的实体。
最邻近查询:寻找与指定实体相邻的实体
距离扫描:寻找与指定的实体相距一段确定距离的实体,这个距离是逐渐增大的。
小提示:所有这些查询都可以用来辅助空间聚类或分类操作。
空间场模型:
空间场数据模型的优点是数据结构简单,便于空间法分析与模拟。缺点是不利于表达空间实体,数据量也大。
实体必须符合三个条件:①可被识别,②重要(与问题相关),③可被描述(有特征)。
空间关联分析
空间决策树 空间聚类分析
多媒体数据挖掘的特点
多媒体数据复杂。
多媒体信息语义关联性强。
多媒体信息具有时空相关性。
知识的表达和解释比较困难,多媒体挖掘所得出的模式往往比较隐晦。
图像挖掘
图像包含着丰富的视觉特性和空间特性。
视频挖掘
视频包括丰富的内容特性,除了图像具有的视觉特性和空间特性外,还具有时间特性、视频对象特性和运动特性等。
多媒体综合挖掘
多媒体概念与单媒体的区别在于,它是一个集成的系统概念,媒体之间有联系。
音频挖掘
音频挖掘通常有两种途径: ①运用语音识别技术将语音识别成文字,将音频挖掘转换成文本挖掘; ②直接从音频中提取声音特征,如音调、韵律等,运用聚类的方法分析声音模式。
图像特征标识的相似检索方法:
基于颜色直方图的特征标识
多特征构成的特征标识
基于小波的特征标识
带有区域粒度的小波特征标识
文本挖掘过程一般包括文本准备、特征标引、特征集缩减、知识模式的提取、知识模式的评价、知识模式的输出等过程
.
贝叶斯分类算法。K最近邻居(KNN)算法 ,聚类算法,遗传算法。
漂移学习算法:FLORA 算法,CVFDT,离线C4.5,
流聚类算法:STREAM和CluStream
马尔可夫