数据挖掘里面机器学习算法的讲解1

回归模型：

误差项要满足正态分布，无偏性，共方差性，和独立性。用最小二乘法，来评估参数。也有很多非线性模型。

贝叶斯算法：

贝叶斯数据需要离散，不完整数据，没有输入和输出的概念，节点运算独立。

EM算法，

我毛华望QQ849886241，个人博客 http://blog.csdn.net/my_share

聚类分析：

伸缩性，处理不同类型属性的能力，发现任意形状的聚类，输入领域的最小化，处理噪声能力，

k-means，k-medoids，

凝聚和分裂两种方法。

birch主要是数据量大，不能搬到内存中，然后进行的分阶段聚类。简单说就是在已经聚类的情况下，在聚类。

rock算法，优化了，两个相似临域的点不能算是一个簇的问题。

cure算法，解决了偏向球形和相似大小的问题，在处理孤立点的时候更健壮。

基于密度的聚类方式，

DBSCAN 高密度连通区域聚类。

STING ：统计信息网格聚类。它的优点，计算是独立于查询的；有利于并行处理和增量更新；效率很高

缺点如果粒度比较细，处理的代价会显著增加；但是，如果网格结构最低层的粒度太粗，将会降低聚类分析的质量；

在构建一个父亲单元时没有考虑孩子单元和其相邻单元之间的关系，因此，结果簇的形状是 isothetic ，即所有的聚类边界或者是水平的，或者是竖直的，没有对角的边界。

WaveCluster ：利用小波变换聚类

cobweb统计学方法，优点在于：它不需要用户输入参数来确定分类的个数，它可以自动修正划分中类的数目。

• 缺点是：首先，它基于这样一个假设：在每个属性上的概率分布是彼此独立的。由于属性间经常是相关的，这个假设并不总是成立。此外，聚类的概率分布表示使得更新和存储类相当昂贵。因为时间和空间复杂度不只依赖于属性的数目，而且取决于每个属性的值的数目，所以当属性有大量的取值时情况尤其严重。

CLIQUE：维增长子空间聚类方法。缺点： • CLIQUE 算法容易破坏密集区域的边缘，降低最终结果的准确性。不能自动去除数据集中的孤立点，增加了计算复杂性。 • 可能会剪掉一些密集单元，对最终的聚类结果质量造成影响。算法的多步骤都采用近似算法，聚类结果的精确性可能因此降低

PROCLUS ：维归约子空间聚类方法。

FCM：模糊聚类。

决策树

优点：

使用者不需要了解很多背景知识，只要训练事例能用属性→结论的方式表达出来，就能用该算法学习；

决策树模型效率高，对训练集数据量较大的情况较为适合；

分类模型是树状结构，简单直观，可将到达每个叶结点的路径转换为 IF→THEN 形式的规则，易于理解；

决策树方法具有较高的分类精确度。

ID3算法。

C4.5算法。

CART算法。

PUBLIC算法的建树是基于SPRINT方法、对其决策树的剪枝使用的是基于最小编码代价的MDL算法，但MDL原则不能直接应用

SLIQ (Supervised Learning In Quest) 算法利用 3 种数据结构来构造树，分别是属性表、类表和类直方图。

SPRINT 算法是对 SLIQ 算法的改进，其目的有两个：一是为了能够更好的并行建立决策树，二是为了使得决策树 T 适合更大的数据集

运用REP方法得到的决策树是关于测试数据集的具有最高精度的子树，并且是规模最小的树

CART 剪枝算法

EBP剪枝法是一种应用于C4. 5算法的自下向上的剪枝法，被认为是PEP剪枝法的改进，因为EBP剪枝基于对训练数据集的更加悲观的估计。同PEP剪枝，EBP仅利用训练数据集来构建和剪枝决策树。

关联规则：

支持度和置信度。

搜索算法

该类算法只适合于项集数量相对较小的数据集中的关联规则挖掘。

分层算法(宽度优先算法)

Apriori 算法是这类算法的典型代表，该算法需扫描数据集的次数等于最大频繁项目集的项目数

深度优先算法 FP-growth。

划分算法划分算法的基本思想是将整个数据集划分成可以存放在内存中进行处理的数据块，以节省访问外存的I/0开销。

抽样算法如何计算负边界以找回部分遗漏的频繁项集是抽样算法的关键。

有基于 Apriori 算法、 DHP 算法、 DIC 算法的并行算法和基于集群和格遍历的并行算法。

CD 算法的基本思想是 : 在每一个处理机上都存储全局的候选项集和频繁项集，每一步计算时利用 Apriori 算法计算出候选集在本地数据上的支持数，然后做一次同步，各处理机交换本地的候选项集的支持数，使得每个处理机的候选项集都得到全局支持数，从而得到全局频繁项集 Lk 。

DD算法更好地利用了全局的有效存储空间，它在每个处理中存储不同的候选项集，这样在处理机数量增加时，一步可以增加计算的候选项集数量。每个处理机为了计算本地候选项集的全局支持数，必须既要计算候选项目集在本地的支持数，也要计算在所有其它的处理机上的支持数

CaD 算法综合了 DD 和 CD 算法，以弥补它们各自的不足。与 DD 算法相似， CaD 算法也是在各节点间分配候选集，但它有选择地对数据库进行分割，使每个节点可以根据本地的数据来处理它的候选集，减少处理器之间对数据和各候选集的依赖，从而减少同步，减少通信量。

增量式关联规则更新技术应具备下列特性:

(1)规则应可随数据的变化而变化；

(2)规则更新时应可避免再次处理旧数据，而可利用在先前发现过程中所获得的结果；

(3)更新维护方法应尽可能独立于具体的发现算法。

粗糙集理论：

粗糙集是一个强大的数据分析工具，它能表达和处理不完备信息；能在保留关键信息的前提下对数据进行化简并求得知识的最小表达式；能识别并评估数据之间的依赖关系，揭示出概念的简单模式；能从经验数据中获取易于证实的规则知识。

CEBARKCC 算法是一种比较典型的基于信息熵的属性约简算法。该算法是建立在决策属性集相对于条件属性集的条件熵的基础上的，

神经网络：

数据表示方法越明显，冗余数据越少，神经网络就越容易学习；神经网络的神经元节点个数越多，权值的个数越多，则它的训练时间就越长，而且神经网络的泛化能力就越差。

按五大个原则对神经网络进行归类：

按照网络的拓扑结构区分，有前向网络和反馈网络；

按照学习方式区分，则分为有教师学习和无教师学习网络；

按照网络性能区分，则有连续型和离散性网络，随机型和确定型网络；

按照突触性质区分则有一阶线性关联网络和高阶非线性关联网络；

按对生物神经系统的层次模拟区分，则有神经元层次模型，组合式模型，网络层次模型，神经系统层次模型和智能型模型。

人工神经网络由八个方面的要素组成，分别为：

l 一组处理单元；

l 处理单元的激活状态；

l 每个处理单元的输出函数；

l 处理单元之间的联接模式；

l 传递规则；

l 把处理单元的输入及当前状态结合起来产生激活值的激活规则；

l 通过经验修改联接强度的学习规则；

l 系统运行的环境。

BP神经网络。RBF神经网络。hopfiend神经网络。sofm神经网络。

遗传算法：

遗传操作包含三个基本遗传算子(Genetic operator)：

l 选择 (Selection)

从群体中选择优胜个体，淘汰劣质个体的操作叫选择。选择算子有时又称为再生算子(Reproduction operator)。

l 交叉 (Crossover)

所谓交叉又是指把两个父代个体的部分结构加以替换重组而生成新个体的操作。

l 变异 (Mutation)

变异算子的基本内容是对群体中个体串的某些基因座上的基因值作变动。

GA遗传算法编码策略的研究

改进遗传算法主要研究内容包括：

l 分层遗传算法；

l 自适应遗传算法；

l 小生境遗传算法；

l 并行遗传算法；

l 混合遗传算法。

l 基于遗传算法的关联规则挖掘

l 基于遗传算法的聚类算法

l 基于遗传算法的分类算法

l 基于模糊遗传算法的建模

支持向量机

One-c1ass SVM算法

RSVM算法

LS-SVM算法

WSVM算法

FSVM

空间数据库挖掘

空间查询及其操作的主要特点有：空间操作相对复杂和不精确空间连接（ Spatial Join ）问题相同的地理区域经常有不同的视图一个空间实体可用空间和非空间的属性来描述

空间查询工作：

区域查询或范围查询：寻找那些与在查询中指定区域相交的实体。

最邻近查询：寻找与指定实体相邻的实体

距离扫描：寻找与指定的实体相距一段确定距离的实体，这个距离是逐渐增大的。

小提示：所有这些查询都可以用来辅助空间聚类或分类操作。

空间场模型：

空间场数据模型的优点是数据结构简单，便于空间法分析与模拟。缺点是不利于表达空间实体，数据量也大。

实体必须符合三个条件：①可被识别，②重要（与问题相关），③可被描述（有特征）。

空间关联分析

空间决策树空间聚类分析

多媒体数据挖掘的特点

多媒体数据复杂。

多媒体信息语义关联性强。

多媒体信息具有时空相关性。

知识的表达和解释比较困难，多媒体挖掘所得出的模式往往比较隐晦。

图像挖掘

图像包含着丰富的视觉特性和空间特性。

视频挖掘

视频包括丰富的内容特性，除了图像具有的视觉特性和空间特性外,还具有时间特性、视频对象特性和运动特性等。

多媒体综合挖掘

多媒体概念与单媒体的区别在于，它是一个集成的系统概念，媒体之间有联系。

音频挖掘

音频挖掘通常有两种途径: ①运用语音识别技术将语音识别成文字，将音频挖掘转换成文本挖掘； ②直接从音频中提取声音特征，如音调、韵律等,运用聚类的方法分析声音模式。

图像特征标识的相似检索方法：

基于颜色直方图的特征标识

多特征构成的特征标识

基于小波的特征标识

带有区域粒度的小波特征标识

文本挖掘过程一般包括文本准备、特征标引、特征集缩减、知识模式的提取、知识模式的评价、知识模式的输出等过程 .

贝叶斯分类算法。K最近邻居（KNN）算法，聚类算法，遗传算法。

漂移学习算法：FLORA 算法，CVFDT，离线C4.5，

流聚类算法：STREAM和CluStream

马尔可夫

数据挖掘里面机器学习算法的讲解1

猜你喜欢