OPTICS (Ordering Points to Identify the Clustering Str

作者:禅与计算机程序设计艺术

1.简介

OPTICS (Ordering Points to Identify the Clustering Structure) 是一种基于密度的聚类分析方法,可以用来发现复杂数据的聚类结构和边界。OPTICS 的主要特点是它不需要指定预先定义的簇个数,并且能够检测到任意形状、大小和密度的聚类簇。因此,它的效果要好于 DBSCAN 或基于密度的聚类算法。此外,由于采用了排序法对数据进行处理,因此对于高维空间的数据也比较适用。

2.基本概念和术语

2.1 数据集 D

在介绍 OPTICS 方法之前,首先需要对待处理的数据集有一个清晰的认识,即其包含的对象和属性。数据集中的每个对象是一个样本或者一个观测值,其可以包含多个属性或特征。每种属性或特征可能是连续型变量(如温度、浓度等)或者离散型变量(如类别、标签等)。如果数据集中含有时间维度,则还可以添加时间戳属性。例如,考虑电子商务网站的购买历史数据集,其中包含用户ID、商品名称、购买日期、购买金额、交易地址、交易方式等属性。

2.2 局部密度密度曲线

OPTICS 使用的数据结构称为局部密度曲线 (Local Density Estimate, LDE)。LDE 描述的是数据集的一个区域内对象的密度分布。图1展示了一个典型的局部密度曲线的例子,其在横坐标轴上表示了对象的数量,纵坐标轴上表示了对象密度的大小。数据集中的两个区域 A 和 B 分别对应于左右两个峡谷。从 A 和 B 的局部密度曲线图中可以看出,在某些区域内,对象的密度较低;而另一些区域内,对象的密度较高。这些区域通常被认为是聚类的边界。

局部密度曲线在算法中起着重要作用

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/132383828
str