常用聚类算法（一） DBSCAN算法

1、DBSCAN简介

DBSCAN（Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法）是一种基于密度的空间聚类算法。该算法将具有足够密度的区域划分为簇，并在具有噪声的空间数据库中发现任意形状的簇，它将簇定义为密度相连的点的最大集合。

该算法利用基于密度的聚类的概念，即要求聚类空间中的一定区域内所包含对象（点或其他空间对象）的数目不小于某一给定阈值。DBSCAN算法的显著优点是聚类速度快且能够有效处理噪声点和发现任意形状的空间聚类。但是由于它直接对整个数据库进行操作且进行聚类时使用了一个全局性的表征密度的参数，因此也具有两个比较明显的弱点：

（1）当数据量增大时，要求较大的内存支持I/O消耗也很大；

（2）当空间聚类的密度不均匀、聚类间距差相差很大时，聚类质量较差。

2、DBSCAN和传统聚类算法对比

DBSCAN算法的目的在于过滤低密度区域，发现稠密度样本点。跟传统的基于层次的聚类和划分聚类的凸形聚类簇不同，该算法可以发现任意形状的聚类簇，与传统的算法相比它有如下优点：

（1）与K-MEANS比较起来，不需要输入要划分的聚类个数；

（2）聚类簇的形状没有偏倚；

（3）可以在需要时输入过滤噪声的参数；

3、算法涉及的基本定义：

（1）邻域：给定对象半径内的区域称为该对象的邻域。

（2）核心对象：如果给定对象邻域内的样本点数大于等于MinPts，则称该对象为核心对象。

（3）直接密度可达：给定一个对象集合D，如果p在q的邻域内，且q是一个核心对象，则我们说对象p从对象q出发是直接密度可达的（directly density-reachable）。

（4）密度可达：对于样本集合D，如果存在一个对象链，，对于，是从关于和 MinPts直接密度可达，则对象p是从对象q关于和 MinPts密度可达的（density-reachable）。

（5）密度相连：如果存在对象，使对象p和q都是从o关于和 MinPts密度可达的，那么对象p到q是关于和 MinPts密度相连的（density-connected）。

可以发现，密度可达是直接密度可达的传递闭包，并且这种关系是非对称的。只有核心对象之间相互密度可达。然而，密度相连是对称关系。DBSCAN目的是找到密度相连对象的最大集合。

4、DBSCAN算法的聚类过程

DBSCAN算法基于一个事实：一个聚类可以由其中的任何核心对象唯一确定。等价可以表述为：任一满足核心对象条件的数据对象p，数据库D中所有从p密度可达的数据对象o所组成的集合构成了一个完整的聚类C，且p属于C。

算法的具体聚类过程如下：

扫描整个数据集，找到任意一个核心点，对该核心点进行扩充。扩充的方法是寻找从该核心点出发的所有密度相连的数据点（注意是密度相连）。遍历该核心点的邻域内的所有核心点（因为边界点是无法扩充的），寻找与这些数据点密度相连的点，直到没有可以扩充的数据点为止。最后聚类成的簇的边界节点都是非核心数据点。之后就是重新扫描数据集（不包括之前寻找到的簇中的任何数据点），寻找没有被聚类的核心点，再重复上面的步骤，对该核心点进行扩充直到数据集中没有新的核心点为止。数据集中没有包含在任何簇中的数据点就构成异常点。

5、算法伪代码

算法描述：

算法： DBSCAN

输入： E——半径

MinPts——给定点在E邻域内成为核心对象的最小邻域点数。

D——集合。

输出：目标类簇集合

方法： Repeat

1）判断输入点是否为核心对象

2）找出核心对象的E邻域中的所有直接密度可达点。

Until 所有输入点都判断完毕

Repeat

针对所有核心对象的E邻域内所有直接密度可达点找到最大密度相连对象集合，中间涉及到一些密度可达对象的合并。

Until 所有核心对象的E领域都遍历完毕