密度聚类density-based clustering假设聚类结构能够通过样本分布的紧密程度确定。

  密度聚类算法从样本的密度的角度来考察样本之间的可连接性,并基于可连接样本的不断扩张聚类簇,从而获得最终的聚类结果。

一、DBSCAN算法

1.介绍

DBSCAN是一种著名的密度聚类算法,它基于一组邻域参数$(\epsilon,MinPts)$来刻画样本分布的紧密程度。

2.密度直达/可达/相连

给定数据集$D=\{X_1,X_2,...,X_N\}$,定义:

  1. $\epsilon$-邻域:$N_{\epsilon}\left({\mathbf{x}}_{i}\right)=\left\{{\mathbf{x}}_{j} \in \mathbb{D} | \operatorname{distance}\left({\mathbf{x}}_{i}, {\mathbf{x}}_{j}\right) \leq \epsilon\right\}$
  2. 核心对象core object:若$|N_{\epsilon}(X_i)| \ge MinPts$,则称$X_i$是一个核心对象。即:若$X_i$的$\epsilon$-邻域中至少包含$MinPts$个样本,则$X_i$是一个核心对象。
  3. 密度直达directly density-reachable:若$X_i$是一个核心对象,且$X_j \in N_{\epsilon} (X_i)$,则称$X_j$由$X_i$密度直达,记作$X_i \rightarrow X_j$
  4. 密度可达density-reachable:对于$X_i$和$X_j$,若存在样本序列$(P_0,P_1,...,P_m,P_{m+1})$,其中$P_0=X_i,P_{m+1}=X_j,P_s \in D$,如果$P_{s+1}$由$P_s$密度直达,则称$X_j$由$X_i$密度可达,记作$X_i \leadsto X_j$
  5. 密度相连density-connected:对于$X_i$和$X_j$,若存在$X_k$,使得$X_i$与$X_j$均由$X_k$密度可达,则称$X_i$与$X_j$密度相连,记作:$X_i \sim X_j$

3.

给定邻域参数$(\epsilon,MinPts)$,一个簇$C \subseteq D$是满足下列性质的非空样本子集:

  1. 连接性connectivity:若$X_i \in C,X_j \in C$,则$X_i  \sim X_j$
  2. 最大性maximality:若$X_i \in C$,且$X_i \leadsto X_j$,则$X_j \in C$

即一个簇是由密度可达关系导出的最大的密度相连样本集合。

4.算法的思想

若$X$为核心对象,则$X$密度可达的所有样本组成的集合记作$\mathbb{X}=\left\{\overrightarrow{\mathrm{x}}^{\prime} \in \mathbb{D} | \overrightarrow{\mathrm{x}} \leadsto \overrightarrow{\mathrm{x}}^{\prime}\right\}$。可以证明:$\mathbb{X}$就是满足连接性与最大性的簇。

于是DBSCAN算法首先任选数据集中的一个核心对象作为种子seed,再由此出发确定相应的聚类簇。

5.DBSCAN算法

输入:数据集$D={X_1,X_2,...,X_N}$,邻域参数$(\epsilon,MinPts)$

输出:簇划分$C=\{C_1,C_2,...,C_K\}$

算法步骤:

  1. 初始化核心对象集合为空集:$\Omega=\phi$
  2. 寻找核心对象:
    1. 遍历所有的样本点$X_i,i=1,2,...,N$,计算$N_{\epsilon}(X_i)$
    2. 如果$|N_{\epsilon}(X_i)| \ge MinPts$,则$\Omega = \Omega \cup \{X_i\}$
  3. 迭代:以任一未访问过的核心对象为出发点,找出有其密度可达的样本生成的聚类簇,直到所有核心对象都被访问为止。

6.注意

若在核心对象$o_1$的寻找密度可达的样本的过程中,发现核心对象$o_2$是由$o_1$密度可达的,且$o_2$尚未被访问,则将$o_2$加入$o_1$所属的簇,并且标记$o_2$为已访问。

对于$D$中的样本点,它只可能属于某一个聚类簇,因此在核心对象$o_i$的寻找密度可达的样本的过程中,它只能在标记为未访问的样本中寻找(标记为已访问的样本已经属于某个聚类簇了)。

7.优点

  1. 簇的数量由算法自动确定,无需人工指定。
  2. 基于密度定义,能够对抗噪音。
  3. 可以处理任意形状和大小的簇。

8.缺点

  1. 若样本集的密度不均匀,聚类间距差相差很大时,聚类质量较差。因为此时参数$\epsilon$和$MinPts$的选择比较困难。
  2. 无法应用于密度不断变化的数据集中。

31(1).密度聚类---DBSCAN算法的更多相关文章

  1. 密度聚类 - DBSCAN算法

    参考资料:python机器学习库sklearn——DBSCAN密度聚类,     Python实现DBScan import numpy as np from sklearn.cluster impo ...

  2. 31(2).密度聚类---Mean-Shift算法

    Mean-Shift 是基于核密度估计的爬山算法,可以用于聚类.图像分割.跟踪等领域.

  3. 聚类——密度聚类DBSCAN

    Clustering 聚类 密度聚类——DBSCAN 前面我们已经介绍了两种聚类算法:k-means和谱聚类.今天,我们来介绍一种基于密度的聚类算法——DBSCAN,它是最经典的密度聚类算法,是很多算 ...

  4. 吴裕雄 python 机器学习——密度聚类DBSCAN模型

    import numpy as np import matplotlib.pyplot as plt from sklearn import cluster from sklearn.metrics ...

  5. 密度聚类 DBSCAN

    刘建平:DBSCAN密度聚类算法 https://www.cnblogs.com/pinard/p/6208966.html API 的说明: https://www.jianshu.com/p/b0 ...

  6. 基于密度聚类的DBSCAN和kmeans算法比较

    根据各行业特性,人们提出了多种聚类算法,简单分为:基于层次.划分.密度.图论.网格和模型的几大类. 其中,基于密度的聚类算法以DBSCAN最具有代表性.  场景 一 假设有如下图的一组数据, 生成数据 ...

  7. 机器学习(十)—聚类算法(KNN、Kmeans、密度聚类、层次聚类)

    聚类算法 任务:将数据集中的样本划分成若干个通常不相交的子集,对特征空间的一种划分. 性能度量:类内相似度高,类间相似度低.两大类:1.有参考标签,外部指标:2.无参照,内部指标. 距离计算:非负性, ...

  8. 机器学习(六)K-means聚类、密度聚类、层次聚类、谱聚类

    本文主要简述聚类算法族.聚类算法与前面文章的算法不同,它们属于非监督学习. 1.K-means聚类 记k个簇中心,为\(\mu_{1}\),\(\mu_{2}\),...,\(\mu_{k}\),每个 ...

  9. DBSCAN密度聚类算法

    DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法,和K-M ...

随机推荐

  1. Java语法进阶14-网络编程

    网络编程 软件结构 C/S结构 :全称为Client/Server结构,是指客户端和服务器结构. B/S结构 :全称为Browser/Server结构,是指浏览器和服务器结构. 网络通信协议 网络通信 ...

  2. Django 09

    目录 多对多三种创建方式 全自动 纯手撸 半自动(推荐) form组件 校验数据 渲染标签 展示错误信息 validators校验器 钩子函数 补充 多对多三种创建方式 全自动 ManyToManyF ...

  3. 前端小白要搞懂什么是HTML,看这一篇就够了

    本文是<HTML5与CSS3基础语法自学教程>的第一篇,首发于[前端课湛]微信公众号. 导读:本小节主要讲解 HTML 的基本信息,其中包含 HTML 概念.HTML 发展历程和 HTML ...

  4. 201871010119-帖佼佼《面向对象程序设计(java)》第二周学习总结

    项目 内容 这个作业属于哪个课程 <任课教师博客主页链接>     https://www.cnblogs.com/nwnu-daizh/ 这个作业的要求在哪里 <作业链接地址> ...

  5. go1.13 mod 实践和常见问题

    实践建议 0,go mod 要求所有依赖的 import path 的path 以域名开头,如果现有项目转1.13的go mod 模式,且不是以域名开头则需要修改. eg: code.be.mingb ...

  6. Django基础day01

    后端(******) 软件开发结构c/s http协议的由来 sql语句的由来 统一接口统一规范 HTTP协议 1.四大特性 1.基于TCP/IP作用于应用层之上的协议 2.基于请求响应 3.无状态 ...

  7. 字符串的扩展(ES6)

    文章目录 字符串的扩展 1. 字符的Unicode表示法 2. codePointAt() 3. String.fromCodePoint() 4. 字符串的遍历器接口 5. at()(提案) 6. ...

  8. 《Dotnet9》建站-本站Logo设计之路

    时间如流水,只能流去不流回! 点赞再看,养成习惯,这是您给我创作的动力! 本文 Dotnet9 https://dotnet9.com 已收录,站长乐于分享dotnet相关技术,比如Winform.W ...

  9. Ubuntu16.04+GTX2070+Driver418.43+CUDA10.1+cuDNN7.6

    最近需要用到一台服务器的GPU跑实验,其间 COLMAP 编译过程出错,提示 cuda 版本不支持,cmake虽然通过了,但其实没有找到支持的CUDA架构. cv@cv:~/mvs_project/c ...

  10. javascript树形汇总金额

    在开发企业应用的时候总会遇到树形汇总金额的场景,即将树形的列表中的叶子节点(没有子节点)的金额汇总到父节点上. 这种需求一般是在前端进行处理,即使用JavaScript处理,因为叶子节点的金额可能是不 ...