聚类算法——DBSCAN算法原理及公式

聚类的定义

聚类就是对大量未知标注的数据集，按数据的内在相似性将数据集划分为多个类别，使类别内的数据相似度较大而类别间的数据相似度较小。聚类算法是无监督的算法。

常见的相似度计算方法

闵可夫斯基距离Minkowski/欧式距离

在上述的计算中，当p=1时，则是计算绝对值距离，通常叫做曼哈顿距离，当p=2时，表述的是欧式距离。

杰卡德相似系数(Jaccard)

杰卡德相关系数主要用于描述集合之间的相似度，在目标检测中，iou的计算就和此公式相类似

余弦相似度

余弦相似度通过夹角的余弦来描述相似性

Pearson相似系数

相对熵(K-L距离)

相对熵的相似度是不对称的相似度，D(p||q)不一定等于D(q||p)。

聚类的基本思想

给定一个有N个对象的数据集，划分聚类的技术将构造数据的K个划分，每个划分代表一个簇，K<=n。也就是说，聚类将数据划分为k个簇，而且这k个划分满足下列条件：

每个簇至少包含一个对象，每一个对象属于且仅属于一个簇。

具体的步骤为，对于给定的k，算法首先给出一个初始的划分方法。以后通过反复迭代的方法改变划分，使得每一次改进之后的划分方案都较前一次更好。

密度聚类

密度聚类方法的指导思想是，只要一个区域中的点的密度大于某个阈值，就把它加到与之相近的聚类中去。这类算法能够克服基于距离的算法只能发现“类圆形”的聚类的缺点，可以发现任意形状的聚类，且对噪声数据不敏感。但计算密度单元的计算复杂度大，需要建立空间索引来降低计算量。

DBSCAN算法

DBSCAN是一个比较有代表性的基于密度聚类的聚类算法，它对簇的定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在有噪声的数据中发现任意形状的聚类。

DBSCAN相关定义

对象的ε-邻域：给定对象在半径ε内的区域。

核心对象：对于给定的数据m，如果一个对象的ε-邻域至少包含有m个对象，则成为该对象的核心对象。

直接密度可达：给定一个对象集合D，如果p是在q的ε-邻域内，而q是一个核心对象，则对象p从对象q出发是直接密度可达的。

密度可达：如果存在一个对象链p1p2···pn，p1=q，pn=p，对pi属于D，pi+1是从pi关于ε和m直接密度可达的，则对象p是从对象q关于ε和m密度可达的。

密度相连：如果对象集合D中存在一个对象o，使得对象p和q是从o关于ε和m密度可达的，那么对象p和q是关于ε和m密度相连的。

簇：一个基于密度的簇是最大的密度相连对象的集合。

噪声：不包含在任何簇中的对象称为噪声。

DBSCAN通过检查数据集中的每个对象的ε-邻域来寻找聚类，如果一个点p的ε-邻域包含对于m个对象，则创建一个p作为核心对象的新簇。然后，DBSCAN反复地寻找这些核心对象直接密度可达的对象，这个过程可能涉及密度可达簇的合并。当没有新的点可以被添加到任何簇时，该过程结束。算法的中ε和m是根据先验知识来给出的。

聚类算法——DBSCAN算法原理及公式的更多相关文章

基于密度的聚类之Dbscan算法
一.算法概述 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法.与划分和层次 ...
机器学习--聚类系列--DBSCAN算法
DBSCAN算法基本概念:(Density-Based Spatial Clustering of Applications with Noise) 核心对象:若某个点的密度达到算法设定的阈值则其为 ...
聚类之dbscan算法
简要的说明: dbscan为一个密度聚类算法,无需指定聚类个数. python的简单实例: # coding:utf-8 from sklearn.cluster import DBSCAN impo ...
【转】常用聚类算法（一） DBSCAN算法
原文链接:http://www.cnblogs.com/chaosimple/p/3164775.html#undefined 1.DBSCAN简介 DBSCAN(Density-Based Spat ...
常用聚类算法（一） DBSCAN算法
1.DBSCAN简介 DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种基于密度 ...
基于密度聚类的DBSCAN和kmeans算法比较
根据各行业特性,人们提出了多种聚类算法,简单分为:基于层次.划分.密度.图论.网格和模型的几大类. 其中,基于密度的聚类算法以DBSCAN最具有代表性. 场景一假设有如下图的一组数据, 生成数据 ...
【原创】大叔算法分享（5）聚类算法DBSCAN
一简介 DBSCAN:Density-based spatial clustering of applications with noise is a data clustering algorit ...
简单易学的机器学习算法—基于密度的聚类算法DBSCAN
简单易学的机器学习算法-基于密度的聚类算法DBSCAN 一.基于密度的聚类算法的概述我想了解下基于密度的聚类算法,熟悉下基于密度的聚类算法与基于距离的聚类算法,如K-Means算法之间的区别. ...
简单易学的机器学习算法——基于密度的聚类算法DBSCAN
一.基于密度的聚类算法的概述最近在Science上的一篇基于密度的聚类算法<Clustering by fast search and find of density peaks> ...

随机推荐

PHP中的数据库操作
PDO project data object 连接到数据库 $db=new PDO("mysql:dbname=database;host=sever","userna ...
view-controller
有的时候我们只想根据一个请求地址跳转到一个页面中,中间并没有任何的处理流程,这个时候创建一个 Controller 类再编写方法来跳转就显得很繁琐.这个时候我们就可以使用 view-controlle ...
Python中字符串输出带颜色
格式:\033[显示方式;前景色;背景色m 说明:前景色背景色颜色---------------------------------------30 ...
P1457 城堡 The Castle 位运算+BFS+思维（难题，好题）
题目描述我们憨厚的USACO主人公农夫约翰(Farmer John)以无法想象的运气,在他生日那天收到了一份特别的礼物:一张"幸运爱尔兰"(一种彩票).结果这张彩票让他获得了这次 ...
POJ3614防晒霜这个贪心有点东西（贪心+优先队列）
这个题是说有C头牛去晒太阳,带了L瓶防晒霜,每瓶防晒霜都有一个SPF值(每瓶防晒霜都能解决一个最短路 ) 每头牛给出了他可以接受防晒霜的上限,和下限,每种防晒霜都给出了SPF值与数量. 从防晒霜的sp ...
谷歌浏览器的F12用处及问题筛查笔记
在前端测试功能的时候,经常有些莫名其妙的错误,这个时候开发会说打开F12看一下吧,所以感觉这个开发者功能很有用,研究一下,做如下记录: Elements:左栏以DOM树形式查看网页源代码(HTML), ...
MYSQL数据库配置安装、重置密码以及工具连接
一.下载mysql安装包下载地址:https://dev.mysql.com/downloads/mysql/ 下载解压好之后,就是一个文件夹的形式. 二.配置环境变量环境变量的配置,就是把MyS ...
MySQL命令2
索引与外键 // 添加索引 ALTER TABLE orders ADD KEY order_ix_custid(cust_id); // 删除索引 ALTER TABLE orders DROP K ...
从零开始通过webhooks实现前端自动化
1. 前置条件有一台自己的服务器.比如阿里云,腾讯云之类有远程仓库能够push代码,pull代码.比如github,或者码云远程仓库有webhooks功能 2. 自动化部署流程 3. 构建流程 ...
P1620 漂亮字串
$核心思路就是分情况讨论$ 从整体上对题目进行分析,此题共有三种情况: (1)0 有一方为0,则结果为另一方的max: 两方都为0,则结果为0: (2)一方多,另一方不够用,满足\((contx+ ...

聚类算法——DBSCAN算法原理及公式

聚类算法——DBSCAN算法原理及公式的更多相关文章

随机推荐

热门专题