一.算法概述

　　DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同，它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类（笔者认为是因为他不是基于距离的，基于距离的发现的是球状簇）。

　　该算法利用基于密度的聚类的概念，即要求聚类空间中的一定区域内所包含对象（点或其他空间对象）的数目不小于某一给定阈值。DBSCAN算法的显著优点是聚类速度快且能够有效处理噪声点和发现任意形状的空间聚类。但是由于它直接对整个数据库进行操作且进行聚类时使用了一个全局性的表征密度的参数，因此也具有两个比较明显的弱点：

　　（1）当数据量增大时，要求较大的内存支持I/O消耗也很大；

　　（2）当空间聚类的密度不均匀、聚类间距差相差很大时，聚类质量较差（有些簇内距离较小，有些簇内距离很大，但是Eps是确定的，所以，大的点可能被误判断为离群点或者边界点，如果Eps太大，那么小距离的醋内，可能会包含一些离群点或者边界点，KNN的k也存在同样的问题）。

　　（1）与K-MEANS比较起来，不需要输入要划分的聚类个数；

　　（2）聚类簇的形状没有偏倚（这个不明白啥意思）；

　　（3）可以在需要时输入过滤噪声的参数；

二.算法基本定义

三.算法描述

3.1 算法前提

　　DBSCAN算法基于一个事实：一个聚类可以由其中的任何核心对象唯一确定。等价可以表述为：任一满足核心对象条件的数据对象p，数据库D中所有从p密度可达的数据对象o所组成的集合构成了一个完整的聚类C，且p属于C。

3.2 算法流程

四.算法实现

%% DBSCAN

clear all;

clc;

%% 导入数据集

% data = load('testData.txt');

data = randn(50,2);

% 定义参数Eps和MinPts

MinPts = 5;

Eps = epsilon(data, MinPts);

[m,n] = size(data);%得到数据的大小

x = [(1:m)' data];

[m,n] = size(x);%重新计算数据集的大小

types = zeros(1,m);%用于区分核心点1，边界点0和噪音点-1

dealed = zeros(m,1);%用于判断该点是否处理过,0表示未处理过

dis = calDistance(x(:,2:n));

number = 1;%用于标记类

%% 对每一个点进行处理

for i = 1:m

    %找到未处理的点

    if dealed(i) == 0

        xTemp = x(i,:);

        D = dis(i,:);%取得第i个点到其他所有点的距离

        ind = find(D<=Eps);%找到半径Eps内的所有点

        %% 区分点的类型

        %边界点

        if length(ind) > 1 && length(ind) < MinPts+1

            types(i) = 0;

            class(i) = 0;

        end

        %噪音点

        if length(ind) == 1

            types(i) = -1;

            class(i) = -1;

            dealed(i) = 1;

        end

        %核心点(此处是关键步骤)

        if length(ind) >= MinPts+1

            types(xTemp(1,1)) = 1;

            class(ind) = number;

            % 判断核心点是否密度可达

            while ~isempty(ind)

                yTemp = x(ind(1),:);

                dealed(ind(1)) = 1;

                ind(1) = [];

                D = dis(yTemp(1,1),:);%找到与ind(1)之间的距离

                ind_1 = find(D<=Eps);

                if length(ind_1)>1%处理非噪音点

                    class(ind_1) = number;

                    if length(ind_1) >= MinPts+1

                        types(yTemp(1,1)) = 1;

                    else

                        types(yTemp(1,1)) = 0;

                    end

                    for j=1:length(ind_1)

                       if dealed(ind_1(j)) == 0

                          dealed(ind_1(j)) = 1;

                          ind=[ind ind_1(j)];

                          class(ind_1(j))=number;

                       end

                   end

                end

            end

            number = number + 1;

        end

    end

end

% 最后处理所有未分类的点为噪音点

ind_2 = find(class==0);

class(ind_2) = -1;

types(ind_2) = -1;

%% 画出最终的聚类图

hold on

for i = 1:m

    if class(i) == -1

        plot(data(i,1),data(i,2),'.r');

    elseif class(i) == 1

        if types(i) == 1

            plot(data(i,1),data(i,2),'+b');

        else

            plot(data(i,1),data(i,2),'.b');

        end

    elseif class(i) == 2

        if types(i) == 1

            plot(data(i,1),data(i,2),'+g');

        else

            plot(data(i,1),data(i,2),'.g');

        end

    elseif class(i) == 3

        if types(i) == 1

            plot(data(i,1),data(i,2),'+c');

        else

            plot(data(i,1),data(i,2),'.c');

        end

    else

        if types(i) == 1

            plot(data(i,1),data(i,2),'+k');

        else

            plot(data(i,1),data(i,2),'.k');

        end

    end

end

hold off

　　么么哒.............

%% 计算矩阵中点与点之间的距离

function [ dis ] = calDistance( x )

    [m,n] = size(x);

    dis = zeros(m,m);

    for i = 1:m

        for j = i:m

            %计算点i和点j之间的欧式距离

            tmp =0;

            for k = 1:n

                tmp = tmp+(x(i,k)-x(j,k)).^2;

            end

            dis(i,j) = sqrt(tmp);

            dis(j,i) = dis(i,j);

        end

    end

end

　　么么哒.............

function [Eps]=epsilon(x,k)

% Function: [Eps]=epsilon(x,k)

%

% Aim:

% Analytical way of estimating neighborhood radius for DBSCAN

%

% Input:

% x - data matrix (m,n); m-objects, n-variables

% k - number of objects in a neighborhood of an object

% (minimal number of objects considered as a cluster)

[m,n]=size(x);

Eps=((prod(max(x)-min(x))*k*gamma(.5*n+1))/(m*sqrt(pi.^n))).^(1/n);

　　注意：prod是数组内元素的乘积，A^n是A*A*....*A，A.^n是A中每个元素的n次方。

基于密度的聚类之Dbscan算法的更多相关文章

【机器学习】DBSCAN Algorithms基于密度的聚类算法
一.算法思想: DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法.与划分和层 ...
简单易学的机器学习算法—基于密度的聚类算法DBSCAN
简单易学的机器学习算法-基于密度的聚类算法DBSCAN 一.基于密度的聚类算法的概述我想了解下基于密度的聚类算法,熟悉下基于密度的聚类算法与基于距离的聚类算法,如K-Means算法之间的区别. ...
简单易学的机器学习算法——基于密度的聚类算法DBSCAN
一.基于密度的聚类算法的概述最近在Science上的一篇基于密度的聚类算法<Clustering by fast search and find of density peaks> ...
DBSCAN聚类︱scikit-learn中一种基于密度的聚类方式
一.DBSCAN聚类概述基于密度的方法的特点是不依赖于距离,而是依赖于密度,从而克服基于距离的算法只能发现"球形"聚簇的缺点. DBSCAN的核心思想是从某个核心点出发,不断向密 ...
R与数据分析旧笔记（十六）基于密度的方法：DBSCAN
基于密度的方法:DBSCAN 基于密度的方法:DBSCAN DBSCAN=Density-Based Spatial Clustering of Applications with Noise 本算法 ...
聚类：层次聚类、基于划分的聚类（k-means）、基于密度的聚类、基于模型的聚类
一.层次聚类 1.层次聚类的原理及分类 1)层次法(Hierarchicalmethods)先计算样本之间的距离.每次将距离最近的点合并到同一个类.然后,再计算类与类之间的距离,将距离最近的类合并为一 ...
机器学习--聚类系列--DBSCAN算法
DBSCAN算法基本概念:(Density-Based Spatial Clustering of Applications with Noise) 核心对象:若某个点的密度达到算法设定的阈值则其为 ...
聚类之dbscan算法
简要的说明: dbscan为一个密度聚类算法,无需指定聚类个数. python的简单实例: # coding:utf-8 from sklearn.cluster import DBSCAN impo ...
基于密度聚类的DBSCAN和kmeans算法比较
根据各行业特性,人们提出了多种聚类算法,简单分为:基于层次.划分.密度.图论.网格和模型的几大类. 其中,基于密度的聚类算法以DBSCAN最具有代表性. 场景一假设有如下图的一组数据, 生成数据 ...

随机推荐

关于Java中计算日期差值不准确问题
1.字符串日期相减如:2016-4-1,必须先将此字符串转成Date对象,并且, 格式必须为:yyyy—MM—dd HH:mm:ss. 如果不转就直接计算(2016-4-1)两个这样的日期,则误差 ...
Cocos移植到Android的一些问题-中文乱码问题
Android平台版本和设备碎片化很严重,因此从Win32平台移植到Android平台会有很多问题,下面是我们归纳的从Win32平台移植到Android平台遇到的一些问题.在Android平台中文乱码 ...
(转)RabbitMQ消息队列（二）：”Hello, World“
本文将使用Python(pika 0.9.8)实现从Producer到Consumer传递数据”Hello, World“. 首先复习一下上篇所学:RabbitMQ实现了AMQP定义的消息队列.它实现 ...
《shell下sort排序命令的使用》
首先建立一个文件,很乱,没有规律: 正排序: 倒排序: Uniq 删除文件中的重复行:用此命令要先对文件进行排序. 对文件冗余,只要文件所有重复的字符显示一次: 显示1-7,不重复的行: 只显示1-7 ...
sql简易的MRP资源分析
写了个简易的MRP根据传进来的数据,进行上下级的判断,父表,子表构思: 3张变量表,第一张用来存传进来的成品,这边对表做了循环就是成品是一样一样进去的,取成品表的第一行,将数据做父表和子表关联,取出 ...
jquery.fullCalendar官方文档翻译(一款小巧好用的日程管理日历, 可集成Google Calendar)
1. 使用方式, 引入相关js, css后, $(‘#div_name’).fullCalendar({//options}); 接受的是一个option对象 2. 普通属性 2.1. year, ...
javascript中的光标
最近项目中要做一个键盘操作,光标移动的功能:增强用户体验:问朋友查资料了解到这方面的知识:整理备忘: 1.IE使用textRange对象,其他使用selectionStart selectionEnd ...
C# 解析XML格式的字符串
public CreateOrderReturnResult GetCreateOrderReturnApi() { var result = new CreateOrderReturnResult( ...
silverlight将字符串转化为控件
silverlight的System.Windows.Markup命名空间下,提供了XamlReader.Load()方法可以将字符串转换为控件. 代码 StringBuilder sbGrid = ...
Android布局揭秘
前言今天把对于布局的一些理解写下来,主要内容包括控件的属性的继承关系,控件与容器的属性的关系,以及各种类的属性的使用. 控件的属性种类通常意义上讲,我们在对一个控件进行属性赋值的时候大体上有种类型 ...

基于密度的聚类之Dbscan算法