机器学习之DBSCAN聚类算法

可以看该博客：https://www.cnblogs.com/aijianiula/p/4339960.html

1、知识点

"""

基本概念：

    1、核心对象：某个点的密度达到算法设定的阈值则其为核心点(即r邻域内点的数量不小于minpts)

    2、邻域的距离阈值：设定的半径r

    3、直接密度可达：某点p在点q的r邻域内，且q是核心点，则表示p-q是直接密度可达

    4、噪声点：不属于任何一个类族的点

    5、边界点：属于某一个类的非核心点，不能发展下线(即边界点没有密度可达的点)

超参：指定的半径r，密度阈值minpts

算法优势：

        1、不需要指定簇个数

        2、可以发现任意形状的簇

        3、擅长找到离群点(检测任务)

        4、两个参数就够了

    劣势：

        1、高维数据有写困难(可以使用PCA和LDA进行数据降维)

        2、参数难以选择(参数对结果的影响非常大)

        3、sklearn中效率很慢(数据削减策略)

和K-Mean对比：效果比K-Mean好很多

"""

2、代码案例

#可以对数据进行标准化或者归一化

import  pandas as pd

from sklearn.cluster import KMeans

from sklearn.cluster import DBSCAN

def KMean():

    data = pd.read_csv('data.txt',sep=' ')

    X = data[["colum1","column2","column3"]]

    km1 = KMeans(n_clusters=3).fit(X)

    km1 = KMeans(n_clusters=2).fit(X)

    print(km1.labels_)#查看聚类的类别

    data['cluster']=km1.labels_ #添加一列

    print(data.sort_values('cluster'))#按cluster进行排序

    #根据cluster，计算均值

    print(data.groupby('cluster').mean())

def DBSCAN():

    data = pd.read_csv('data.txt', sep=' ')

    X = data[["colum1", "column2", "column3"]]

    db = DBSCAN(eps=1.0,min_samples=2).fit(X)

    labels = db.labels_

    data['cluster'] = labels

    data.sort_values('cluster')

if __name__ == '__main__':

    DBSCAN()

3、算法流程

机器学习之DBSCAN聚类算法的更多相关文章

机器学习入门-DBSCAN聚类算法
DBSCAN 聚类算法又称为密度聚类,是一种不断发张下线而不断扩张的算法,主要的参数是半径r和k值 DBSCAN的几个概念: 核心对象:某个点的密度达到算法设定的阈值则其为核心点,核心点的意思就是一个 ...
机器学习六--K-means聚类算法
机器学习六--K-means聚类算法想想常见的分类算法有决策树.Logistic回归.SVM.贝叶斯等.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别 ...
5.机器学习——DBSCAN聚类算法
1.优缺点优点: (1)聚类速度快且能够有效处理噪声点和发现任意形状的空间聚类: (2)与K-MEANS比较起来,不需要输入要划分的聚类个数: (3)聚类簇的形状没有偏倚: (4)可以在需要时输入过 ...
【Python机器学习实战】聚类算法（2）——层次聚类(HAC)和DBSCAN
层次聚类和DBSCAN 前面说到K-means聚类算法,K-Means聚类是一种分散性聚类算法,本节主要是基于数据结构的聚类算法--层次聚类和基于密度的聚类算法--DBSCAN两种算法. 1.层次聚类 ...
5.无监督学习-DBSCAN聚类算法及应用
DBSCAN方法及应用 1.DBSCAN密度聚类简介 DBSCAN 算法是一种基于密度的聚类算法: 1.聚类的时候不需要预先指定簇的个数 2.最终的簇的个数不确定DBSCAN算法将数据点分为三类: 1 ...
【Python机器学习实战】聚类算法（1）——K-Means聚类
实战部分主要针对某一具体算法对其原理进行较为详细的介绍,然后进行简单地实现(可能对算法性能考虑欠缺),这一部分主要介绍一些常见的一些聚类算法. K-means聚类算法 0.聚类算法算法简介聚类算法算 ...
Mahout机器学习平台之聚类算法具体剖析（含实例分析）
第一部分: 学习Mahout必需要知道的资料查找技能: 学会查官方帮助文档: 解压用于安装文件(mahout-distribution-0.6.tar.gz),找到例如以下位置.我将该文件解压到win ...
机器学习：K-Means聚类算法
本文来自同步博客. 前面几篇文章介绍了回归或分类的几个算法,它们的共同点是训练数据包含了输出结果,要求算法能够通过训练数据掌握规律,用于预测新输入数据的输出值.因此,回归算法或分类算法被称之为监督学习 ...
机器学习中K-means聚类算法原理及C语言实现
本人以前主要focus在传统音频的软件开发,接触到的算法主要是音频信号处理相关的,如各种编解码算法和回声消除算法等.最近切到语音识别上,接触到的算法就变成了各种机器学习算法,如GMM等.K-means ...

随机推荐

sklearn--数据集的处理模型参数选择
1.随机划分训练集和测试集 sklearn.model_selection.train_test_split 一般形式: train_test_split是交叉验证中常用的函数,功能是从样本中随机的按 ...
七：mvc使用CodeFirst（代码优先）创建数据库
1. 理解EF CodeFirst模式特点 2. 使用CodeFirst模式生成数据库 1. CodeFirst模式(代码优先) Code First是Entity Framework提供的一种新的编 ...
在线p图网址
在线P图网址如果你是简易的P图,不用那么麻烦的去下载安装Photoshop,可以使用以下网址在线编辑 https://www.uupoop.com/ps/?hmsr=ps_menu
nginx+tomcat实现负载均衡以及双机热备
还记得那些年吗? 还记得更新代码之后,服务器起不来被领导训斥吗?还记得更新代码,需要停机过多的时间被渠道部们埋怨吗?还记得更新代码,代码出错时自己吓个半死吗?于是我们聪明勤快的程序员,看着电影待到夜深 ...
RxJava——响应式编程
自从06年开始,Rxandroid公司项目中陆续就开始使用它了,而它的基础是由Rxjava演变过来的,如今它也是越来越被广泛使用在商业项目中了,而做为"专业"的自己还是一直对它一知 ...
Spring入门篇——第5章 Spring AOP基本概念
第5章 Spring AOP基本概念本章介绍Spring中AOP的基本概念和应用. 5-1 AOP基本概念及特点 5-2 配置切面aspect ref:引用另外一个Bean 5-3 配置切入点Poi ...
数据结构系列文章之队列 FIFO
转载自https://mp.weixin.qq.com/s/ILgdI7JUBsiATFICyyDQ9w Osprey 鱼鹰谈单片机 3月2日预计阅读时间: 6 分钟这里的 FIFO 是先入先出 ...
用vs2013开启一个C拖控件的项目
visual studio作为一款集成开发环境备受青睐,笔者尤其喜爱它的拖控件功能,程序员应该追求业务逻辑和实际功能的优化,而不是把时间消耗在编写窗体和按钮上笔者曾翻阅中关村图书大厦,西单图书大厦, ...
报错Too many connections
com.mysql.jdbc.exceptions.jdbc4.MySQLNonTransientConnectionException: Data source rejected establish ...
Web上传大文件的解决方案
需求:项目要支持大文件上传功能,经过讨论,初步将文件上传大小控制在500M内,因此自己需要在项目中进行文件上传部分的调整和配置,自己将大小都以501M来进行限制. 第一步: 前端修改由于项目使用的是 ...

机器学习之DBSCAN聚类算法

机器学习之DBSCAN聚类算法的更多相关文章

随机推荐

热门专题