空间聚类算法是数据挖掘和机器学习领域中的一种重要技术。

本篇介绍的基于密度的空间聚类算法的概念可以追溯到1990年代初期。
随着数据量的增长和数据维度的增加，基于密度的算法逐渐引起了研究者的关注。
其中，DBSCAN（Density-Based Spatial Clustering of Applications with Noise）是最具代表性的算法之一。

基于密度的空间聚类算法在许多领域都有应用，例如图像处理、生物信息学、社交网络分析等。
在图像处理中，该算法可以用于检测图像中的密集区域，用于识别物体或形状。

1. 算法概述

DBSCAN算法的基本思想是，对于给定的数据集，基于数据点的密度进行聚类。
在密度高的区域，数据点更为集中，而密度低的区域数据点较为稀疏。
基于密度的算法能够发现任意形状的簇，并且对噪声有较好的鲁棒性。

算法的核心在于：

定义邻域：对于数据集中的每个点，其邻域是由距离该点在一定半径（通常称为Eps）内的所有点组成的
定义密度：一个点的密度是其邻域内的点的数量。如果一个点的密度超过某个阈值（通常称为MinPts），则该点被视为核心点
寻找簇：从每个核心点出发，找到所有密度可达的点，即这些点通过一系列核心点可以与该核心点相连，这些点形成一个簇
标记噪声点：不属于任何簇的点被标记为噪声点

2. 创建样本数据

下面，创建三种不同的样本数据，来测试DBSCAN的聚类效果。

from sklearn.datasets import make_blobs, make_moons, make_circles

fig, axes = plt.subplots(nrows=1, ncols=3)

fig.set_size_inches((9, 3))

X_moon, y_moon = make_moons(noise=0.05, n_samples=1000)

axes[0].scatter(

    X_moon[:, 0],

    X_moon[:, 1],

    marker="o",

    c=y_moon,

    s=25,

    cmap=plt.cm.spring,

)

X_circle, y_circle = make_circles(noise=0.05, factor=0.5, n_samples=1000)

axes[1].scatter(

    X_circle[:, 0],

    X_circle[:, 1],

    marker="o",

    c=y_circle,

    s=25,

    cmap=plt.cm.winter,

)

X_blob, y_blob = make_blobs(n_samples=1000, centers=3)

axes[2].scatter(

    X_blob[:, 0],

    X_blob[:, 1],

    marker="o",

    c=y_blob,

    s=25,

    cmap=plt.cm.autumn,

)

plt.show()

3. 模型训练

用scikit-learn的DBSCAN模型来训练，这个模型主要的参数有两个：

eps (eps)：这个参数表示邻域的大小，或者说是邻域的半径。具体来说，对于数据集中的每个点，其 eps-邻域包含了所有与该点的距离小于或等于 eps 的点。
min_samples (minPts)：在给定 eps-邻域内，一个点需要有多少个邻居才能被视为核心点。

通过调节这2个参数，基于上面创建的样本数据，训练效果如下：

from sklearn.cluster import DBSCAN

# 定义

regs = [

    DBSCAN(min_samples=2, eps=0.1),

    DBSCAN(min_samples=2, eps=0.2),

    DBSCAN(min_samples=3, eps=2),

]

# 训练模型

regs[0].fit(X_moon, y_moon)

regs[1].fit(X_circle, y_circle)

regs[2].fit(X_blob, y_blob)

fig, axes = plt.subplots(nrows=1, ncols=3)

fig.set_size_inches((9, 3))

# 绘制聚类之后的结果

axes[0].scatter(

    X_moon[:, 0],

    X_moon[:, 1],

    marker="o",

    c=regs[0].labels_,

    s=25,

    cmap=plt.cm.spring,

)

axes[1].scatter(

    X_circle[:, 0],

    X_circle[:, 1],

    marker="o",

    c=regs[1].labels_,

    s=25,

    cmap=plt.cm.winter,

)

axes[2].scatter(

    X_blob[:, 0],

    X_blob[:, 1],

    marker="o",

    c=regs[2].labels_,

    s=25,

    cmap=plt.cm.autumn,

)

plt.show()

针对3种不同的样本数据，调节参数之后，聚类的效果还不错。
感兴趣的话，可以试试修改上面代码中的DBSCAN定义部分的参数：

# 定义

regs = [

    DBSCAN(min_samples=2, eps=0.1),

    DBSCAN(min_samples=2, eps=0.2),

    DBSCAN(min_samples=3, eps=2),

]

调节不同的 min_sample和eps，看看不同的聚类效果。

4. 总结

总的来说，基于密度的空间聚类算法是一种强大的工具，能够从数据中提取有价值的信息。
但是，如同所有的算法一样，它也有其局限性，需要在合适的应用场景中使用，才能达到最佳的效果。

它的优势主要在于：

能够发现任意形状的簇
对噪声和异常值有较好的鲁棒性
不需要提前知道簇的数量

不足之处则在于：

对于高维数据，密度计算可能会变得非常复杂和计算量大
算法的性能高度依赖于密度阈值的选择
在处理密度变化较大的数据时可能效果不佳

【scikit-learn基础】--『监督学习』之空间聚类的更多相关文章

Python基础『一』
内置数据类型数据名称例子数字: Bool,Complex,Float,Integer True/False; z=a+bj; 1.23; 123 字符串: String '123456' 元组: ...
Python基础『二』
目录语句,表达式赋值语句打印语句分支语句循环语句函数函数的作用函数的三要素函数定义 DEF语句 RETURN语句函数调用作用域闭包递归函数匿名函数迭代语句,表达式赋值 ...
『cs231n』计算机视觉基础
线性分类器损失函数明细: 『cs231n』线性分类器损失函数最优化Optimiz部分代码: 1.随机搜索 bestloss = float('inf') # 无穷大 for num in range ...
Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
『计算机视觉』Mask-RCNN
一.Mask-RCNN流程 Mask R-CNN是一个实例分割(Instance segmentation)算法,通过增加不同的分支,可以完成目标分类.目标检测.语义分割.实例分割.人体姿势识别等多种 ...
『计算机视觉』FPN：feature pyramid networks for object detection
对用卷积神经网络进行目标检测方法的一种改进,通过提取多尺度的特征信息进行融合,进而提高目标检测的精度,特别是在小物体检测上的精度.FPN是ResNet或DenseNet等通用特征提取网络的附加组件,可 ...
[原创] 【2014.12.02更新网盘链接】基于EasySysprep4.1的 Windows 7 x86/x64 『视频』封装
[原创] [2014.12.02更新网盘链接]基于EasySysprep4.1的 Windows 7 x86/x64 『视频』封装 joinlidong 发表于 2014-11-29 14:25:50 ...
『设计』Slithice 分布式架构设计-支持一体式开发，分布式发布
项目原因: 参与过各种分布式项目,有 Socket,Remoting,WCF,当然还有最常用的可以跨平台的 WebService. 分布式编码的时间浪费: 但是,无一例外的,开发分布式程序的开发遵循 ...
[日推荐] 『Streeter』极乐商店邀你一起来尬舞啊！-store.dreawer.com
你听的舞蹈有哪些?Jazz?Poppin?Hiphop?现代舞?民族舞?... 今天推荐一款小程序『Streeter』,几乎包含所有舞蹈视频,偷偷学好了,邀请你来尬舞啊 Streeter 这个Logo ...
『TensorFlow』专题汇总
TensorFlow:官方文档 TensorFlow:项目地址本篇列出文章对于全零新手不太合适,可以尝试TensorFlow入门系列博客,搭配其他资料进行学习. Keras使用tf.Session训 ...

随机推荐

flchart库判断当前点击的底部title的index
使用flchart库,版本0.35,在点击柱状图时,当柱状图的高度为0,默认选中热区很小,很难点击选中对应区域,如图一 9和10的柱状图高度为0. 查了源码,貌似没有单独针对底部title设置点击事件 ...
SpringBoot测试用例的一些小技巧~
场景一:不想因为测试而对数据库产生脏数据 @Test public void testInsert() { User user = new User(); user.setUsername(" ...
SpringCloudGateway解决跨域问题
1.跨域问题详情 2.为什么会跨域? 官方定义:https://developer.mozilla.org/zh-CN/docs/Web/HTTP/CORS 怎么出现的? 1.浏览器访问了一个业务 h ...
MongoDB副本集的搭建和管理（高可用）
使得mongodb具备自动故障转移.高可用.读写分离. 副本集默认情况下读写都只是通过主库,副节点只是备份数据而已,但是可以设置副节点允许读操作,这样就可以做成读写分离. 使用pymongo的时候也可 ...
华企盾DSC半透明无法打开加密文件常见处理方法
1.查看客户端日志进程是否显示legal:1 2.半透明只支持双击打开 3.半透明进程不能设置HOOK白名单 4.检查调用的进程是否都加了 5.半透明程序的运行方式不可以以管理员启动,去掉" ...
openstack云基础架构
openstack搭建及基本配置节点servera: 配置好yum后 yum -y update 更新yum仓库安装openstack yum -y install openstack-packs ...
springboot整合apollo配置中心
springboot整合apollo配置中心 springboot整合apollo配置中心官网文档说明得比较清楚,但还是有一些坑注意的. 官网文档:https://www.apolloconfig.c ...
基于FPGA的电子琴设计（按键和蜂鸣器）---第一版---郝旭帅电子设计团队
本篇为各位朋友介绍基于FPGA的电子琴设计(按键和蜂鸣器)----第一版. 功能说明: 外部输入七个按键,分别对应音符的"1.2.3.4.5.6.7",唱作do.re.mi.fa. ...
文心一言 VS 讯飞星火 VS chatgpt （144）-- 算法导论12.1 4题
四.用go语言,对于一棵有 n 个结点的树,请设计在 O(n)时间内完成的先序遍历算法和后序遍历算法. 我个人喜欢灵小智 . 文心一言: 在 Go 语言中,我们可以使用递归来实现树的前序遍历和后序遍 ...
Markdown 编辑器及语法使用入门指南
一.如何打开预览? 打开在线编辑器 - 点击如图所示 - 写作预览按钮即可: 如图所示,编写下面 Markdown 语法,进行对应语法的编写,愉快的写作了! 左侧 Markdown 语法右侧实时显示 ...

【scikit-learn基础】--『监督学习』之 空间聚类

1. 算法概述

2. 创建样本数据

3. 模型训练

4. 总结

【scikit-learn基础】--『监督学习』之 空间聚类的更多相关文章

随机推荐

热门专题

【scikit-learn基础】--『监督学习』之空间聚类

【scikit-learn基础】--『监督学习』之空间聚类的更多相关文章