谱聚类算法基于图论，它的起源可以追溯到早期的图分割文献。
不过，直至近年来，受益于计算机计算能力的提升，谱聚类算法才得到了广泛的研究和关注。

谱聚类被广泛应用于图像分割、社交网络分析、推荐系统、文本聚类等领域。
例如，在图像分割中，谱聚类可以有效地将图像划分为背景和前景；
在社交网络分析中，它可以识别出不同的社区结构。

1. 算法概述

谱聚类的基本原理是将数据点视为图中的顶点，根据数据点之间的相似性构建图的边。
它首先计算图的拉普拉斯矩阵的特征向量，然后利用这些特征向量进行聚类。
这种方法能够捕捉到数据的非线性结构，因此在许多应用中表现优异。

所谓拉普拉斯矩阵，是一种用于表示一个图的矩阵形式。
对于给定的一个有\(n\)个顶点的图\(G\)，它的拉普拉斯矩阵定义为\(L=D-A\)。
其中\(D\)为图的度矩阵，\(A\)为图的邻接矩阵。

2. 创建样本数据

为验证谱聚类的效果，用scikit-learn中的样本生成器创建2个非线性结构的数据集。

from sklearn.datasets import make_moons, make_circles

fig, axes = plt.subplots(nrows=1, ncols=2)

fig.set_size_inches((8, 4))

X_moon, y_moon = make_moons(noise=0.05, n_samples=1000)

axes[0].scatter(X_moon[:, 0], X_moon[:, 1], marker="o", c=y_moon, s=25, cmap=plt.cm.spring)

X_circle, y_circle = make_circles(noise=0.05, factor=0.5, n_samples=1000)

axes[1].scatter(X_circle[:, 0], X_circle[:, 1], marker="o", c=y_circle, s=25, cmap=plt.cm.winter)

plt.show()

一个交错的月牙形式，一个是同心圆形式，都是很难线性分割的数据集。

3. 模型训练

首先，用默认的参数训练看看效果：

from sklearn.cluster import SpectralClustering

# 定义

regs = [

    SpectralClustering(n_clusters=2),

    SpectralClustering(n_clusters=2),

]

# 训练模型

regs[0].fit(X_moon, y_moon)

regs[1].fit(X_circle, y_circle)

fig, axes = plt.subplots(nrows=1, ncols=2)

fig.set_size_inches((8, 4))

# 绘制聚类之后的结果

axes[0].scatter(

    X_moon[:, 0], X_moon[:, 1], marker="o", c=regs[0].labels_, s=25, cmap=plt.cm.spring

)

axes[1].scatter(

    X_circle[:, 0], X_circle[:, 1], marker="o", c=regs[1].labels_, s=25, cmap=plt.cm.winter

)

plt.show()

从图中可以看出，聚类的效果不是很好，从颜色上看，与原始数据的类别相比差距较大。

接下来，调整下SpectralClustering模型的affinity参数，
这个参数的作用是定义数据点之间的相似度矩阵的计算方法。
affinity参数的可选值常用的有两个：

nearest_neighbors：通过计算最近邻图来构建亲和矩阵
rbf：使用径向基函数（RBF）内核构建亲和矩阵。

默认的值是 rbf，下面我们试试nearest_neighbors方式的聚类效果。
将上面的代码中 regs 的定义部分换成如下代码：

regs = [

    SpectralClustering(n_clusters=2, affinity="nearest_neighbors"),

    SpectralClustering(n_clusters=2, affinity="nearest_neighbors"),

]

修改参数之后的聚类效果与原始数据就非常接近了。

4. 总结

简而言之，谱聚类是一个在图上进行聚类的方法，它试图找到图的最佳切割，使得同一簇内的边的权重尽可能大，而不同簇之间的边的权重尽可能小。

这种聚类算法的优势有：

可以捕获数据的非线性结构
对噪声和异常值相对鲁棒
不需要明确的形状假设，适用于各种形状的簇

它的局限性有：

计算复杂度相对较高，尤其是对于大规模数据
需要提前确定簇的数量，这在很多实际应用中是一个挑战
对于高维数据，可能存在“维度诅咒”问题，尽管可以通过降维缓解，但增加了计算复杂度

【scikit-learn基础】--『监督学习』之谱聚类的更多相关文章

Python基础『一』
内置数据类型数据名称例子数字: Bool,Complex,Float,Integer True/False; z=a+bj; 1.23; 123 字符串: String '123456' 元组: ...
Python基础『二』
目录语句,表达式赋值语句打印语句分支语句循环语句函数函数的作用函数的三要素函数定义 DEF语句 RETURN语句函数调用作用域闭包递归函数匿名函数迭代语句,表达式赋值 ...
『cs231n』计算机视觉基础
线性分类器损失函数明细: 『cs231n』线性分类器损失函数最优化Optimiz部分代码: 1.随机搜索 bestloss = float('inf') # 无穷大 for num in range ...
『计算机视觉』Mask-RCNN_从服装关键点检测看KeyPoints分支
下图Github地址:Mask_RCNN Mask_RCNN_KeyPoints『计算机视觉』Mask-RCNN_论文学习『计算机视觉』Mask-RCNN_项目文档翻译『计算机视觉』Mas ...
Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
[原创] 【2014.12.02更新网盘链接】基于EasySysprep4.1的 Windows 7 x86/x64 『视频』封装
[原创] [2014.12.02更新网盘链接]基于EasySysprep4.1的 Windows 7 x86/x64 『视频』封装 joinlidong 发表于 2014-11-29 14:25:50 ...
app外包开发注意事项大全『最新』
随着移动互联网的高速发展,很多互联网创业公司或传统向互联网转型的公司都急需发开一款app软件,多数公司会选择让外包公司来开发.问题来了,App外包市场鱼龙混杂,我们要如何在这里面选择一个靠谱的公司,这 ...
[日推荐] 『Streeter』极乐商店邀你一起来尬舞啊！-store.dreawer.com
你听的舞蹈有哪些?Jazz?Poppin?Hiphop?现代舞?民族舞?... 今天推荐一款小程序『Streeter』,几乎包含所有舞蹈视频,偷偷学好了,邀请你来尬舞啊 Streeter 这个Logo ...
『TensorFlow』专题汇总
TensorFlow:官方文档 TensorFlow:项目地址本篇列出文章对于全零新手不太合适,可以尝试TensorFlow入门系列博客,搭配其他资料进行学习. Keras使用tf.Session训 ...
『TensorFlow』批处理类
『教程』Batch Normalization 层介绍基础知识下面有莫凡的对于批处理的解释: fc_mean,fc_var = tf.nn.moments( Wx_plus_b, axes=[0] ...

随机推荐

.NET 与 OpenEuler 共展翅，昇腾九万里
openEuler 已支持 X86.ARM.SW64.RISC-V.LoongArch 多处理器架构,逐步扩展 PowerPC 等更多芯片架构支持,持续完善多样性算力生态体验. openEuler 社 ...
每日总结|9.21-Hive搭建及报错解决方案
搭建安装hive 把 apache-hive-3.1.2-bin.tar.gz 上传到 linux 的/opt/software 目录下解压 apache-hive-3.1.2-bin.tar.g ...
【uniapp】【外包杯】学习笔记day05 | 页面制作+git安装+云存储
没啥好说的,昨天的任务没有完成,网上说的是一套,我这边出现的情况又是一种,欸...善莫大焉今天又重新开始搞,有了一点起色,然后用了git进行云存储明天计划把这个给搞定吧,累发财了 git做完了在 ...
稳了，终于可以通过外网访问 Sealos 中的数据库了！
喜大普奔,Sealos 中的数据库功能现已全面升级,支持外网访问! 现在你可以从互联网的任何地方访问 Sealos 中的数据库,无论您的应用部署在何种环境,现在都可以轻松通过外网连接到 Sealos ...
Nougat：结合光学神经网络，引领学术PDF文档的智能解析、挖掘学术论文PDF的价值
Nougat:结合光学神经网络,引领学术PDF文档的智能解析.挖掘学术论文PDF的价值这是Nougat的官方存储库,Nougat是一种学术文档PDF解析器,可以理解LaTeX数学和表格. Proje ...
经典卷积神经网络LeNet&AlexNet&VGG
LeNet LeNet-5是一种经典的卷积神经网络结构,于1998年投入实际使用中.该网络最早应用于手写体字符识别应用中.普遍认为,卷积神经网络的出现开始于LeCun等提出的LeNet网络,可以说Le ...
华企盾DSC防泄密系统：半透明问题调试方法
1.先添加下图中的注册表 2.用debugview工具监控操作过程,然后找到后面是DSE_SANDBOX,把它前面的值一个一个加到控制台的半透明沙盒对象里面调,直到找到可以正常的为止 3.用supe ...
强！推荐一款自动化神器Autolt：不再重复工作
随着互联网不断发展,它给我们带来便利的同时,也带来了枯燥.重复.机械的重复工作.今天,我要和大家分享一款老牌实用的自动化工具:AutoIt,它能够让你告别繁琐的重复性工作,提高工作效率. 这里透露一下 ...
ElasticSearch之配置
ElasticSearch主要的配置文件,如下: elasticsearch.yml,ElasticSearch的相关参数. jvm.options,JVM的相关参数. log4j2.properti ...
Redis 分片集群
1.Redis分片集群 1.1.搭建分片集群主从和哨兵可以解决高可用.高并发读的问题.但是依然有两个问题没有解决: 海量数据存储问题高并发写的问题使用分片集群可以解决上述问题,如图: 分片集群特 ...

【scikit-learn基础】--『监督学习』之 谱聚类

1. 算法概述

2. 创建样本数据

3. 模型训练

4. 总结

【scikit-learn基础】--『监督学习』之 谱聚类的更多相关文章

随机推荐

热门专题

【scikit-learn基础】--『监督学习』之谱聚类

【scikit-learn基础】--『监督学习』之谱聚类的更多相关文章