1. 算法概述

层次聚类的基本原理是创建一个层次的聚类，通过不断地合并或分裂已存在的聚类来实现。
它分为两种策略：

凝聚策略：初始时将每个点视为一个簇，然后逐渐合并相近的簇
分裂策略：开始时将所有点视为一个簇，然后逐渐分裂

在scikit-learn中，层次聚类的策略有4种：

ward：默认策略，也就是最小方差法。它倾向于合并那些使得合并后的簇内部方差最小的两个簇
complete：计算两个簇之间的距离时，考虑两个簇中距离最远的两个样本之间的距离
average：计算两个簇之间的距离时，考虑两个簇中所有样本之间距离的平均值
single：计算两个簇之间的距离时，考虑两个簇中距离最近的两个样本之间的距离

2. 创建样本数据

下面创建月牙形状数据来看看层次聚类的各个策略之间的比较。

from sklearn.datasets import make_moons

import matplotlib.pyplot as plt

ax = plt.subplot()

X, y = make_moons(noise=0.05, n_samples=1000)

ax.scatter(X[:, 0], X[:, 1], marker="o", c=y, s=25, cmap=plt.cm.prism)

plt.show()

关于各种样本数据的生成，可以参考：TODO

3. 模型训练

用四种不同的策略来训练上面月牙形状的样本数据。

from sklearn.cluster import AgglomerativeClustering

# 定义

regs = [

    AgglomerativeClustering(linkage="ward"),

    AgglomerativeClustering(linkage="complete"),

    AgglomerativeClustering(linkage="single"),

    AgglomerativeClustering(linkage="average"),

]

# 训练模型

for reg in regs:

    reg.fit(X, y)

fig, axes = plt.subplots(nrows=2, ncols=2)

fig.set_size_inches((10, 8))

# 绘制聚类之后的结果

axes[0][0].scatter(

    X[:, 0], X[:, 1], marker="o", c=regs[0].labels_, s=25, cmap=plt.cm.prism

)

axes[0][0].set_title("ward 策略")

axes[0][1].scatter(

    X[:, 0], X[:, 1], marker="o", c=regs[1].labels_, s=25, cmap=plt.cm.prism

)

axes[0][1].set_title("complete 策略")

axes[1][0].scatter(

    X[:, 0], X[:, 1], marker="o", c=regs[2].labels_, s=25, cmap=plt.cm.prism

)

axes[1][0].set_title("single 策略")

axes[1][1].scatter(

    X[:, 0], X[:, 1], marker="o", c=regs[3].labels_, s=25, cmap=plt.cm.prism

)

axes[1][1].set_title("average 策略")

plt.show()

从结果可以看出，single策略效果最好，它聚类的结果与原始数据的分类情况最为接近。
不过，这并不能说明single策略由于其它策略，只能说明single策略最适合上面的样本数据。

4. 总结

层次聚类在许多场景中都得到了应用，例如图像分割、文档聚类、生物信息学中的基因聚类等。
它特别适合那些需要多层次结构的应用。

层次聚类的最大优势在于它提供了一种层次结构的聚类，这对于许多应用来说是非常自然的，它能够展示数据在不同粒度下的聚类结果。

但它也存在一些缺点。
首先，它的计算复杂度相对较高，特别是当数据量很大时；
其次，一旦做出合并或分裂的决策，就不能撤销，这可能导致错误的累积。
此外，确定何时停止合并或分裂也是一个挑战。

【scikit-learn基础】--『监督学习』之层次聚类的更多相关文章

Python基础『一』
内置数据类型数据名称例子数字: Bool,Complex,Float,Integer True/False; z=a+bj; 1.23; 123 字符串: String '123456' 元组: ...
Python基础『二』
目录语句,表达式赋值语句打印语句分支语句循环语句函数函数的作用函数的三要素函数定义 DEF语句 RETURN语句函数调用作用域闭包递归函数匿名函数迭代语句,表达式赋值 ...
『cs231n』计算机视觉基础
线性分类器损失函数明细: 『cs231n』线性分类器损失函数最优化Optimiz部分代码: 1.随机搜索 bestloss = float('inf') # 无穷大 for num in range ...
『计算机视觉』FPN：feature pyramid networks for object detection
对用卷积神经网络进行目标检测方法的一种改进,通过提取多尺度的特征信息进行融合,进而提高目标检测的精度,特别是在小物体检测上的精度.FPN是ResNet或DenseNet等通用特征提取网络的附加组件,可 ...
Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
[原创] 【2014.12.02更新网盘链接】基于EasySysprep4.1的 Windows 7 x86/x64 『视频』封装
[原创] [2014.12.02更新网盘链接]基于EasySysprep4.1的 Windows 7 x86/x64 『视频』封装 joinlidong 发表于 2014-11-29 14:25:50 ...
『TensorFlow』专题汇总
TensorFlow:官方文档 TensorFlow:项目地址本篇列出文章对于全零新手不太合适,可以尝试TensorFlow入门系列博客,搭配其他资料进行学习. Keras使用tf.Session训 ...
『TensorFlow』批处理类
『教程』Batch Normalization 层介绍基础知识下面有莫凡的对于批处理的解释: fc_mean,fc_var = tf.nn.moments( Wx_plus_b, axes=[0] ...
『TensorFlow』梯度优化相关
tf.trainable_variables可以得到整个模型中所有trainable=True的Variable,也是自由处理梯度的基础基础梯度操作方法: tf.gradients 用来计算导数.该 ...
『TensorFlow』模型保存和载入方法汇总
『TensorFlow』第七弹_保存&载入会话_霸王回马一.TensorFlow常规模型加载方法保存模型 tf.train.Saver()类,.save(sess, ckpt文件目录)方法 ...

随机推荐

x86平台SIMD编程入门(1)：SIMD基础知识
1.简介 SIMD(Single Instruction, Multiple Data)是一种并行计算技术,它通过向量寄存器存储多个数据元素,并使用单条指令同时对这些数据元素进行处理,从而提高了计算效 ...
CSS属性 Position的几种定位方式
作者:WangMin 格言:努力做好自己喜欢的每一件事在讲几种定位方式之前,我们先来了解一下什么是普通流(normal flow)? 除非专门指定,否则所有框都在普通流中定位.普通流中元素框的位置由 ...
linux系统centos7安装docker
1.Docker官网安装地址 https://docs.docker.com/engine/install/centos/#prerequisites 2.离线安装下载地址 https://downl ...
WebGL初接触
有感于在不少jd中看到关于WebGL的内容,想起来之前在高程中还没看完的canvas,就匆匆把剩余的一点看完了,高程中的内容还是皮毛,就属于很基础的.概念性的东西. WebGL 画布的3D上下文.不是 ...
c#中命令模式详解
基本介绍: 命令模式,顾名思义就是将命令抽象化,然后将请求者和接收者通过命令进行绑定. 而命令的请求者只管下达命令,命令的接收者只管执行命令. 从而实现了解耦,请求者和接受者二者相对独立. ...
简述几个我们对Redis 7开源社区所做的贡献
Redis 7 已经于2022年4月28号正式发布,其中包括了将近50个新的命令,增加了许多新的特性,并且在整个Redis 6到Redis 7的开发过程中,我也对Redis 的开源社区贡献了一些微薄的 ...
Atcoder abc 221 E - LEQ
原题链接:E - LEQ 思路: 题目要求对于从数组1~n找出所有符合开头数字小于等于结尾数字的子序列,\(A' = (A_1', A_2', ... , A_k')\),满足\(A_1' \leq ...
SQL模糊查询语法思考
模糊查询 sql语句: SELECT 字段 FROM 表 WHERE 某字段 Like 条件 % :表示任意0个或多个字符.可匹配任意类型和长度的字符,有些情况下若是中文,请使用两个百分号(%%)表示 ...
Java五种设计模式实现奶茶订单生成系统小DEMO
前言这是大学时候上设计模式这门课写的程序,当时课程任务是要求结合五个设计模式写一个系统,最近偶然翻到,把系统分享一下. 成品预览主界面功能介绍订单管理系统,实现了对订单的增删改查.且实现了 ...
C#设计模式之享元模式（Flyweight）
using System; using System.Collections; public class Client { public static void Main(string[] args) ...

【scikit-learn基础】--『监督学习』之 层次聚类

1. 算法概述

2. 创建样本数据

3. 模型训练

4. 总结

【scikit-learn基础】--『监督学习』之 层次聚类的更多相关文章

随机推荐

热门专题

【scikit-learn基础】--『监督学习』之层次聚类

【scikit-learn基础】--『监督学习』之层次聚类的更多相关文章