聚类模型是试图检测未标记数据中模式的无监督方法。聚类算法主要有两类：聚集聚类将相似的数据点连接在一起，而质心聚类则试图在数据中找到中心或分区。Yellowbrick提供yellowbrick.cluster用于可视化和评估群集行为的模块。目前，我们提供了几种可视化工具来评估质心机制，特别是K均值聚类，帮助我们发现聚类度量中的最佳K参数。

主要方法如下：

Elbow Method：根据某个评分函数对聚类进行可视化，在曲线中寻找“Elbow”。
Silhouette Visualize：在一个模型中可视化每个集群的轮廓分数。
Intercluster Distance：可视化簇的相对距离和大小。

本文如果数据集下载不下来，查看下面地址，然后放入yellowbrick安装目录\datasets\fixtures文件夹:

{

  "bikeshare": {

    "url": "https://s3.amazonaws.com/ddl-data-lake/yellowbrick/v1.0/bikeshare.zip",

    "signature": "4ed07a929ccbe0171309129e6adda1c4390190385dd6001ba9eecc795a21eef2"

  },

  "hobbies": {

    "url": "https://s3.amazonaws.com/ddl-data-lake/yellowbrick/v1.0/hobbies.zip",

    "signature": "6114e32f46baddf049a18fb05bad3efa98f4e6a0fe87066c94071541cb1e906f"

  },

  "concrete": {

    "url": "https://s3.amazonaws.com/ddl-data-lake/yellowbrick/v1.0/concrete.zip",

    "signature": "5807af2f04e14e407f61e66a4f3daf910361a99bb5052809096b47d3cccdfc0a"

  },

  "credit": {

    "url": "https://s3.amazonaws.com/ddl-data-lake/yellowbrick/v1.0/credit.zip",

    "signature": "2c6f5821c4039d70e901cc079d1404f6f49c3d6815871231c40348a69ae26573"

  },

  "energy": {

    "url": "https://s3.amazonaws.com/ddl-data-lake/yellowbrick/v1.0/energy.zip",

    "signature": "174eca3cd81e888fc416c006de77dbe5f89d643b20319902a0362e2f1972a34e"

  },

  "game": {

    "url": "https://s3.amazonaws.com/ddl-data-lake/yellowbrick/v1.0/game.zip",

    "signature": "ce799d1c55fcf1985a02def4d85672ac86c022f8f7afefbe42b20364fba47d7a"

  },

  "mushroom": {

    "url": "https://s3.amazonaws.com/ddl-data-lake/yellowbrick/v1.0/mushroom.zip",

    "signature": "f79fdbc33b012dabd06a8f3cb3007d244b6aab22d41358b9aeda74417c91f300"

  },

  "occupancy": {

    "url": "https://s3.amazonaws.com/ddl-data-lake/yellowbrick/v1.0/occupancy.zip",

    "signature": "0b390387584586a05f45c7da610fdaaf8922c5954834f323ae349137394e6253"

  },

  "spam": {

    "url": "https://s3.amazonaws.com/ddl-data-lake/yellowbrick/v1.0/spam.zip",

    "signature": "000309ac2b61090a3001de3e262a5f5319708bb42791c62d15a08a2f9f7cb30a"

  },

  "walking": {

    "url": "https://s3.amazonaws.com/ddl-data-lake/yellowbrick/v1.0/walking.zip",

    "signature": "7a36615978bc3bb74a2e9d5de216815621bd37f6a42c65d3fc28b242b4d6e040"

  },

  "nfl": {

    "url": "https://s3.amazonaws.com/ddl-data-lake/yellowbrick/v1.0/nfl.zip",

    "signature": "4989c66818ea18217ee0fe3a59932b963bd65869928c14075a5c50366cb81e1f"

  }

}

# 多行输出

from IPython.core.interactiveshell import InteractiveShell

InteractiveShell.ast_node_interactivity = "all"

1 Elbow Method

KElbowVisualizer实现了“肘部”方法，以帮助数据科学家通过用K的一系列值拟合模型来选择最佳的簇数。如果折线图类似于手臂，则“肘部”（曲线上的拐点）是一个很好的指示，表明基础模型在该点最适合。在可视化工具中，“弯头”将用虚线注释。

可视化器	KElbowVisualizer
快速使用方法	kelbow_visualizer()
模型	聚类
工作流程	模型评估

为了证明这一点，在下面的例子中，KElbowVisualizer在一个包含8个随机点簇的二维数据集上拟合KMeans模型，该模型的K值范围从4到11。当模型适合8个簇时，我们可以看到一条线在图中注释“弯头”，在本例中我们知道这是最佳数目。

1.1 基础使用

from sklearn.cluster import KMeans

from sklearn.datasets import make_blobs

from yellowbrick.cluster import KElbowVisualizer

# Generate synthetic dataset with 8 random clusters

# 建立具有8个随机点簇中心的数据

X, y = make_blobs(n_samples=1000, n_features=12, centers=8, random_state=42)

# Instantiate the clustering model and visualizer

model = KMeans()

# 可视化

visualizer = KElbowVisualizer(model, k=(4,12))

visualizer.fit(X)        # Fit the data to the visualizer

visualizer.show();        # Finalize and render the figure

<Figure size 800x550 with 2 Axes>

默认情况下，评分参数度量metric设置为distortion，这将计算从每个点到其指定中心的平方距离之和。
但是，KElbowVisualizer还可以使用另外两个指标-sihouette和calinski_harabasz。
silhouette计算所有采样的平均轮廓系数，而calinski_harabasz分数计算簇之间和簇内的分散率。

KElbowVisualizer还将每K训练聚类模型的时间量显示为一条绿色虚线，但可以通过设置timings=False来隐藏。在下面的示例中，我们将使用calinski_harabasz分数并隐藏时间以适合模型。

from sklearn.cluster import KMeans

from sklearn.datasets import make_blobs

from yellowbrick.cluster import KElbowVisualizer

# Generate synthetic dataset with 8 random clusters

X, y = make_blobs(n_samples=1000, n_features=12, centers=8, random_state=42)

# Instantiate the clustering model and visualizer

model = KMeans()

visualizer = KElbowVisualizer(

    model, k=(4,12), metric='calinski_harabasz', timings=False

)

visualizer.fit(X)        # Fit the data to the visualizer

visualizer.show();        # Finalize and render the figure

默认情况下，参数locate_elbow设置为True，使用“elbow检测算法”自动找到可能与k的最佳值相对应的“肘”。但是，用户可以通过设置关闭功能locate_elbow=False。您可以在 Kevin Arvai的Knee point detection in Python中阅读有关此算法的实现的信息。

from sklearn.cluster import KMeans

from sklearn.datasets import make_blobs

from yellowbrick.cluster import KElbowVisualizer

# Generate synthetic dataset with 8 random clusters

X, y = make_blobs(n_samples=1000, n_features=12, centers=8, random_state=42)

# Instantiate the clustering model and visualizer

model = KMeans()

visualizer = KElbowVisualizer(

    model, k=(4,12), metric='calinski_harabasz', timings=False, locate_elbow=False

)

visualizer.fit(X)        # Fit the data to the visualizer

visualizer.show();        # Finalize and render the figure

重要的是要记住，如果数据不是非常聚集，那么“肘部”方法就不能很好地工作。在这种情况下，您可能会看到一条平滑的曲线，而K的最佳值将不清楚。

1.2 快速方法

上面的相同功能可以通过关联的快速方法来实现kelbow_visualizer。此方法将KElbowVisualizer使用关联的参数构建对象，将其拟合，然后（可选）立即显示可视化效果。

from sklearn.cluster import KMeans

from yellowbrick.cluster.elbow import kelbow_visualizer

from yellowbrick.datasets.loaders import load_nfl

X, y = load_nfl()

# Use the quick method and immediately show the figure

kelbow_visualizer(KMeans(random_state=4), X, k=(2,10));

2 Silhouette Visualiz

当数据集的实际情况未知时，使用轮廓系数来计算聚类密度。通过平均每个样本的轮廓系数来计算得分，计算为每个样本的平均簇内距离和平均最近聚类距离之间的差，用最大值归一化。这将产生一个介于1和-1之间的分数，其中1是高度密集的簇，而-1是完全不正确的聚类。

可视化器	SilhouetteVisualizer
快速使用方法	silhouette_visualizer()
模型	聚类
工作流程	模型评估

2.1 基础使用

红线表示平均Silhouette分数，纵坐标表示当前特征的分数

from sklearn.cluster import KMeans

from yellowbrick.cluster import SilhouetteVisualizer

from yellowbrick.datasets import load_nfl

# Load a clustering dataset

X, y = load_nfl()

# Specify the features to use for clustering

# 指定某五个特征

features = ['Rec', 'Yds', 'TD', 'Fmb', 'Ctch_Rate']

# 挑选这些特征重tgb>20的数据

X = X.query('Tgt >= 20')[features]

# Instantiate the clustering model and visualizer

model = KMeans(5, random_state=42)

visualizer = SilhouetteVisualizer(model, colors='yellowbrick')

visualizer.fit(X)        # Fit the data to the visualizer

visualizer.show();        # Finalize and render the figure

2.2 快速方法

上面的相同功能可以通过关联的快速方法silhouette_visualizer来实现。此方法将使用关联的参数构建Silhouette Visualizer对象，将其拟合，然后（可选）立即显示它。

from sklearn.cluster import KMeans

from yellowbrick.cluster import silhouette_visualizer

from yellowbrick.datasets import load_credit

# Load a clustering dataset

X, y = load_credit()

# Specify rows to cluster: under 40 y/o and have either graduate or university education

X = X[(X['age'] <= 40) & (X['edu'].isin([1,2]))]

# Use the quick method and immediately show the figure

silhouette_visualizer(KMeans(5, random_state=42), X, colors='yellowbrick');

3 Intercluster Distance

簇间距离图在保留到其他中心的距离的情况下，在2维中显示簇中心的嵌入。
例如，可视化中元素离中心越近，它们在原始特征空间中的距离就越近。
根据评分度量调整群集的大小。
默认情况下，它们的大小取决于membership，例如，属于每个中心的实例数量。
这让人感觉到集群的相对重要性。
但是，请注意，由于两个簇在2D空间中重叠，这并不意味着它们在原始特征空间中重叠。

可视化器	InterclusterDistance
快速使用方法	intercluster_distance()
模型	聚类
工作流程	模型评估

3.1 基础使用



from sklearn.cluster import KMeans

from sklearn.datasets import make_blobs

from yellowbrick.cluster import InterclusterDistance

# Generate synthetic dataset with 12 random clusters

X, y = make_blobs(n_samples=1000, n_features=12, centers=12, random_state=42)

# Instantiate the clustering model and visualizer

# 六个簇类

model = KMeans(6)

visualizer = InterclusterDistance(model)

visualizer.fit(X)        # Fit the data to the visualizer|

visualizer.show();       # Finalize and render the figure

3.2 快速方法

上面的相同功能可以通过关联的快速方法intercluster_distance实现。此方法将InterclusterDistance使用关联的参数构建对象，将其拟合，然后（可选）立即显示它。

from yellowbrick.datasets import load_nfl

from sklearn.cluster import MiniBatchKMeans

from yellowbrick.cluster import intercluster_distance

X, _ = load_nfl()

intercluster_distance(MiniBatchKMeans(5, random_state=777), X);

4 参考

https://www.scikit-yb.org/en/latest/api/cluster/elbow.html

https://www.scikit-yb.org/en/latest/api/cluster/silhouette.html

https://www.scikit-yb.org/en/latest/api/cluster/icdm.html#yellowbrick.cluster.icdm.InterclusterDistance

[机器学习] Yellowbrick使用笔记7-聚类可视化的更多相关文章

[机器学习] Yellowbrick使用笔记4-目标可视化
目标可视化工具专门用于直观地描述用于监督建模的因变量,通常称为y目标. 代码下载当前实现了以下可视化: 平衡箱可视化Balanced Binning:生成带有垂直线的直方图,垂直线显示推荐值点,以将 ...
[机器学习] Yellowbrick使用笔记6-分类可视化
分类模型试图在一个离散的空间中预测一个目标,即为一个因变量实例分配一个或多个类别. 代码下载分类分数可视化工具显示类之间的差异以及一些特定于分类器的可视化评估.我们目前已经实施了以下分类器评估: 分 ...
[机器学习] Yellowbrick使用笔记5-回归可视化
回归模型试图预测连续空间中的目标.回归计分可视化工具显示模型空间中的实例,以便更好地理解模型是如何进行预测的.代码下载 Yellowbrick已经实施了三种回归评估: 残差图Residuals Plo ...
[机器学习] Yellowbrick使用笔记8-模型选择可视化
Yellowbrick可视化工具旨在指导模型选择过程.一般来说,模型选择是一个搜索问题,定义如下:给定N个由数值属性描述的实例和(可选)一个估计目标,找到一个由特征.算法和最适合数据的超参数组成的三元 ...
[机器学习] Yellowbrick使用笔记1-快速入门
Yellowbrick是一个机器学习可视化库,主要依赖于sklearn机器学习库,能够提供多种机器学习算法的可视化,主要包括特征可视化,分类可视化,回归可视化,回归可视化,聚类可视化,模型选择可视化, ...
[机器学习] Yellowbrick使用笔记3-特征分析可视化
特征分析可视化工具设计用于在数据空间中可视化实例,以便检测可能影响下游拟合的特征或目标.因为ML操作高维数据集(通常至少35个),可视化工具将重点放在聚合.优化和其他技术上,以提供对数据的概述.这是Y ...
[机器学习] Yellowbrick使用笔记2-模型选择
在本教程中,我们将查看各种Scikit Learn模型的分数,并使用Yellowbrick的可视化诊断工具对它们进行比较,以便为我们的数据选择最佳的模型. 代码下载文章目录 1 使用说明 1.1 模 ...
机器学习实战 - 读书笔记(13) - 利用PCA来简化数据
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第13章 - 利用PCA来简化数据. 这里介绍,机器学习中的降维技术,可简化样品数据. ...
机器学习实战 - 读书笔记(12) - 使用FP-growth算法来高效发现频繁项集
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第12章 - 使用FP-growth算法来高效发现频繁项集. 基本概念 FP-growt ...

随机推荐

汇编指令：lea
lea指令变种(按大小分类): leaw #2个字节 leal #4个字节 leaq #8个字节 lea的用法: leaq a(b, c, d), %rax 首先lea指令是mov指令的变种,据说,l ...
通过netty把百度地图API获取的地理位置从Android端发送到Java服务器端
本篇记录我在实现时的思考过程,写给之后可能遇到困难的我自己也给到需要帮助的人. 写的比较浅显,见谅. 在写项目代码的时候,需要把Android端的位置信息传输到服务器端,通过Netty达到连续传输的效 ...
JavaScript基础&实战（2）js中的强制类型转换、运算符、关系运算符、逻辑运算符、条件运算符
文章目录 1.强制类型转换Number 1.1 代码 1.2 测试结果 2.进制表示 2.1 代码 2.2 测试结果 3.强制类型转换为Boolea 3.1 代码 3.2 测试结果 4.运算符 4.1 ...
即兴小探华为开源行业领先大数据虚拟化引擎openLooKeng
@ 目录概述定义背景特点架构关键技术应用场景安装单台部署集群部署命令行接口连接器 MySQL连接器 ClickHouse连接器概述定义 openLooKeng 官网地址 h ...
iptables和firewalld基础
1.四表五链概念: filter表过滤数据包 Nat表用于网络地址转换(IP.端口) Mangle表修改数据包的服务类型.TTL.并且可以配置路由实现QOS Raw表决定数据包是否被状态跟踪机 ...
Spark基本知识
Spark基本知识 Spark 是一种基于内存的快速.通用.可扩展的大数据分析计算引擎. spark与hadoop的区别 Hadoop Hadoop 是由 java 语言编写的,在分布式服务器集群上存 ...
「浙江理工大学ACM入队200题系列」问题 E: 零基础学C/C++78——求奇数的乘积
本题是浙江理工大学ACM入队200题第八套中的E题我们先来看一下这题的题面. 题面输入输入数据包含多个测试实例,每个测试实例占一行,每行的第一个数为n,表示本组数据一共有n个,接着是n个整数,你 ...
【JAVA】详解在JAVA中int与Integer的区别以及背后的原因。
区别首先我们要明确,这两点之间有什么区别? 主要有以下几点: 数据类型不同:int是基础数据类型,而 Integer是包装数据类型: 默认值不同:int的默认值是 0,而 Integer的默认值是 ...
Java反应式编程（1）
您好,我是湘王,这是我的博客园,欢迎您来,欢迎您再来- 前面把Java函数式编程的由来和最主要的核心知识点讲完了.包括比较难懂的Lambda表达式是怎么演变而来的也全部都撸了一遍.Lambda表达式这 ...
JMX port被占用
JMX port被占用解决方案 win+R打开DOS窗口,进入window命令,注意:要以管理员身份打开(快捷键:ctrl+shift+enter): 使用命令:netstat -aon|finds ...

[机器学习] Yellowbrick使用笔记7-聚类可视化