版权所有,转帖注明出处



到目前为止,我们已经非常深入地了解了数据集,并且把它分成了训练子集与测试子集。

接下来,我们将使用聚类方法训练一个模型,然后使用该模型来预测测试子集的标签,最后评估该模型的性能。

聚类(clustering)是在一组未标记的数据中,将相似的数据(点)归到同一个类别中的方法。聚类与分类的最大不同在于分类的目标事先已知,而聚类则不知道。K均值聚类是聚类中的常用方法,它是基于点与点的距离来计算最佳类别归属,即靠得比较近的一组点(数据)被归为一类,每个聚类都有一个中心点。

我们首先创建聚类模型,对训练子集进行聚类处理,得到聚类中心点。然后使用模型预测测试子集的标签,预测时根据测试子集中的点(数据)到中心点的距离来进行分类。

创建模型

示例

创建聚类模型。

import numpy as np
from sklearn import datasets # 加载 `digits` 数据集
digits = datasets.load_digits() from sklearn.preprocessing import scale # 对`digits.data`数据进行标准化处理
data = scale(digits.data) # print(data) # 导入 `train_test_split`
from sklearn.model_selection import train_test_split # 数据分成训练集和测试集
# `test_size`:如果是浮点数,在0-1之间,表示测试子集占比;如果是整数的话就是测试子集的样本数量,`random_state`:是随机数的种子
X_train, X_test, y_train, y_test, images_train, images_test = train_test_split(data, digits.target, digits.images, test_size=0.33, random_state=42) # 导入“cluster”模块
from sklearn import cluster # 创建KMeans模型
clf = cluster.KMeans(init='k-means++', n_clusters=10, random_state=42) # 将训练数据' X_train '拟合到模型中,此处没有用到标签数据y_train,K均值聚类一种无监督学习。
clf.fit(X_train)

cluster.KMeans的参数说明:

  • init='k-means++' - 指定初始化方法
  • n_clusters=10 - 聚类数量,分成10个类别
  • random_state=42 - 随机值种子

我们利用K均值聚类方法创建一个模型后,得到了每个聚类的中心点,测试时,可以根据测试子集中的点(数据)到中心点的距离来进行分类。

可以使用下面方法显示聚类中心点图像:


# 导入 matplotlib
import matplotlib.pyplot as plt # 图形尺寸(英寸)
fig = plt.figure(figsize=(8, 3)) # 添加标题
fig.suptitle('Cluster Center Images', fontsize=14, fontweight='bold') # 对于所有标签(0-9)
for i in range(10):
# 在一个2X5的网格中,在第i+1个位置初始化子图
ax = fig.add_subplot(2, 5, 1 + i)
# 显示图像
ax.imshow(clf.cluster_centers_[i].reshape((8, 8)), cmap=plt.cm.binary)
# 不要显示坐标轴
plt.axis('off') # 显示图形
plt.show()

显示

测试模型

接下来预测测试子集的标签:

# 预测“X_test”的标签
y_pred=clf.predict(X_test) # 打印出' y_pred '的前100个实例
print(y_pred[:100]) # 打印出' y_test '的前100个实例
print(y_test[:100])

输出

[0 3 3 6 8 9 8 9 8 8 4 2 7 1 2 4 3 7 3 8 2 8 3 7 4 0 3 8 0 3 2 3 9 2 2 0 3
2 7 0 0 3 4 3 0 4 3 1 0 3 7 4 3 8 0 1 3 1 1 2 1 2 3 8 2 3 7 1 7 3 3 3 3 7
7 1 2 8 3 3 3 1 8 3 3 1 0 2 2 3 4 9 4 3 3 9 3 2 2 7]
[6 9 3 7 2 1 5 2 5 2 1 9 4 0 4 2 3 7 8 8 4 3 9 7 5 6 3 5 6 3 4 9 1 4 4 6 9
4 7 6 6 9 1 3 6 1 3 0 6 5 5 1 9 5 6 0 9 0 0 1 0 4 5 2 4 5 7 0 7 5 9 5 5 4
7 0 4 5 5 9 9 0 2 3 8 0 6 4 4 9 1 2 8 3 5 2 9 0 4 4]

在上面的代码块中,预测测试集的标签,结果存储在y_pred中。然后打印出y_pred和y_test的前100个实例。可以看出模型预测的准确率并不高。

评估模型

接下来,我们将进一步对模型的性能进行评估,分析模型预测的正确性。

让我们打印一个混淆矩阵:

# 从“sklearn”导入“metrics”
from sklearn import metrics # 用“confusion_matrix()”打印出混淆矩阵
print(metrics.confusion_matrix(y_test, y_pred))

输出

[[ 0 54  1  0  0  0  0  0  0  0]
[ 0 0 15 0 29 0 0 0 0 11]
[ 1 0 2 0 7 0 0 0 27 15]
[ 0 0 0 49 1 0 0 4 1 1]
[ 0 0 57 0 0 0 3 4 0 0]
[ 1 0 2 34 6 0 0 5 25 0]
[56 1 0 0 0 0 0 0 0 0]
[ 0 0 0 0 0 0 5 55 2 0]
[ 0 0 0 18 28 0 0 2 4 0]
[ 1 0 5 55 2 0 1 4 0 0]]

混淆矩阵

混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示,每一列代表预测值,每一行代表实际的类别。混淆矩阵对角线上的值表示预测值匹配数,其他位置表示错配的数量。例如第一行第二列是54,表示实际值是分类0,但预测值是分类1的错误预测发生了54次。

可以看出模型预测的准确率并不高:数字3预测对了49次,数字7预测对了55次,其他的都很低。

让我们继续打印一些常用的评估指标:

from sklearn.metrics import homogeneity_score, completeness_score, v_measure_score, adjusted_rand_score, adjusted_mutual_info_score, silhouette_score
print('% 9s' % 'inertia homo compl v-meas ARI AMI silhouette')
print('%i %.3f %.3f %.3f %.3f %.3f %.3f'
%(clf.inertia_,
homogeneity_score(y_test, y_pred),
completeness_score(y_test, y_pred),
v_measure_score(y_test, y_pred),
adjusted_rand_score(y_test, y_pred),
adjusted_mutual_info_score(y_test, y_pred),
silhouette_score(X_test, y_pred, metric='euclidean')))

输出:

inertia    homo   compl  v-meas     ARI AMI  silhouette
48486 0.584 0.662 0.621 0.449 0.572 0.131
  • homogeneity_score 同质性指标,每个群集只包含单个类的成员。
  • completeness_score 完整性指标,给定类的所有成员都分配给同一个群集。
  • v_measure_score 同质性指标与完整性指标的调和平均。
  • adjusted_rand_score 调整兰德指数
  • adjusted_mutual_info_score 调整互信息
  • silhouette_score 轮廓系数

关于这些指标的详情,限于篇幅,不再赘述,你可以参考相关资料。

Sklearn K均值聚类的更多相关文章

  1. 探索sklearn | K均值聚类

    1 K均值聚类 K均值聚类是一种非监督机器学习算法,只需要输入样本的特征 ,而无需标记. K均值聚类首先需要随机初始化K个聚类中心,然后遍历每一个样本,将样本归类到最近的一个聚类中,一个聚类中样本特征 ...

  2. 机器学习之路:python k均值聚类 KMeans 手写数字

    python3 学习使用api 使用了网上的数据集,我把他下载到了本地 可以到我的git中下载数据集: https://github.com/linyi0604/MachineLearning 代码: ...

  3. k均值聚类算法原理和(TensorFlow)实现

    顾名思义,k均值聚类是一种对数据进行聚类的技术,即将数据分割成指定数量的几个类,揭示数据的内在性质及规律. 我们知道,在机器学习中,有三种不同的学习模式:监督学习.无监督学习和强化学习: 监督学习,也 ...

  4. 【转】算法杂货铺——k均值聚类(K-means)

    k均值聚类(K-means) 4.1.摘要 在前面的文章中,介绍了三种常见的分类算法.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应.但是很多时 ...

  5. 5-Spark高级数据分析-第五章 基于K均值聚类的网络流量异常检测

    据我们所知,有‘已知的已知’,有些事,我们知道我们知道:我们也知道,有 ‘已知的未知’,也就是说,有些事,我们现在知道我们不知道.但是,同样存在‘不知的不知’——有些事,我们不知道我们不知道. 上一章 ...

  6. 机器学习实战5:k-means聚类:二分k均值聚类+地理位置聚簇实例

    k-均值聚类是非监督学习的一种,输入必须指定聚簇中心个数k.k均值是基于相似度的聚类,为没有标签的一簇实例分为一类. 一 经典的k-均值聚类 思路: 1 随机创建k个质心(k必须指定,二维的很容易确定 ...

  7. Python实现kMeans(k均值聚类)

    Python实现kMeans(k均值聚类) 运行环境 Pyhton3 numpy(科学计算包) matplotlib(画图所需,不画图可不必) 计算过程 st=>start: 开始 e=> ...

  8. 机器学习理论与实战(十)K均值聚类和二分K均值聚类

    接下来就要说下无监督机器学习方法,所谓无监督机器学习前面也说过,就是没有标签的情况,对样本数据进行聚类分析.关联性分析等.主要包括K均值聚类(K-means clustering)和关联分析,这两大类 ...

  9. 第十篇:K均值聚类(KMeans)

    前言 本文讲解如何使用R语言进行 KMeans 均值聚类分析,并以一个关于人口出生率死亡率的实例演示具体分析步骤. 聚类分析总体流程 1. 载入并了解数据集:2. 调用聚类函数进行聚类:3. 查看聚类 ...

随机推荐

  1. /dev设备文件命名或符号链接建立

    udev是一个用户空间服务,负责监听内核设备变动事件,从/sysfs---中读取发生变动的设备属性信息,遍历 命名规则文件,进行属性规则的匹配,如果匹配,就进行执行命名自定义动作 udev 的规则和规 ...

  2. CF1209C Paint the Digits

    CF1209C Paint the Digits 题意:给定T组数据,每组数据第一行输入数字串长度,第二行输入数字串,用数字1和2对数字串进行涂色,被1涂色的数字子串和被2涂色的数字子串拼接成新的数字 ...

  3. ADV-297 快速排序 java

    问题描述 用递归来实现快速排序(quick sort)算法.快速排序算法的基本思路是:假设要对一个数组a进行排序,且a[0] = x.首先对数组中的元素进行调整,使x放在正确的位置上.同时,所有比x小 ...

  4. JS 一键复制插件应用 和 原生实现

    一.目前来说复制功能 clipboard.js基本可以兼容所有浏览器,可以任意复制文本,官方地址 https://clipboardjs.com/ 1.进入官方网站下载 然后引入 <script ...

  5. 还是应该立个flag

    6月份 开通博客的想法很简单,就是决定要学习C++和算法,写博客作为督促自己的一个方式,因为还没有系统的学习,自认为写博客或见解有些力所不及,决定先从自己的一篇随笔开始,因为我知道自己一旦开始,就会坚 ...

  6. 「SCOI2005」栅栏

    传送门 Luogu 解题思路 我们有很显然的这样一条贪心思路: 首先满足长度短的木板,因为如果可以满足长的也肯定可以满足短的,而且可能满足更多. 那么我们就会有这样的思路:枚举一条木板由哪条木板切割而 ...

  7. Lamda简单使用

    using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.T ...

  8. poj 3617 Best Cow Line 贪心模拟

    Best Cow Line Time Limit: 1000MS   Memory Limit: 65536K Total Submissions: 42701   Accepted: 10911 D ...

  9. FBV CBV

    目录 CBV 和 FBV 介绍 路由绑定 urlpatterns = [ # 1)项目启动,将test函数地址绑定给/test/路由 # 2)请求/test/访问后台,后台就会调用绑定的test函数 ...

  10. flutter如何使用配置文件pubspec.yaml(位于项目根目录)来管理第三方依赖包

    官方文档 在软件开发中,很多时候有一些公共的库或SDK可能会被很多项目用到,因此,将这些代码单独抽到一个独立模块,然后哪个项目需要使用时再直接集成这个模块,便可大大提高开发效率.很多编程语言或开发工具 ...