SciPy k均值聚类

章节

聚类(K-means clustering)是在一组未标记的数据中，将相似的数据（点）归到同一个类别中的方法。聚类与分类的最大不同在于分类的目标事先已知，而聚类则不知道。

K-means是聚类中最常用的方法之一，它是基于点与点的距离来计算最佳类别归属，即靠得比较近的一组点（数据）被归为一类。

K-means的算法原理如下：

随机选取k个点作为中心点
遍历所有点，将每个点划分到最近的中心点，形成k个聚类
根据聚类中点之间的距离，重新计算各个聚类的中心点
重复2-3步骤，直到这k个中线点不再变化（收敛了），或达到最大迭代次数

SciPy中，cluster包已经很好地实现了K-Means算法，我们可以直接使用它。

使用SciPy中的k均值聚类功能

导入 K-Means

导入要使用的模块：

from SciPy.cluster.vq import kmeans,vq,whiten

样本数据生成

准备样本数据：

from numpy import vstack,array

from numpy.random import rand

# 具有3个特征值的样本数据生成

data = vstack((rand(100,3) + array([.5,.5,.5]),rand(100,3)))

上面的程序将生成以下样本数据：

[[9.08178137e-01 1.13621041e+00 1.37775140e+00]

 [8.03177864e-01 8.61501332e-01 1.36841278e+00]

 [1.20454835e+00 5.80649650e-01 1.02232192e+00]

 [5.78773849e-01 1.29952832e+00 9.01418916e-01]

 [1.00196410e+00 1.15425599e+00 5.68536029e-01]

 [1.12860722e+00 7.63647578e-01 6.03910440e-01]

 [1.29241389e+00 1.33779906e+00 1.38514877e+00]

 [6.98439684e-01 1.10509272e+00 7.13420372e-01]

...

数据白化预处理

数据白化预处理是一种常见的数据预处理方法，作用是去除样本数据的冗余信息。

可以使用以下代码来白化数据。

# 白化数据

data = whiten(data)

分成3个聚类

我们会把样本数据分成3个聚类，使用kmeans()函数计算3个聚类的中心点。

# 计算 K = 3 时的中心点

centroids, _ = kmeans(data, 3)

打印中心点：

print(centroids)

输出：

[[2.33037825 1.63328035 1.76901626]

 [0.69611182 1.48776606 1.25827876]

 [2.39743406 2.98803923 2.99201397]]

使用vq函数将样本数据中的每个样本点分配给一个中心点，形成3个聚类。

# 将样本数据中的每个值分配给一个中心点，形成3个聚类。

# 返回值clx标出了对应索引样本的聚类，dist表示对应索引样本与聚类中心的距离。

clx, dist = vq(data, centroids)

输出聚类

# 打印聚类

print(clx)

输出：

[1 1 1 1 1 1 1 0 0 1 0 0 1 0 0 1 1 0 1 1 1 1 0 0 0 1 0 1 0 1 1 0 1 0 0 1 0

 1 0 1 1 1 0 1 0 0 1 1 1 1 0 0 1 0 1 0 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 1 1 0

 0 0 1 0 0 0 0 0 1 1 1 0 1 0 1 1 1 0 1 0 0 1 0 0 1 1 0 2 0 2 0 2 2 2 0 2 0

 0 0 2 2 2 2 2 0 0 0 2 2 2 2 0 0 0 2 2 2 0 2 0 2 2 0 2 0 2 2 2 2 2 2 0 2 2

 2 2 2 2 2 0 2 0 0 2 2 0 0 0 0 0 0 0 2 0 0 2 0 0 2 2 2 2 2 2 2 0 2 0 0 2 2

 2 0 2 2 0 0 2 2 2 2 0 2 0 0 2]

上面数组中，值0,1,2分别表示3个聚类，某个位置上的值表示该对应索引数据属于哪个聚类，例如clx[0]=1，表明data[0]样本属于聚类1。

SciPy k均值聚类的更多相关文章

【转】算法杂货铺——k均值聚类(K-means)
k均值聚类(K-means) 4.1.摘要在前面的文章中,介绍了三种常见的分类算法.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应.但是很多时 ...
5-Spark高级数据分析-第五章基于K均值聚类的网络流量异常检测
据我们所知,有‘已知的已知’,有些事,我们知道我们知道:我们也知道,有 ‘已知的未知’,也就是说,有些事,我们现在知道我们不知道.但是,同样存在‘不知的不知’——有些事,我们不知道我们不知道. 上一章 ...
机器学习实战5：k-means聚类：二分k均值聚类+地理位置聚簇实例
k-均值聚类是非监督学习的一种,输入必须指定聚簇中心个数k.k均值是基于相似度的聚类,为没有标签的一簇实例分为一类. 一经典的k-均值聚类思路: 1 随机创建k个质心(k必须指定,二维的很容易确定 ...
Python实现kMeans(k均值聚类)
Python实现kMeans(k均值聚类) 运行环境 Pyhton3 numpy(科学计算包) matplotlib(画图所需,不画图可不必) 计算过程 st=>start: 开始 e=> ...
机器学习理论与实战（十）K均值聚类和二分K均值聚类
接下来就要说下无监督机器学习方法,所谓无监督机器学习前面也说过,就是没有标签的情况,对样本数据进行聚类分析.关联性分析等.主要包括K均值聚类(K-means clustering)和关联分析,这两大类 ...
第十篇：K均值聚类(KMeans)
前言本文讲解如何使用R语言进行 KMeans 均值聚类分析,并以一个关于人口出生率死亡率的实例演示具体分析步骤. 聚类分析总体流程 1. 载入并了解数据集:2. 调用聚类函数进行聚类:3. 查看聚类 ...
K均值聚类的失效性分析
K均值聚类是一种应用广泛的聚类技术,特别是它不依赖于任何对数据所做的假设,比如说,给定一个数据集合及对应的类数目,就可以运用K均值方法,通过最小化均方误差,来进行聚类分析. 因此,K均值实际上是一个最 ...
K均值聚类
聚类(cluster)与分类的不同之处在于, 分类算法训练过程中样本所属的分类是已知的属监督学习. 而聚类算法不需要带有分类的训练数据,而是根据样本特征的相似性将其分为几类,又称为无监督分类. K均值 ...
ML: 聚类算法-K均值聚类
基于划分方法聚类算法R包: K-均值聚类(K-means) stats::kmeans().fpc::kmeansruns() K-中心点聚类(K-Medoids) ...

随机推荐

JS 上传图片压缩，原比例压缩
复制粘贴改吧改吧就可用,原生js var fileObj = file.file;//原文件 file是我用vue-vant里的组件,里边有file(原文件)和content(base64) 其它 ...
[原]用SQL比较两张结构完全相同的表数据
前几天面试遇到一个比较有意思的问题,就是有两张结构完全相同的表A和B,但是这两张表属于不同的业务流程,经过一段时间后发现两张表的数据不能完全匹配,有可能A比B多,也可能B比A多,或者两种可能同时存在, ...
01-JAVA语言基础（动手动脑）
一.一个JAVA类文件中只能有一个public类吗? 01-JAVA语言基础.ppt第22页“一个Java源文件中可以写多个类,但其中只能有一个类是“公有(public)”的,并且Java要求源文件名 ...
centos7搭建hadoop2.10完全分布式
本篇介绍在centos7中大家hadoop2.10完全分布式,首先准备4台机器:1台nn(namenode);3台dn(datanode) IP hostname 进程 192.168.30.141 ...
Java连载66-数组的两种初始化方式
一.数组 1.数组中存储元素的类型是统一的,每一个元素在内存中所占用的空间大小是相同的,知道数组的首元素的内存地址,要查找的元素只要知道下标,就可以快速的计算出偏移量,通过首元素内存地址加上偏移量,就 ...
Linux 添加新磁盘 && 创建分区 && 挂载
参考: 挂载目录分区:https://blog.csdn.net/arenn/article/details/78866251 挂载:https://www.jb51.net/article/108 ...
swoole 父子进程间通信
<?php /** * 场景: * 监控订单表状态父子进程通信 * 一个主进程两个子进程实现 */ //设置主进程名 echo '主进程id:' . posix_getpid() . PHP ...
java记录3--抽象
1.由来利用抽象类是i为了更好的对类加以分类,例如各种植物有具体名字,也有“植物”这个抽象的词对所有具体植物进行归类. 2.抽象类通常用来作为一个类族的最顶层的父类(表示该类族所有事物的共性), 用 ...
《SQL 进阶教程》查找局部不一致的数据
-- 从下面这张商品表里找出价格相等的商品的组合 select * from products p1LEFT JOIN products p2on p1.price = p2.price and p1 ...
Ubuntu18.04下Qt5.9.8连接mysql数据库失败的解决办法
问题: 连接mysql数据库时,出现如下提示: QSqlDatabase: QMYSQL driver not loaded QSqlDatabase: available drivers: QSQ ...