聚类(K-means clustering)是在一组未标记的数据中,将相似的数据(点)归到同一个类别中的方法。聚类与分类的最大不同在于分类的目标事先已知,而聚类则不知道。

K-means是聚类中最常用的方法之一,它是基于点与点的距离来计算最佳类别归属,即靠得比较近的一组点(数据)被归为一类。

K-means的算法原理如下:

  1. 随机选取k个点作为中心点
  2. 遍历所有点,将每个点划分到最近的中心点,形成k个聚类
  3. 根据聚类中点之间的距离,重新计算各个聚类的中心点
  4. 重复2-3步骤,直到这k个中线点不再变化(收敛了),或达到最大迭代次数

SciPy中,cluster包已经很好地实现了K-Means算法,我们可以直接使用它。

使用SciPy中的k均值聚类功能

导入 K-Means

导入要使用的模块:

from SciPy.cluster.vq import kmeans,vq,whiten

样本数据生成

准备样本数据:

from numpy import vstack,array
from numpy.random import rand # 具有3个特征值的样本数据生成
data = vstack((rand(100,3) + array([.5,.5,.5]),rand(100,3)))

上面的程序将生成以下样本数据:

[[9.08178137e-01 1.13621041e+00 1.37775140e+00]
[8.03177864e-01 8.61501332e-01 1.36841278e+00]
[1.20454835e+00 5.80649650e-01 1.02232192e+00]
[5.78773849e-01 1.29952832e+00 9.01418916e-01]
[1.00196410e+00 1.15425599e+00 5.68536029e-01]
[1.12860722e+00 7.63647578e-01 6.03910440e-01]
[1.29241389e+00 1.33779906e+00 1.38514877e+00]
[6.98439684e-01 1.10509272e+00 7.13420372e-01]
...

数据白化预处理

数据白化预处理是一种常见的数据预处理方法,作用是去除样本数据的冗余信息。

可以使用以下代码来白化数据。

# 白化数据
data = whiten(data)

分成3个聚类

我们会把样本数据分成3个聚类,使用kmeans()函数计算3个聚类的中心点。

# 计算 K = 3 时的中心点
centroids, _ = kmeans(data, 3)

打印中心点:

print(centroids)

输出:

[[2.33037825 1.63328035 1.76901626]
[0.69611182 1.48776606 1.25827876]
[2.39743406 2.98803923 2.99201397]]

使用vq函数将样本数据中的每个样本点分配给一个中心点,形成3个聚类。

# 将样本数据中的每个值分配给一个中心点,形成3个聚类。
# 返回值clx标出了对应索引样本的聚类,dist表示对应索引样本与聚类中心的距离。
clx, dist = vq(data, centroids)

输出聚类

# 打印聚类
print(clx)

输出:

[1 1 1 1 1 1 1 0 0 1 0 0 1 0 0 1 1 0 1 1 1 1 0 0 0 1 0 1 0 1 1 0 1 0 0 1 0
1 0 1 1 1 0 1 0 0 1 1 1 1 0 0 1 0 1 0 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 1 1 0
0 0 1 0 0 0 0 0 1 1 1 0 1 0 1 1 1 0 1 0 0 1 0 0 1 1 0 2 0 2 0 2 2 2 0 2 0
0 0 2 2 2 2 2 0 0 0 2 2 2 2 0 0 0 2 2 2 0 2 0 2 2 0 2 0 2 2 2 2 2 2 0 2 2
2 2 2 2 2 0 2 0 0 2 2 0 0 0 0 0 0 0 2 0 0 2 0 0 2 2 2 2 2 2 2 0 2 0 0 2 2
2 0 2 2 0 0 2 2 2 2 0 2 0 0 2]

上面数组中,值0,1,2分别表示3个聚类,某个位置上的值表示该对应索引数据属于哪个聚类,例如clx[0]=1,表明data[0]样本属于聚类1。

SciPy k均值聚类的更多相关文章

  1. 【转】算法杂货铺——k均值聚类(K-means)

    k均值聚类(K-means) 4.1.摘要 在前面的文章中,介绍了三种常见的分类算法.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应.但是很多时 ...

  2. 5-Spark高级数据分析-第五章 基于K均值聚类的网络流量异常检测

    据我们所知,有‘已知的已知’,有些事,我们知道我们知道:我们也知道,有 ‘已知的未知’,也就是说,有些事,我们现在知道我们不知道.但是,同样存在‘不知的不知’——有些事,我们不知道我们不知道. 上一章 ...

  3. 机器学习实战5:k-means聚类:二分k均值聚类+地理位置聚簇实例

    k-均值聚类是非监督学习的一种,输入必须指定聚簇中心个数k.k均值是基于相似度的聚类,为没有标签的一簇实例分为一类. 一 经典的k-均值聚类 思路: 1 随机创建k个质心(k必须指定,二维的很容易确定 ...

  4. Python实现kMeans(k均值聚类)

    Python实现kMeans(k均值聚类) 运行环境 Pyhton3 numpy(科学计算包) matplotlib(画图所需,不画图可不必) 计算过程 st=>start: 开始 e=> ...

  5. 机器学习理论与实战(十)K均值聚类和二分K均值聚类

    接下来就要说下无监督机器学习方法,所谓无监督机器学习前面也说过,就是没有标签的情况,对样本数据进行聚类分析.关联性分析等.主要包括K均值聚类(K-means clustering)和关联分析,这两大类 ...

  6. 第十篇:K均值聚类(KMeans)

    前言 本文讲解如何使用R语言进行 KMeans 均值聚类分析,并以一个关于人口出生率死亡率的实例演示具体分析步骤. 聚类分析总体流程 1. 载入并了解数据集:2. 调用聚类函数进行聚类:3. 查看聚类 ...

  7. K均值聚类的失效性分析

    K均值聚类是一种应用广泛的聚类技术,特别是它不依赖于任何对数据所做的假设,比如说,给定一个数据集合及对应的类数目,就可以运用K均值方法,通过最小化均方误差,来进行聚类分析. 因此,K均值实际上是一个最 ...

  8. K均值聚类

    聚类(cluster)与分类的不同之处在于, 分类算法训练过程中样本所属的分类是已知的属监督学习. 而聚类算法不需要带有分类的训练数据,而是根据样本特征的相似性将其分为几类,又称为无监督分类. K均值 ...

  9. ML: 聚类算法-K均值聚类

    基于划分方法聚类算法R包: K-均值聚类(K-means)                   stats::kmeans().fpc::kmeansruns() K-中心点聚类(K-Medoids) ...

随机推荐

  1. 获取 AppStore 中 应用 的 IPA 包文件(Mac OS 13+)

    在 Mac OS 12.7 之前,可以通过 iTunes 直接下载 App Store 中应用的 IPA 包,可以提取其他应用的资源图片,查看信息等操作.之后 苹果 公司禁用了这一功能,不能直接通过 ...

  2. CSS - 精灵Sprite

    1. CSS精灵是一种处理网页背景图像的方式. 2. 它将一个页面涉及到的所有零星背景图像都集中到一张大图中去,然后将大图应用于网页,这样,当用户访问该页面时,只需向服务发送一次请求,网页中的背景图像 ...

  3. oracle的decode、sign、nvl,case...then函数

    ORACLE几种常用的方法 1.decode 常见的用法 : 格式:decode(condition,value1,result[, value2,result2], default_result) ...

  4. 解决idea创建maven项目无java

    在idea上创建maven-archetype-webapp项目后发现无法创建java文件然后参考此博客得以解决 https://www.cnblogs.com/mywangpingan/p/9448 ...

  5. C#多态学习总结

    面向对象编程三大特点  封装 继承 多态.今天我把自己学习多态的过程进行总结 多态 就是 同一个方法在不同情况下,会表选不同的效果(多个形态).在代码上表现就是 同一个父类对象 赋予不同的子类对象 就 ...

  6. Week of Code:GG

    题意是给出一个数n,一个长度为n-1的字符串.求的是1到n符合要求的序列的数量,该序列需要满足当该位置为G时,这个位置的数大于后面位置的数.当该位置为L时,这个位置的数要小于后面位置的数.最后数量模m ...

  7. ProgressBarForm 进度条

    ProgressBarForm public partial class ProgressBarForm : Form { private Panel panel1 = new System.Wind ...

  8. js对数字的处理:取整、四舍五入、数字与字符串的转换

    取整.四舍五入 向下取整Math.floor() 向上取整Math.ceil() 四舍五入Math.round()) 保留有效数位n.toFixed() 产生大于等于0小于1的随机数Math.rand ...

  9. Android Studio的HAXM不支持虚拟机

    因为我的计算机是服务器,不支持虚拟机,所以报这个错了. 解决方式是直接连接物理手机,打开USB调试,安装驱动,运行项目即可.

  10. vue动画钩子

    <template> <div class="hello"> <div class="toggle" @click="f ...