第十篇：K均值聚类(KMeans)

穆晨 2024-10-25 22:41:44 原文

前言

本文讲解如何使用R语言进行 KMeans 均值聚类分析，并以一个关于人口出生率死亡率的实例演示具体分析步骤。

聚类分析总体流程

1. 载入并了解数据集；
2. 调用聚类函数进行聚类；
3. 查看聚类结果描述；
4. 将聚类结果图形化展示；
5. 选择最优center并最终确定聚类方案；
6. 图形化展示不同方案效果并提交分析报表。

人口出生/死亡率聚类分析 - K均值聚类

1. 载入并了解数据集

1.1 从网上下载一份txt格式的关于人口出生率统计的数据(countries.txt)。其内容大致如下：

1.2 载入数据集countries.txt：

1.3 查看相关文件信息，如维度，文件具体内容：

1.4 给数据集行列改名，并查看改名后的结果：

1.5 画出所有样本点：

2. 调用聚类函数进行聚类

kmeans 函数的原型为：kmeans (x, centers, iter.max=10, nstart=1, alogorithm=c("Hartigan-Wong", "Lloyd", "For-gy", "MacQueen"))。

这里解释下函数 kmeans 中的几个形参：

- x：进行聚类分析的数据集；
- centers：簇个数；
- iter.max：最大迭代次数；
- nstart：选择随机中心点的次数 (选择结果最优的那次随机质心)；
- alogorithm：具体实现算法。默认为Hartigan-Wong。

3. 查看聚类结果

结果内容从上至下分别为：

- 每个簇的样本数；
- 每个簇的质心；
- 每个样本的聚类结果；
- 本次聚类的相关统计信息：包含组内平方和，总平方和，组间平方和，以及组间平方和/总平方和。显然它越大越好；
- 最下面的那部分是指聚类结果数据集fit_km1中的各个变量(也即上面的那些信息，如fit_km1$size就等于3)。

4. 将聚类结果图形化展示

5. 选择最优center并最终确定聚类方案

很显然，当k超过了8之后，聚类的结果波动就不大了。

可做图形象化的展示此现象：

6. 用 k=8 进行聚类，然后看看和中国属于一类的国家有哪些。

小结

除了 k 的大小，还可以通过调整迭代次数、选择中心点次数、重新实现算法等方式实现最优聚类。

另外，本文所讲的只是最为经典的KMeans聚类，更多更好玩的聚类算法，请查阅相关论文或相关R语言包的说明文档。

第十篇：K均值聚类(KMeans)的更多相关文章

【转】算法杂货铺——k均值聚类(K-means)
k均值聚类(K-means) 4.1.摘要在前面的文章中,介绍了三种常见的分类算法.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应.但是很多时 ...
（ZT）算法杂货铺——k均值聚类(K-means)
https://www.cnblogs.com/leoo2sk/category/273456.html 4.1.摘要在前面的文章中,介绍了三种常见的分类算法.分类作为一种监督学习方法,要求必须事先 ...
机器学习理论与实战（十）K均值聚类和二分K均值聚类
接下来就要说下无监督机器学习方法,所谓无监督机器学习前面也说过,就是没有标签的情况,对样本数据进行聚类分析.关联性分析等.主要包括K均值聚类(K-means clustering)和关联分析,这两大类 ...
机器学习之路：python k均值聚类 KMeans 手写数字
python3 学习使用api 使用了网上的数据集,我把他下载到了本地可以到我的git中下载数据集: https://github.com/linyi0604/MachineLearning 代码: ...
吴裕雄 python 机器学习——K均值聚类KMeans模型
import numpy as np import matplotlib.pyplot as plt from sklearn import cluster from sklearn.metrics ...
K均值聚类
聚类(cluster)与分类的不同之处在于, 分类算法训练过程中样本所属的分类是已知的属监督学习. 而聚类算法不需要带有分类的训练数据,而是根据样本特征的相似性将其分为几类,又称为无监督分类. K均值 ...
机器学习实战5：k-means聚类：二分k均值聚类+地理位置聚簇实例
k-均值聚类是非监督学习的一种,输入必须指定聚簇中心个数k.k均值是基于相似度的聚类,为没有标签的一簇实例分为一类. 一经典的k-均值聚类思路: 1 随机创建k个质心(k必须指定,二维的很容易确定 ...
Python实现kMeans(k均值聚类)
Python实现kMeans(k均值聚类) 运行环境 Pyhton3 numpy(科学计算包) matplotlib(画图所需,不画图可不必) 计算过程 st=>start: 开始 e=> ...
聚类之K均值聚类和EM算法
这篇博客整理K均值聚类的内容,包括: 1.K均值聚类的原理: 2.初始类中心的选择和类别数K的确定: 3.K均值聚类和EM算法.高斯混合模型的关系. 一.K均值聚类的原理 K均值聚类(K-means) ...

随机推荐

vue调试工具之 vue-devtools的安装
这里介绍一下vue-devtools的安装方法之一: chrome浏览器的应用商店不能直接访问(需要跨域),所以直接应用商店安装的方法就行不通了. 1.到github主页去下载安装: git clon ...
Windows使用问题总结
1 电脑休眠恢复之后无法识别Wifi无线网络首先,重启电脑:其次,打开网络和共享中心,点击更改适配器设置:最后,在对应的无线网络连接图标上点击鼠标右键,属性,配置,电源选项,允许计算机关闭此设备以节 ...
Swift百万线程攻破单例（Singleton)模式
一.不安全的单例实现在上一篇文章我们给出了单例的设计模式,直接给出了线程安全的实现方法.单例的实现有多种方法,如下面: class SwiftSingleton { class var shared ...
MTU介绍以及在windows和linux下怎么设置MTU值
最大传输单元MTU(Maximum Transmission Unit,MTU)是指一种通信协议的某一层上面所能通过的最大数据包大小(以字节为单位).最大传输单元这个参数通常与通信接口有关(网络接口卡 ...
项目中AppDelegate详解
1.AppDelegate.h //模板默认引入程序需要使用“类”的框架,即UIKit.h头文件,使它包含在程序中 #import <UIKit/UIKit.h> //此处@class声明 ...
Flask從入門到入土(五)——Flask与数据库
import sqlite3 def init_db(): sql = 'create table user(id INT,name TEXT)' conn = sqlite3.connect(&qu ...
Android 文字过长TextView如何自动截断并显示成省略号
当用TextView来显示标题的时候,如果标题内容过长的话,我们不希望其换行显示,这时候我们需要其自动截断,超过的部分显示成省略号. 如下图所示,标题过长,自动换行了,显示不是很好看. 这时候我们需要 ...
我博客上的围棋js程序
作为一个围棋爱好者,就决定在博客里加个围棋js程序.于是,申请了博客的js权限,美化美化我的博客. 好在js的语法像C系的,看了看,写个程序应该还是可以的. 围棋里,设计好基本的数据结构: //a是1 ...
CentOS下iptables持久化
iptables规则持久化设定防火墙规则 iptables -A INPUT -s 1.1.1.1/32 -p tcp -m tcp --dport 22 -j DROP iptables -A I ...
Linux CentOS安装配置MySQL数据库
没什么好说的,直接正面刚吧. 安装mysql数据库 a)下载mysql源安装包:wget http://dev.mysql.com/get/mysql57-community-release-el7- ...