聚类算法：K-means

2013-12-13 20:00:58 Yanjun

K-means算法是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。

对于聚类问题，我们事先并不知道给定的一个训练数据集到底具有哪些类别（即没有指定类标签），而是根据需要设置指定个数类标签的数量（但不知道具体的类标
签是什么），然后通过K-means算法将具有相同特征，或者基于一定规则认为某一些对象相似，与其它一些组明显的不同的数据聚集到一起，自然形成分组。
之后，我们可以根据每一组的数据的特点，给定一个合适的类标签（当然，可能给出类标签对实际应用没有实际意义，例如可能我们就想看一下聚类得到的各个数据
集的相似性）。

首先说明一个概念：质心（Centroid）。质心可以认为就是一个样本点，或者可以认为是数据集中的一个数据点P，它是具有相似性的一组数据的中心，即该组中每个数据点到P的距离都比到其他质心的距离近（与其他质心相似性比较低）。

k个初始类聚类质心（Centroid）的选取对聚类结果具有较大的影响，因为在该算法第一步中是随机的选取任意k个对象作为初始聚类的质心，初始地代表一个聚类结果，当然这个结果一般情况不是合理的，只是随便地将数据集进行了一次随机的划分，具体进行修正这个质心还需要进行多轮的计算，来一步步逼近我们期望的聚类结果：具有相似性的对象聚集到一个组中，它们都具有共同的一个质心。

另外，因为初始质心选择的随机性，可能未必使最终的结果达到我们的期望，所以我们可以多次迭代，每次迭代都重新随机得到初始质心，直到最终的聚类结果能够满足我们的期望为止。

下面，我们描述一下K-means算法的过程：

首先输入k的值，即我们希望将数据集D = {P1, P2, …, Pn}经过聚类得到k个分类（分组）。
从数据集D中随机选择k个数据点作为质心，质心集合定义为：Centroid = {Cp1, Cp2, …, Cpk}，排除质心以后数据集O={O1, O2, …, Om}。
对集合O中每一个数据点Oi，计算Oi与Cpj(j=1, 2, …,k)的距离，得到一组距离Si={si1, si2, …, sik}，计算Si中距离最小值，则该该数据点Oi就属于该最小距离值对应的质心。
每个数据点Oi都已经属于其中一个质心，然后根据每个质心所包含的数据点的集合，重新计算得到一个新的质心。
如果新计算的质心和原来的质心之间的距离达到某一个设置的阈值（表示重新计算的质心的位置变化不大，趋于稳定，或者说收敛），可以认为我们进行的聚类已经达到期望的结果，算法终止。
如果新质心和原来之心距离变化很大，需要迭代2~5步骤。

下面，根据参考链接，我们给出一个表达K-means聚类过程的图，描述了k=2时聚类的过程，更加直观一些，如图所示：

上图表示的聚类过程，简述如下：

给定一个数据集，包含多个数据点；
随机选择两个质心；
计算数据集中数据点分别属于哪一个质心所在的组中，将数据集中所有数据点聚成2个组；
根据上一步计算得到的2组数据点，分别重新计算出一个新的质心；
重复步骤3，再进行一次聚类过程，得到2组数据点；
再次计算新的质心，该次计算得到的质心与上一次计算得到的质心的距离变化很小（满足指定阈值，或收敛），则结果符合期望，停止聚类过程。

K-means算法的优点

算法框架清晰，简单，容易理解。
本算法确定的k个划分到达平方误差最小。当聚类是密集的，且类与类之间区别明显时，效果较好。
对于处理大数据集，这个算法是相对可伸缩和高效的，计算的复杂度为O(NKt)，其中N是数据对象的数目，t是迭代的次数。一般来说，K<<N，t<<N 。

K-means算法的缺点

K-means算法中k是事先给定的，这个k值的选定是非常难以估计的。很多时候，事先并不知道给定的数据集应该分成多少个类别才最合适。这也是K-means算法的一个不足。有的算法是通过类的自动合并和分裂，得到较为合理的类型数目k，例如ISODATA算法。关于K-means算法中聚类数目k值的确定，有些文献中，是根据方差分析理论，应用混合F统计量来确定最佳分类数，并应用了模糊划分熵来验证最佳分类数的正确性，它使用了一种结合全协方差矩阵的RPCL算法，并逐步删除那些只包含少量训练数据的类，这是一种称为次胜者受罚的竞争学习规则，来自动决定类的适当数目。它的思想是：对每个输入而言，不仅竞争获胜单元的权值被修正以适应输入值，而且对次胜单元采用惩罚的方法使之远离输入值。
在K-means算法中，首先需要根据初始聚类中心来确定一个初始划分，然后对初始划分进行优化。这个初始聚类中心的选择对聚类结果有较大的影响，一旦初始值选择的不好，可能无法得到有效的聚类结果，这也成为K-means算法的一个主要问题。对于该问题的解决，许多算法采用遗传算法（GA），以内部聚类准则作为评价指标。
从K-means算法框架可以看出，该算法需要不断地进行样本分类调整，不断地计算调整后的新的聚类中心，因此当数据量非常大时，算法的时间开销
是非常大的。所以需要对算法的时间复杂度进行分析、改进，提高算法应用范围，例如，可以从该算法的时间复杂度进行分析考虑，通过一定的相似性准则来去掉聚
类中心的侯选集。在有些文献中，使用的K-means算法是对样本数据进行聚类，无论是初始点的选择还是一次迭代完成时对数据的调整，都是建立在随机选取
的样本数据的基础之上，这样可以提高算法的收敛速度。
K-means算法对异常数据很敏感。在计算质心的过程中，如果某个数据很异常，在计算均值的时候，会对结果影响非常大

。

参考链接

本文基于署名-非商业性使用-相同方式共享 4.0许可协议发布，欢迎转载、使用、重新发布，但务必保留文章署名时延军（包含链接：http://shiyanjun.cn），不得用于商业目的，基于本文修改后的作品务必以相同的许可发布。如有任何疑问，请与我联系。

聚类算法：K-means的更多相关文章

ML: 聚类算法-K均值聚类
基于划分方法聚类算法R包: K-均值聚类(K-means) stats::kmeans().fpc::kmeansruns() K-中心点聚类(K-Medoids) ...
聚类算法:K均值、凝聚层次聚类和DBSCAN
聚类分析就仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组(簇).其目标是,组内的对象相互之间是相似的,而不同组中的对象是不同的.组内相似性越大,组间差别越大,聚类就越好. 先介绍下聚类的不 ...
常见聚类算法——K均值、凝聚层次聚类和DBSCAN比较
聚类分析就仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组(簇).其目标是,组内的对象相互之间是相似的,而不同组中的对象是不同的.组内相似性越大,组间差别越大,聚类就越好. 先介绍下聚类的不 ...
软件——机器学习与Python，聚类，K——means
K-means是一种聚类算法: 这里运用k-means进行31个城市的分类城市的数据保存在city.txt文件中,内容如下: BJ,2959.19,730.79,749.41,513.34,467. ...
【机器学习】聚类算法——K均值算法（k-means）
一.聚类 1.基于划分的聚类:k-means.k-medoids(每个类别找一个样本来代表).Clarans 2.基于层次的聚类:(1)自底向上的凝聚方法,比如Agnes (2)自上而下的分裂方法,比 ...
数据挖掘十大算法--K-均值聚类算法
一.相异度计算在正式讨论聚类前,我们要先弄清楚一个问题:怎样定量计算两个可比較元素间的相异度.用通俗的话说.相异度就是两个东西区别有多大.比如人类与章鱼的相异度明显大于人类与黑猩猩的相异度,这是能 ...
第十三篇：K-Means 聚类算法原理分析与代码实现
前言在前面的文章中,涉及到的机器学习算法均为监督学习算法. 所谓监督学习,就是有训练过程的学习.再确切点,就是有 "分类标签集" 的学习. 现在开始,将进入到非监督学习领域.从经 ...
机器学习六--K-means聚类算法
机器学习六--K-means聚类算法想想常见的分类算法有决策树.Logistic回归.SVM.贝叶斯等.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别 ...
k-means均值聚类算法（转）
4.1.摘要在前面的文章中,介绍了三种常见的分类算法.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应.但是很多时候上述条件得不到满足,尤其是在 ...
K-means聚类算法（转）
K-means聚类算法想想常见的分类算法有决策树.Logistic回归.SVM.贝叶斯等.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应.但是 ...

随机推荐

Python开发【第一篇】：初识Python
初识python 一.python简介 python的创始人为吉多·范罗苏姆(Guido van Rossum).1989年的圣诞节期间,吉多·范罗苏姆为了在阿姆斯特丹打发时间,决心开发一个新的脚本解 ...
JavaScript中Array类型方法总结
Array类型是ECMAScript中最常用的类型之一,ECMAScript中的数组与其他多数语言中的数组有着相当大的区别.ECMAScript数组的每一项可以保存任何类型的数据.这里总结了数组类型的 ...
elk查询语法
查询指定IP段,如123.123.123.* geo.ip=123.123.123.*
如何正确响应ArcGIS JavaScript API中图形的鼠标事件
在使用ArcGIS JavaScript API编写程序的时候,程序员往往需要完成这样一个功能:点击地图上的图形,自动进行专题GIS数据查询,当在地图非图形区域上点击时,自动进行底图兴趣点查询. 由于 ...
Android—基于Socket与上传图片到客户端
最近项目中需要客户端和Socket互相传递数据时候需要相互传递图片所以做下总结以免以后忘记,也希望给大家带来帮助. 先上客户端的代码: 根据图片名称上传照相机中单个照片(此方法为自己封装) 参数所代表 ...
IOS开发基础知识--碎片2
六:获得另一个控件器,并实现跳转 UIStoryboard* mainStoryboard = [UIStoryboard storyboardWithName:@"MainStoryboa ...
敏捷开发与jira之研发管理模式
以IPD方法论为基础,采用原型+迭代的开发模式,并以质量优先为原则,持续对用户做价值交付. 使用JIRA+WIKI+SVN管理整个的研发过程:JIRA管理任务和进度:SVN管理代码和过程文档:WIKI ...
Maven基础配置—本地Maven配置
1.下载客户端通过http://maven.apache.org/download.cgi#下载Maven本地客户端. 我下载的是apache-maven-3.2.5-bin.zip,在D盘解压. ...
Flume组件source，channel，sink源码分析
LifeCycleState: IDLE, START, STOP, ERROR [Source]: org.apache.flume.Source 继承LifeCycleAware{stop() + ...
weblogic忘记登陆密码
以下内容来自网络: weblogic安装后,很久不用,忘记访问控制台的用户名或者密码,可通过以下步骤来重置用户名密码. 版本:WebLogic Server 11g 说明:%DOMAIN_HOME%: ...

聚类算法：K-means

聚类算法：K-means的更多相关文章

随机推荐

热门专题