二分K-means聚类（bisecting K-means）

算法优缺点：

由于这个是K-means的改进算法，所以优缺点与之相同。

算法思想：

1.要了解这个首先应该了解K-means算法，可以看这里这个算法的思想是：首先将所有点作为一个簇，然后将该簇一分为二。之后选择能最大程度降低聚类代价函数（也就是误差平方和）的簇划分为两个簇（或者选择最大的簇等，选择方法多种）。以此进行下去，直到簇的数目等于用户给定的数目k为止。
2.以上隐含着一个原则是：因为聚类的误差平方和能够衡量聚类性能，该值越小表示数据点月接近于它们的质心，聚类效果就越好。所以我们就需要对误差平方和最大的簇进行再一次的划分，因为误差平方和越大，表示该簇聚类越不好，越有可能是多个簇被当成一个簇了，所以我们首先需要对这个簇进行划分。
3.关于二分K-means的优点《Machine Learning in Action》说的是能够克服K-means收敛于局部最小，但是想了一下感觉这个并不能保证收敛到全局最优值（而且后面运行代码结果也会出现不太好的情况，不知道这算不算是个证据）
4.通过查阅一些资料和总结，二分K-means聚类的优点有：

二分K均值算法可以加速K-means算法的执行速度，因为它的相似度计算少了
不受初始化问题的影响，因为这里不存在随机点的选取，且每一步都保证了误差最小

所以说这个算法也并不能够保证完全不受K的影响一定归到全局最小，只是相对较优，并且还有了一定的速度提升。理解有偏差欢迎指正。

函数：

biKmeans(dataSet, k, distMeas=distEclud)
这个函数实现了二分算法，过程大体如下（代码中注释已经很详细了）：
1.初始化全部点的质心，并建立所需要的数据存储结构
2.对每一个簇尝试二分（最开始就是一个簇），选出最好的
3.更新各个簇的元素个数

 def biKmeans(dataSet, k, distMeas=distEclud):

     m = shape(dataSet)[0]

     clusterAssment = mat(zeros((m,2)))#记录簇分配的结果及误差

     centroid0 = mean(dataSet, axis=0).tolist()[0]#计算整个数据集的质心

     centList =[centroid0] #create a list with one centroid

     for j in range(m):#计算初始聚类点与其他点的距离

         clusterAssment[j,1] = distMeas(mat(centroid0), dataSet[j,:])**2

     while (len(centList) < k):

         lowestSSE = inf

         for i in range(len(centList)):#尝试划分每一簇

             ptsInCurrCluster = dataSet[nonzero(clusterAssment[:,0].A==i)[0],:]#get the data points currently in cluster i

             centroidMat, splitClustAss = kMeans(ptsInCurrCluster, 2, distMeas)#对这个簇运行一个KMeans算法，k=2

             sseSplit = sum(splitClustAss[:,1])#compare the SSE to the currrent minimum

             sseNotSplit = sum(clusterAssment[nonzero(clusterAssment[:,0].A!=i)[0],1])

             print "sseSplit, and notSplit: ",sseSplit,sseNotSplit

             if (sseSplit + sseNotSplit) < lowestSSE:##划分后更好的话

                 bestCentToSplit = i

                 bestNewCents = centroidMat

                 bestClustAss = splitClustAss.copy()

                 lowestSSE = sseSplit + sseNotSplit

         bestClustAss[nonzero(bestClustAss[:,0].A == 1)[0],0] = len(centList) #更新簇的分配结果change 1 to 3,4, or whatever

         bestClustAss[nonzero(bestClustAss[:,0].A == 0)[0],0] = bestCentToSplit

         print 'the bestCentToSplit is: ',bestCentToSplit

         print 'the len of bestClustAss is: ', len(bestClustAss)

         centList[bestCentToSplit] = bestNewCents[0,:].tolist()[0]#replace a centroid with two best centroids

         centList.append(bestNewCents[1,:].tolist()[0])

         clusterAssment[nonzero(clusterAssment[:,0].A == bestCentToSplit)[0],:]= bestClustAss#reassign new clusters, and SSE

     return mat(centList), clusterAssment

聚类的效果应该还是不错的，比K-means要好

机器学习笔记索引

来自为知笔记(Wiz)

二分K-means算法的更多相关文章

spark Bisecting k-means（二分K均值算法）
Bisecting k-means(二分K均值算法) 二分k均值(bisecting k-means)是一种层次聚类方法,算法的主要思想是:首先将所有点作为一个簇,然后将该簇一分为二.之后选择能最大程 ...
Bisecting KMeans (二分K均值)算法讲解及实现
算法原理由于传统的KMeans算法的聚类结果易受到初始聚类中心点选择的影响,因此在传统的KMeans算法的基础上进行算法改进,对初始中心点选取比较严格,各中心点的距离较远,这就避免了初始聚类中心会选 ...
KNN 与 K - Means 算法比较
KNN K-Means 1.分类算法聚类算法 2.监督学习非监督学习 3.数据类型:喂给它的数据集是带label的数据,已经是完全正确的数据喂给它的数据集是无label的数据,是杂乱无章的,经过 ...
机器学习算法与Python实践之（六）二分k均值聚类
http://blog.csdn.net/zouxy09/article/details/17590137 机器学习算法与Python实践之(六)二分k均值聚类 zouxy09@qq.com http ...
KMeans (K均值)算法讲解及实现
算法原理 KMeans算法是典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大.该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标 ...
聚类分析K均值算法讲解
聚类分析及K均值算法讲解吴裕雄当今信息大爆炸时代,公司企业.教育科学.医疗卫生.社会民生等领域每天都在产生大量的结构多样的数据.产生数据的方式更是多种多样,如各类的:摄像头.传感器.报表.海量网络 ...
K－means算法
K-means算法很简单,它属于无监督学习算法中的聚类算法中的一种方法吧,利用欧式距离进行聚合啦. 解决的问题如图所示哈:有一堆没有标签的训练样本,并且它们可以潜在地分为K类,我们怎么把它们划分呢? ...
机器学习实战5：k-means聚类：二分k均值聚类+地理位置聚簇实例
k-均值聚类是非监督学习的一种,输入必须指定聚簇中心个数k.k均值是基于相似度的聚类,为没有标签的一簇实例分为一类. 一经典的k-均值聚类思路: 1 随机创建k个质心(k必须指定,二维的很容易确定 ...
【HDU 2255】奔小康赚大钱 (最佳二分匹配KM算法)
奔小康赚大钱 Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Subm ...
机器学习理论与实战（十）K均值聚类和二分K均值聚类
接下来就要说下无监督机器学习方法,所谓无监督机器学习前面也说过,就是没有标签的情况,对样本数据进行聚类分析.关联性分析等.主要包括K均值聚类(K-means clustering)和关联分析,这两大类 ...

随机推荐

Javascript随记
一, 理解Javascript的运行环境概念 function say(msg) { alert(this + ' says ' + msg); } var tt = { message: 'Jame ...
linux red hat 给普通用户开启root权限
环境:虚拟机:red hat 6.5:root角色用户:普通用户:宏基笔记本:win7: 操作过程: 1.登录普通用户,进入图形界面(可以设置为启动登录进入命令行界面): 2.按Crl+ALT+F2进 ...
javascript中怎么判断对象{}为空
有时候通过AJAX方法调用返回的是一个JSON对象,而这个对象可能在开发过程中会没有数据是一个空{}. JavaScript判断object/json 是否为空,可以使用jQuery的isEmptyO ...
防DDOS攻击SHELL脚本
最近一段时间服务器频繁遭到DDOS攻击,目前只能通过封IP来源来暂时解决.IP不源变化多端,光靠手工来添加简直是恶梦,想了个方法,用SHELL来做. 比较简单,但很实用:) 以下内容根据作者原文进行适 ...
IntelliJ IDEA 常用设置讲解
说明 IntelliJ IDEA 有很多人性化的设置我们必须单独拿出来讲解,也因为这些人性化的设置让我们这些 IntelliJ IDEA 死忠粉更加死心塌地使用它和分享它. 常用设置 IntelliJ ...
Introduction to Neural Machine Translation - part 1
The Noise Channel Model $p(e)$: the language Model $p(f|e)$: the translation model where, $e$: ...
Tarjan三把刀
搞过OI的对tarjan这个人大概都不陌生.这个人发明了很多神奇的算法,在OI届广被采用. 他最广泛采用的三个算法都是和$dfn$,$low$相关的. 有向图求强连通分量其实说直白点,就是缩点.用得 ...
Java编程中的美好
java程序员如何写出"优美"代码,动力节点告诉你怎么办: 1.注释尽可能全面对于方法的注释应该包含详细的入参和结果说明,有异常抛出的情况也要详细叙述:类的注释应该包含类的功能说 ...
2015.4.21 实现一般免登陆，微博QQ分享，字体自适应等
1.实现一般的登录验证和免登陆: 解决方法:node方法代码,nodeJS实现的session模块,不完整,但能用,仅供参考. 语言无所谓,session的机制都是一样的,实现不一样而已,: 2. ...
HP滤波原理浅学
今天偶然看到如果使用eviews做HP滤波,一时好奇,于是找了点资料看看~ 由于纯属自学,没有找到教材,大家姑且一看咯,也不知道对不对哈.

二分K-means算法