K-均值聚类算法(K-means)
程序1,随机生成K个样本中心:
#计算两组数据间的欧氏距离
def distEclud(vecA, vecB):
return sqrt(sum(power(vecA - vecB, 2))) #构造质心
def randCent(dataSet, k):
n = shape(dataSet)[1]#求出数据的列数
centroids = mat(zeros((k, n)))#生成k组n列的矩阵,值全为0
for j in range(n):#对每一列的数字随机生成
minJ = min(dataSet[:, j])#读取某列中的最小值
rangeJ = float(max(dataSet[:, j]) - minJ)#某列数据范围
centroids[:, j] = minJ + rangeJ * random.rand(k, 1)#随机矩阵该列的值为最小值+数据范围乘以一个0到1的随机数,rand(k, 1)生成k行1列的随机矩阵
return centroids
程序2,计算kMeans
#计算kMeans,返回K个中心点以及各组数据离中心点的距离
def kMeans(dataSet, k, distMeas=distEclud, createCent=randCent):
m = shape(dataSet)[0]#获取待分组样本总数
clusterAssment = mat(zeros((m,2)))#用于保存各组样本属于哪个簇,同时保存与簇中心的距离
centroids = createCent(dataSet, k)#随机创建k个质心
clusterChanged = True#质心变化标志,初始化为true,在循环中,任何一个质心发生变化,该值就为true
while clusterChanged:
clusterChanged = False
for i in range(m):#对m组样本进行循环
minDist = inf#取正无穷
minIndex = -1#取下标为-1
for j in range(k):#对每个质心进行循环
distJI = distMeas(centroids[j,:],dataSet[i,:])#计算第i组样本离质心j的距离
if distJI < minDist:#若距离比上一步计算的最小距离还小
minDist = distJI#更新该值
minIndex = j#则样本i离质心j最近
if clusterAssment[i,0] != minIndex:#若保存的质心与新计算的质心不一致
clusterChanged = True
clusterAssment[i,:] = minIndex,minDist**2#计算的质心,与质心距离平方
print centroids
for cent in range(k):#对k个中心进行循环
ptsInClust = dataSet[nonzero(clusterAssment[:,0].A==cent)[0]]#将属于第cent个中心的所以样本从dataSet中取出
centroids[cent,:] = mean(ptsInClust, axis=0) #根据簇cent中的所有样本,计算新的质心
return centroids, clusterAssment#返回最终稳定的质心,以及各样本所属质心和距离
程序2的改进
二分K-Means算法
程序3,二分K-Means算法
#二分K-Means算法
def biKmeans(dataSet, k, distMeas=distEclud):
m = shape(dataSet)[0]#获取待分组数据集的数目
clusterAssment = mat(zeros((m,2)))#用于保存各组样本属于哪个簇,同时保存与簇中心的距离
centroid0 = mean(dataSet, axis=0).tolist()[0]#取所有样本各个指标的平均值做为第一个簇的质心
centList =[centroid0] #用于存储所有的质心
for j in range(m):#计算所有样本与初始质心距离的平方
clusterAssment[j,1] = distMeas(mat(centroid0), dataSet[j,:])**2
while (len(centList) < k):#当前质心数小于设定质心数K,则继续二分
lowestSSE = inf#初始SSE为正无穷
for i in range(len(centList)):#循环遍历每一个已有质心
ptsInCurrCluster = dataSet[nonzero(clusterAssment[:,0].A==i)[0],:]#获取i簇中的所有数据
centroidMat, splitClustAss = kMeans(ptsInCurrCluster, 2, distMeas)#将该簇进行二分
sseSplit = sum(splitClustAss[:,1])#计算二分后的SSE
sseNotSplit = sum(clusterAssment[nonzero(clusterAssment[:,0].A!=i)[0],1])#不在该簇中其他点的SSE
print "sseSplit, and notSplit: ",sseSplit,sseNotSplit
if (sseSplit + sseNotSplit) < lowestSSE:#两者相加,若比最低SSE还要低
bestCentToSplit = i#就在第i个质心上
bestNewCents = centroidMat#i簇上的二分质心
bestClustAss = splitClustAss.copy()#返回K个中心点以及各组数据离中心点的距离
lowestSSE = sseSplit + sseNotSplit#最低SSE更新为当前最低值
#每次二分会新增一个质心,,bestClustAss每次都是分成0和1两种情况,
#比如之前有两个质心0和1,发现其中1簇可以继续二分,那么现在就有三个质心,将新的1设置为2,将新的0设置为1,
#那么现在的三个质心分别为0,1,2,原来的0保持不变
bestClustAss[nonzero(bestClustAss[:,0].A == 1)[0],0] = len(centList) #将其中是1的更新为最新增加的簇
bestClustAss[nonzero(bestClustAss[:,0].A == 0)[0],0] = bestCentToSplit#将其中为0的继续保存在之前那个质心编号内
print 'the bestCentToSplit is: ',bestCentToSplit
print 'the len of bestClustAss is: ', len(bestClustAss)
centList[bestCentToSplit] = bestNewCents[0,:].tolist()[0]#将最佳二分的i簇原来的质心替换成新生成的第一个质心
centList.append(bestNewCents[1,:].tolist()[0])#将新生成的第二个质心也追加到最佳质心列表中
clusterAssment[nonzero(clusterAssment[:,0].A == bestCentToSplit)[0],:]= bestClustAss#最佳二分的i簇新的相关信息
return mat(centList), clusterAssment
K-均值聚类算法(K-means)的更多相关文章
- k均值聚类算法原理和(TensorFlow)实现
顾名思义,k均值聚类是一种对数据进行聚类的技术,即将数据分割成指定数量的几个类,揭示数据的内在性质及规律. 我们知道,在机器学习中,有三种不同的学习模式:监督学习.无监督学习和强化学习: 监督学习,也 ...
- K均值聚类算法
k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个 ...
- 机器学习实战---K均值聚类算法
一:一般K均值聚类算法实现 (一)导入数据 import numpy as np import matplotlib.pyplot as plt def loadDataSet(filename): ...
- 基于改进人工蜂群算法的K均值聚类算法(附MATLAB版源代码)
其实一直以来也没有准备在园子里发这样的文章,相对来说,算法改进放在园子里还是会稍稍显得格格不入.但是最近邮箱收到的几封邮件让我觉得有必要通过我的博客把过去做过的东西分享出去更给更多需要的人.从论文刊登 ...
- K均值聚类算法的MATLAB实现
1.K-均值聚类法的概述 之前在参加数学建模的过程中用到过这种聚类方法,但是当时只是简单知道了在matlab中如何调用工具箱进行聚类,并不是特别清楚它的原理.最近因为在学模式识别,又重新接触了这 ...
- 100天搞定机器学习|day44 k均值聚类数学推导与python实现
[如何正确使用「K均值聚类」? 1.k均值聚类模型 给定样本,每个样本都是m为特征向量,模型目标是将n个样本分到k个不停的类或簇中,每个样本到其所属类的中心的距离最小,每个样本只能属于一个类.用C表示 ...
- 聚类之K均值聚类和EM算法
这篇博客整理K均值聚类的内容,包括: 1.K均值聚类的原理: 2.初始类中心的选择和类别数K的确定: 3.K均值聚类和EM算法.高斯混合模型的关系. 一.K均值聚类的原理 K均值聚类(K-means) ...
- 机器学习实战5:k-means聚类:二分k均值聚类+地理位置聚簇实例
k-均值聚类是非监督学习的一种,输入必须指定聚簇中心个数k.k均值是基于相似度的聚类,为没有标签的一簇实例分为一类. 一 经典的k-均值聚类 思路: 1 随机创建k个质心(k必须指定,二维的很容易确定 ...
- 机器学习理论与实战(十)K均值聚类和二分K均值聚类
接下来就要说下无监督机器学习方法,所谓无监督机器学习前面也说过,就是没有标签的情况,对样本数据进行聚类分析.关联性分析等.主要包括K均值聚类(K-means clustering)和关联分析,这两大类 ...
- 机器学习之K均值聚类
聚类的核心概念是相似度或距离,有很多相似度或距离的方法,比如欧式距离.马氏距离.相关系数.余弦定理.层次聚类和K均值聚类等 1. K均值聚类思想 K均值聚类的基本思想是,通过迭代的方法寻找K个 ...
随机推荐
- mac下怎么删除隐藏文件比如 .Trashes文件
U盘和移动硬盘接入Mac时会产生.Trashes,.Spotlight-V100,.fseventsd等文件 每插入Mac一次,都会检查是否有这些文件,如果没有,就会创建这些文件 特别是有时候,在文件 ...
- sqlserver批量更新数据
update t_hr_teadept set rjkm=b.yjkmfrom t_hr_teadept a inner join t_tr_bzxx_km b on a.bzh=b.bzh wher ...
- struct2 拿到url的方法
在Action中: HttpServletRequest request = ServletActionContext.getRequest(); String url =request.getReq ...
- 关于一些基础的Java问题的解答(三)
11. HashMap和ConcurrentHashMap的区别 从JDK1.2起,就有了HashMap,正如上一个问题所提到的,HashMap与HashTable不同,不是线程安全的,因此多线程 ...
- C# 虹软SDK视频人脸识别和注册
一,准备工作 1.Afoge视频参数类 using AForge.Video.DirectShow; using System; using System.Collections.Generic; u ...
- 深入理解null的原理
--null的原理 --oracle一直将null和空字符串''<长度为0>同等对待<如'' is null是true,''=null为false,如果声明a varchar2:=' ...
- ABP文档笔记 - 配置、设置、版本、功能、权限
配置 全局仅一个单例,保存一组配置信息,一般直接在模块的预启动事件中赋值or修改.没有Scope划分,无论租户还是房东亦或者用户读取的值都不会有差异.每个模块都可以扩展这个配置. 设置 它没有层级关系 ...
- south 命令学习
south 命令学习 概述 在django某个版本之前,django自身提供一个创建数据库的命令-syncdb,它会根据model来创建相应的表,但是这个命令不好的地方在于,如果想要对model进行更 ...
- 安卓高级6 玩转AppBarLayout,更酷炫的顶部栏 Toolbar
原文大神地址:http://www.jianshu.com/p/d159f0176576 上一篇文章[<CoordinateLayout的使用如此简单 >]上一篇文章<Coordin ...
- Xcode 调试技巧 --常用命令和断点
Xcode 中的调试技巧与我们的日常开发息息相关,而这些调试技巧在我们解决Bug时,常常有事半功倍的作用,经常会用到的有各种断点 和 命令.而这些调试技巧也经常会在面试中问到,所以不知道的就来看看吧. ...