K-均值聚类算法

聚类是一种无监督的学习算法，它将相似的数据归纳到同一簇中。K-均值是因为它可以按照k个不同的簇来分类，并且不同的簇中心采用簇中所含的均值计算而成。

K-均值算法

算法思想

K-均值是把数据集按照k个簇分类，其中k是用户给定的，其中每个簇是通过质心来计算簇的中心点。

主要步骤：

随机确定k个初始点作为质心
对数据集中的每个数据点找到距离最近的簇
对于每一个簇，计算簇中所有点的均值并将均值作为质心
重复步骤2，直到任意一个点的簇分配结果不变

具体实现

from numpy import *

import matplotlib

import matplotlib.pyplot as plt

def loadDataSet(fileName):      #general function to parse tab -delimited floats

    dataMat = []                #assume last column is target value

    fr = open(fileName)

    for line in fr.readlines():

        curLine = line.strip().split('\t')

        fltLine = map(float,curLine) #map all elements to float()

        dataMat.append(fltLine)

    return dataMat

def distEclud(vecA, vecB):

    return sqrt(sum(power(vecA - vecB, 2))) #la.norm(vecA-vecB)

def randCent(dataSet, k):

    n = shape(dataSet)[1]

    centroids = mat(zeros((k,n)))#create centroid mat

    for j in range(n):#create random cluster centers, within bounds of each dimension

        minJ = min(dataSet[:,j])

        rangeJ = float(max(dataSet[:,j]) - minJ)

        centroids[:,j] = mat(minJ + rangeJ * random.rand(k,1))

    return centroids

def kMeans(dataSet, k, distMeas=distEclud, createCent=randCent):

    m = shape(dataSet)[0]

    clusterAssment = mat(zeros((m,2)))#create mat to assign data points

                                      #to a centroid, also holds SE of each point

    centroids = createCent(dataSet, k)

    clusterChanged = True

    while clusterChanged:

        clusterChanged = False

        for i in range(m):#for each data point assign it to the closest centroid

            minDist = inf; minIndex = -1

            for j in range(k):

                distJI = distMeas(centroids[j,:],dataSet[i,:])

                if distJI < minDist:

                    minDist = distJI; minIndex = j

            if clusterAssment[i,0] != minIndex: clusterChanged = True

            clusterAssment[i,:] = minIndex,minDist**2

        for cent in range(k):#recalculate centroids

            ptsInClust = dataSet[nonzero(clusterAssment[:,0].A==cent)[0]]#get all the point in this cluster

            centroids[cent,:] = mean(ptsInClust, axis=0) #assign centroid to mean

            print ptsInClust

            print mean(ptsInClust, axis=0)

            return

    return centroids, clusterAssment

def clusterClubs(numClust=5):

    datList = []

    for line in open('places.txt').readlines():

        lineArr = line.split('\t')

        datList.append([float(lineArr[4]), float(lineArr[3])])

    datMat = mat(datList)

    myCentroids, clustAssing = biKmeans(datMat, numClust, distMeas=distSLC)

    fig = plt.figure()

    rect=[0.1,0.1,0.8,0.8]

    scatterMarkers=['s', 'o', '^', '8', 'p', \

                    'd', 'v', 'h', '>', '<']

    axprops = dict(xticks=[], yticks=[])

    ax0=fig.add_axes(rect, label='ax0', **axprops)

    imgP = plt.imread('Portland.png')

    ax0.imshow(imgP)

    ax1=fig.add_axes(rect, label='ax1', frameon=False)

    for i in range(numClust):

        ptsInCurrCluster = datMat[nonzero(clustAssing[:,0].A==i)[0],:]

        markerStyle = scatterMarkers[i % len(scatterMarkers)]

        ax1.scatter(ptsInCurrCluster[:,0].flatten().A[0], ptsInCurrCluster[:,1].flatten().A[0], marker=markerStyle, s=90)

    ax1.scatter(myCentroids[:,0].flatten().A[0], myCentroids[:,1].flatten().A[0], marker='+', s=300)

    plt.show()

结果

算法收敛

设目标函数为

$$J(c, \mu) = \sum _{i=1}^m (x_i - \mu_{c_{(i)}})^2$$

Kmeans算法是将J调整到最小，每次调整质心，J值也会减小，同时c和$\mu$也会收敛。由于该函数是一个非凸函数，所以不能保证得到全局最优，智能确保局部最优解。

二分K均值算法

为了克服K均值算法收敛于局部最小值的问题，提出了二分K均值算法。

算法思想

该算法首先将所有点作为一个簇，然后将该簇一分为2，之后选择其中一个簇继续进行划分，划分规则是按照最大化SSE（目标函数）的值。

主要步骤：

将所有点看成一个簇
计算每一个簇的总误差
在给定的簇上进行K均值聚类，计算将簇一分为二的总误差
选择使得误差最小的那个簇进行再次划分
重复步骤2，直到簇的个数满足要求

具体实现

def biKMeans(dataSet, k, distMeans=distEclud):

    m, n = shape(dataSet)

    clusterAssment = mat(zeros((m, 2))) # init all data for index 0

    centroid = mean(dataSet, axis=0).tolist()

    centList = [centroid]

    for i in range(m):

        clusterAssment[i, 1] = distMeans(mat(centroid), dataSet[i, :]) ** 2

    while len(centList) < k:

        lowestSSE = inf

        for i in range(len(centList)):

            cluster = dataSet[nonzero(clusterAssment[:, 0].A == i)[0], :] # get the clust data of i

            centroidMat, splitCluster = kMeans(cluster, 2, distMeans)

            sseSplit = sum(splitCluster[:, 1]) #all sse

            sseNotSplit = sum(clusterAssment[nonzero(clusterAssment[:, 0].A != i)[0], 1]) # error sse

            #print sseSplit, sseNotSplit

            if sseSplit + sseNotSplit < lowestSSE:

                bestCentToSplit = i

                bestNewCent = centroidMat

                bestClust = splitCluster.copy()

                lowerSEE = sseSplit + sseNotSplit

        print bestClust

        bestClust[nonzero(bestClust[:, 0].A == 1)[0], 0] = len(centList)

        bestClust[nonzero(bestClust[:, 0].A == 0)[0], 0] = bestCentToSplit

        print bestClust

        print 'the bestCentToSplit is: ',bestCentToSplit

        print 'the len of bestClustAss is: ', len(bestClust)

        centList[bestCentToSplit] = bestNewCent[0, :].tolist()[0]

        centList.append(bestNewCent[1, :].tolist()[0])

        print clusterAssment

        clusterAssment[nonzero(clusterAssment[:, 0].A == bestCentToSplit)[0], :] = bestClust

        print clusterAssment

    return mat(centList), clusterAssment

结果

K-均值聚类算法的更多相关文章

k均值聚类算法原理和（TensorFlow）实现
顾名思义,k均值聚类是一种对数据进行聚类的技术,即将数据分割成指定数量的几个类,揭示数据的内在性质及规律. 我们知道,在机器学习中,有三种不同的学习模式:监督学习.无监督学习和强化学习: 监督学习,也 ...
K均值聚类算法
k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个 ...
机器学习实战---K均值聚类算法
一:一般K均值聚类算法实现 (一)导入数据 import numpy as np import matplotlib.pyplot as plt def loadDataSet(filename): ...
基于改进人工蜂群算法的K均值聚类算法（附MATLAB版源代码）
其实一直以来也没有准备在园子里发这样的文章,相对来说,算法改进放在园子里还是会稍稍显得格格不入.但是最近邮箱收到的几封邮件让我觉得有必要通过我的博客把过去做过的东西分享出去更给更多需要的人.从论文刊登 ...
K均值聚类算法的MATLAB实现
1.K-均值聚类法的概述之前在参加数学建模的过程中用到过这种聚类方法,但是当时只是简单知道了在matlab中如何调用工具箱进行聚类,并不是特别清楚它的原理.最近因为在学模式识别,又重新接触了这 ...
聚类之K均值聚类和EM算法
这篇博客整理K均值聚类的内容,包括: 1.K均值聚类的原理: 2.初始类中心的选择和类别数K的确定: 3.K均值聚类和EM算法.高斯混合模型的关系. 一.K均值聚类的原理 K均值聚类(K-means) ...
机器学习实战5：k-means聚类：二分k均值聚类+地理位置聚簇实例
k-均值聚类是非监督学习的一种,输入必须指定聚簇中心个数k.k均值是基于相似度的聚类,为没有标签的一簇实例分为一类. 一经典的k-均值聚类思路: 1 随机创建k个质心(k必须指定,二维的很容易确定 ...
机器学习理论与实战（十）K均值聚类和二分K均值聚类
接下来就要说下无监督机器学习方法,所谓无监督机器学习前面也说过,就是没有标签的情况,对样本数据进行聚类分析.关联性分析等.主要包括K均值聚类(K-means clustering)和关联分析,这两大类 ...
机器学习之K均值聚类
聚类的核心概念是相似度或距离,有很多相似度或距离的方法,比如欧式距离.马氏距离.相关系数.余弦定理.层次聚类和K均值聚类等 1. K均值聚类思想 K均值聚类的基本思想是,通过迭代的方法寻找K个 ...
100天搞定机器学习|day44 k均值聚类数学推导与python实现
[如何正确使用「K均值聚类」? 1.k均值聚类模型给定样本,每个样本都是m为特征向量,模型目标是将n个样本分到k个不停的类或簇中,每个样本到其所属类的中心的距离最小,每个样本只能属于一个类.用C表示 ...

随机推荐

用 IIS 实现请求转发
最近部门要开发一个简单的APP,部分数据是现有项目已经存在的,为了方便维护,希望只提供一个交互的入口,并且协议的规则不变. 基于这个需求,有两套解决方案: 1.用代码将现有的api封装一层,对请求数据 ...
Java 之常用类（二）
1.StringBuffer a.StringBuffer 与 String:①StringBuffer是一个全新的类型,与String没有继承关系 ②StringBuffer的出现是为了解决Stri ...
Linux学习笔记（11）-kill函数
明天开始学习kill函数的用法. ---------------------------------------------- kill函数可以用来向指定的进程发送一个指定的信号,在我的理解的来看,就 ...
为Python安装pymssql模块来连接SQLServer
1.安装依赖包 yum install -y gcc python-devel 2.安装freetds 下载地址:http://pan.baidu.com/s/1pLKtFBl tar zxvf fr ...
在安装AndroidStudio时产生的问题
JDK安装完毕,环境变量也配置完了,AndroidStudio安装完了,其中SDK使用了自己下载好的包. 但是第一次打开AndroidStudio的时候出现了错误: java.lang.Runtime ...
HDU 5976 数学，逆元
1.HDU 5976 Detachment 2.题意:给一个正整数x,把x拆分成多个正整数的和,这些数不能有重复,要使这些数的积尽可能的大,输出积. 3.总结:首先我们要把数拆得尽可能小,这样积才会更 ...
java基础学习总结-接口
原文链接:http://www.cnblogs.com/xdp-gacl/p/3651121.html 一.接口的概念 JAVA是只支持单继承的,但现实之中存在多重继承这种现象,如"金丝猴是 ...
java分享第十六天（ java读取properties文件的几种方法&java配置文件持久化：static块的作用）
java读取properties文件的几种方法一.项目中经常会需要读取配置文件(properties文件),因此读取方法总结如下: 1.通过java.util.Properties读取Propert ...
Redis集群最佳实践
今天我们来聊一聊Redis集群.先看看集群的特点,我对它的理解是要需要同时满足高可用性以及可扩展性,即任何时候对外的接口都要是基本可用的并具备一定的灾备能力,同时节点的数量能够根据业务量级的大小动态的 ...
MVC框架
MVC (Modal View Controler)本来是存在于Desktop程序中的,M是指数据模型,V是指用户界面,C则是控制器.使用MVC的目的是将M和V的实现代码分离,从而使同一个程序可以使用 ...

K-均值聚类算法

K-均值聚类算法

K-均值算法

算法思想

具体实现

结果

算法收敛

二分K均值算法

算法思想

具体实现

结果

K-均值聚类算法的更多相关文章

随机推荐

热门专题