Kmeans算法--python实现

一：Kmeans算法基本思想：

k-means算法是一种很常见的聚类算法，它的基本思想是：通过迭代寻找k个聚类的一种划分方案，使得用这k个聚类的均值来代表相应各类样本时所得的总体误差最小。

k-means算法的基础是最小误差平方和准则。其代价函数是：

式中，μ_c(i)表示第i个聚类的均值。我们希望代价函数最小，直观的来说，各类内的样本越相似，其与该类均值间的误差平方越小，对所有类所得到的误差平方求和，即可验证分为k类时，各聚类是否是最优的。上式的代价函数无法用解析的方法最小化，只能有迭代的方法。k-means算法是将样本聚类成 k个簇（cluster），其中k是用户给定的，其求解过程非常直观简单，具体算法描述如下：

1、随机选取 k个聚类质心点

2、重复下面过程直到收敛 {

对于每一个样例 i，计算其应该属于的类：

对于每一个类 j，重新计算该类的质心：

}

其伪代码如下：

********************************************************************

创建k个点作为初始的质心点（随机选择）

当任意一个点的簇分配结果发生改变时

对数据集中的每一个数据点

对每一个质心

计算质心与数据点的距离

将数据点分配到距离最近的簇

对每一个簇，计算簇中所有点的均值，并将均值作为质心

********************************************************************

代码如下：kmeans.py

from numpy import *

import time

import matplotlib.pyplot as plt

# calculate Euclidean distance

def euclDistance(vector1, vector2):

    return sqrt(sum(power(vector2 - vector1, 2)))

# init centroids with random samples

def initCentroids(dataSet, k):

    numSamples, dim = dataSet.shape   ##numSamples = dataSet.shape[0]

    centroids = zeros((k, dim))   ##初始化centroids用于存储质心点的坐标

    for i in range(k):

        index = int(random.uniform(0, numSamples)) ##随机生成（0，80）之间的数作为索引

        centroids[i, :] = dataSet[index, :]       ##根据随机索引初始化质心

    return centroids

# k-means cluster

def kmeans(dataSet, k):

    numSamples = dataSet.shape[0]

    # first column stores which cluster this sample belongs to,

    # second column stores the error between this sample and its centroid

    clusterAssment = mat(zeros((numSamples, 2)))

    clusterChanged = True

    ## step 1: init centroids

    centroids = initCentroids(dataSet, k)

    while clusterChanged:

        clusterChanged = False

        ## for each sample

        for i in xrange(numSamples):

            minDist  = 100000.0

            minIndex = 0

            ## for each centroid

            ## step 2: find the centroid who is closest

            for j in range(k):

                distance = euclDistance(centroids[j, :], dataSet[i, :])

                if distance < minDist:

                    minDist  = distance

                    minIndex = j

            ## step 3: update its cluster

            clusterAssment[i, :] = minIndex, minDist**2

            if clusterAssment[i, 0] != minIndex:

                clusterChanged = True

        ## step 4: update centroids

        for j in range(k):

            pointsInCluster = dataSet[nonzero(clusterAssment[:, 0].A == j)[0]]

            centroids[j, :] = mean(pointsInCluster, axis = 0)

    print 'Congratulations, cluster complete!'

    return centroids, clusterAssment

# show your cluster only available with 2-D data

def showCluster(dataSet, k, centroids, clusterAssment):

    numSamples, dim = dataSet.shape

    if dim != 2:

        print "Sorry! I can not draw because the dimension of your data is not 2!"

        return 1

    mark = ['or', 'ob', 'og', 'ok', '^r', '+r', 'sr', 'dr', '<r', 'pr']

    if k > len(mark):

        print "Sorry! Your k is too large! please contact Zouxy"

        return 1

    # draw all samples

    for i in xrange(numSamples):

        markIndex = int(clusterAssment[i, 0])

        plt.plot(dataSet[i, 0], dataSet[i, 1], mark[markIndex])

    mark = ['Dr', 'Db', 'Dg', 'Dk', '^b', '+b', 'sb', 'db', '<b', 'pb']

    # draw the centroids

    for i in range(k):

        plt.plot(centroids[i, 0], centroids[i, 1], mark[i], markersize = 12)

    plt.show()

def test_kmeans():

    ## step 1: load data

    print "step 1: load data..."

    dataSet = []

    fileIn = open('F:/eclipse/workspace/K_meansTest/testSet.txt')

    for line in fileIn.readlines():

        lineArr = line.strip().split('\t')

        print lineArr

        dataSet.append([float(lineArr[0]), float(lineArr[1])])

        ## step 2: clustering...   ###！！！从此开始缩进错误，不应该在for循环里面，应该和for循环在同一个级别

        print "step 2: clustering..."

        dataSet = mat(dataSet)

        k = 4

        centroids, clusterAssment = kmeans(dataSet, k)

        ## step 3: show the result

        print "step 3: show the result..."

        showCluster(dataSet, k, centroids, clusterAssment)

test_kmeans.py

from numpy import *

import time

import matplotlib.pyplot as plt

import kmeans

kmeans.test_kmeans()

调试程序中遇到的问题：

（1）提示AttributeError：“matrxi” have no "append" attribute!

错误原因：程序中缩进错误，应该将数据全部加载到dataSet列表中，再将dataSet列表使用mat()函数转化为矩阵，列表具有append()方法，而矩阵不具有此方法。

运行结果：

程序中相关知识注解：

mat()函数：数组转化为矩阵

random.uniform():函数原型为：random.uniform(a, b)，用于生成一个指定范围内的随机符点数，两个参数其中一个是上限，一个是下限。

dataSet.shape:求取矩阵的形状

nonzeros(a):返回数组a中值不为零的元素的下标，它的返回值是一个长度为a.ndim(数组a的轴数)的元组，元组的每个元素都是一个整数数组，其值为非零元素的下标在对应轴上的值。

Kmeans算法--python实现的更多相关文章

数据挖掘-聚类分析（Python实现K-Means算法）
概念: 聚类分析(cluster analysis ):是一组将研究对象分为相对同质的群组(clusters)的统计分析技术.聚类分析也叫分类分析,或者数值分类.聚类的输入是一组未被标记的样本,聚类根 ...
机器学习中的K-means算法的python实现
<机器学习实战>kMeans算法(K均值聚类算法) 机器学习中有两类的大问题,一个是分类,一个是聚类.分类是根据一些给定的已知类别标号的样本,训练某种学习机器,使它能够对未知类别的样本进行 ...
Python—kmeans算法学习笔记
一. 什么是聚类聚类简单的说就是要把一个文档集合根据文档的相似性把文档分成若干类,但是究竟分成多少类,这个要取决于文档集合里文档自身的性质.下面这个图就是一个简单的例子,我们可以把不同的文档聚合 ...
数学建模及机器学习算法（一）：聚类-kmeans（Python及MATLAB实现，包括k值选取与聚类效果评估）
一.聚类的概念聚类分析是在数据中发现数据对象之间的关系,将数据进行分组,组内的相似性越大,组间的差别越大,则聚类效果越好.我们事先并不知道数据的正确结果(类标),通过聚类算法来发现和挖掘数据本身的结 ...
Python之机器学习K-means算法实现
一.前言: 今天在宿舍弄了一个下午的代码,总算还好,把这个东西算是熟悉了,还不算是力竭,只算是知道了怎么回事.今天就给大家分享一下我的代码.代码可以运行,运行的Python环境是Python3.6以上 ...
Python机器学习笔记：K-Means算法，DBSCAN算法
K-Means算法 K-Means 算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛.K-Means 算法有大量的变体,本文就从最传统的K-Means算法学起,在其基础上学习 ...
k-means聚类算法python实现
K-means聚类算法算法优缺点: 优点:容易实现缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢使用数据类型:数值型数据算法思想 k-means算法实际上就是通过计算不同样本间的距离来判断他 ...
kmeans算法思想及其python实现
第十章利用k-均值聚类算法对未标注的数据进行分组一．导语聚类算法可以看做是一种无监督的分类方法,之所以这么说的原因是它和分类方法的结果相同,区别它的类别没有预先的定义.簇识别是聚类算法中经常使用 ...
python Kmeans算法解析
一. 概述首先需要先介绍一下无监督学习,所谓无监督学习,就是训练样本中的标记信息是位置的,目标是通过对无标记训练样本的学习来揭示数据的内在性质以及规律.通俗得说,就是根据数据的一些内在性质,找出其内 ...

随机推荐

C++编译错误 2001 1120
无法解析的外部符号"symbol" 代码引用了链接器无法在库和对象文件中找到的内容(如函数.变量或标签). 该错误信息之后为错误 LNK1120. 可能的原因 : 在将托管库或 W ...
linux下apache https 虚拟主机配置
如果单纯仅仅想在数据传输时加密传输,那么ssl证书是不须要认证的,可是浏览器打开时会有警告信息.如果我们做的不是一个公众产品那么也还好啦. 例如以下是今天学习时的一个笔记,事实上我用的是真实环境. 环 ...
使用Auto Layout处理比例间距问题
使用Auto Layout处理比例间距问题 Auto Layout 是一个掌握起来很具有挑战性的东西.iOS 9引入的 Stack Views和 layout 锚点有一些帮助,但是明白如何创建特定的 ...
Bootstrap Table 查询（服务器端）、刷新数据
Refresh from url after use data option <!DOCTYPE html> <html> <head> <title> ...
leetcode dfs Flatten Binary Tree to Linked List
Flatten Binary Tree to Linked List Total Accepted: 25034 Total Submissions: 88947My Submissions Give ...
netty+Protobuf （整合一）
netty+Protobuf 整合实战疯狂创客圈死磕Netty 亿级流量架构系列之12 [博客园总入口 ] 本文说明本篇是 netty+Protobuf 整合实战的第一篇,完成一个基于Ne ...
Hadoop实战-Flume之Hello world(九)
环境介绍: 主服务器ip:192.168.80.128 1.准备apache-flume-1.7.0-bin.tar文件 2.上传到master(192.168.80.128)服务器上 3.解压apa ...
ETF到底是什么？
ETF(交易所交易基金)是一种证券产品,它可以跟踪一些相关的资产,不论是股票.债券.商品,还是数字货币. ETF基金会负责跟踪指定的资产.然后放出部分股份,这些股份代表着对资产的拥有权. 交易ETF股 ...
开发指南专题十一：JEECG微云高速开发平台--基础用户权限
版权声明:本文为博主原创文章.未经博主同意不得转载. https://blog.csdn.net/zhangdaiscott/article/details/26580037 开发指南专题 ...
JTLParser-linux上jmeter的jtl文件二次分析
解析JMeter的JTL文件 2013年01月30日 ⁄ 综合 ⁄ 共 1452字 ⁄ 字号小中大 ⁄ 评论关闭 http://code.google.com/p/xtoolkit/wiki ...

Kmeans算法--python实现

Kmeans算法--python实现的更多相关文章

随机推荐

热门专题