1.算法简述

分类是指分类器（classifier）根据已标注类别的训练集，通过训练可以对未知类别的样本进行分类。分类被称为监督学习（supervised learning）。如果训练集的样本没有标注类别，那么就需要用到聚类。聚类是把相似的样本聚成一类，这种相似性通常以距离来度量。聚类被称为无监督学习（unspervised learning）。

k-means是聚类算法中常用的一种，其中k的含义是指有k个cluster。由聚类的定义可知，一个样本应距离其所属cluster的质心是最近的（相较于其他k-1个cluster）。实际上，k-means的本质是最小化目标函数：

x为样本点，c为cluster。为了表示cluster，最简单有效的是取所有样本点平均，即质心（cluster centroid）；这便是取名means的来由。

k-means算法流程如下：

选取初始k个质心（通常随机选取）

循环重复直至收敛

{ 对每个样本，计算出与k个质心距离最近的那个，将其归为距离最新质心所对应的cluster

重新计算质心，当质心不再变化即为收敛

}

代码参考[1,2]，结果可视化请参考[2]

import numpy as np

import scipy.spatial.distance as ssd

import matplotlib.pyplot as plt   

def read_file(fn):

    raw_file=open(fn)

    dataSet=[]

    for raw_row in raw_file.readlines():

        row=raw_row.strip().split('\t')

        dataSet.append((float(row[0]),float(row[1])))  

    return np.array(dataSet)  

def firstCentroids(k,dataSet):

    """create the first centroids"""  

    num_columns=dataSet.shape[1]

    centroids=np.zeros((k,num_columns))

    for j in range(num_columns):

        minJ=min(dataSet[:,j])

        rangeJ=max(dataSet[:,j])-minJ

        for i in range(k):

            centroids[i,j]=minJ+rangeJ*np.random.uniform(0,1)

    return np.array(centroids)  

def kmeans(k,dataSet):

    num_rows,num_columns=dataSet.shape

    centroids=firstCentroids(k,dataSet)  

    #store the cluster that the samples belong to

    clusterAssment=np.zeros((num_rows,2))

    clusterChanged=True

    while clusterChanged:

        clusterChanged=False  

        #find the closet centroid

        for i in range(num_rows):

            minDis=np.inf;minIndex=-1

            for j in range(k):

                distance=ssd.euclidean(dataSet[i,:],centroids[j,:])

                if distance<minDis:

                    minDis=distance;minIndex=j  

            if(clusterAssment[i,0]!=minIndex): clusterChanged=True

            clusterAssment[i,:]=minIndex,minDis**2  

        #update the centroid location

        for cent in range(k):

            ptsInCent=dataSet[np.nonzero(clusterAssment[:,0]==cent)[0]]

            centroids[cent,:]=np.mean(ptsInCent,axis=0)  

    return centroids,clusterAssment

缺点：

k-means是局部最优，因而对初始质心的选取敏感。换句话说，选取不同的初始质心，会导致不同的分类结果（当然包括差的了）。
选择能达到目标函数最优的k值是非常困难的。

2. Referrence

[1] Peter Harrington, machine learning in action.

[2] zouxy09, 机器学习算法与Python实践之（五）k均值聚类（k-means）.

[3] the top ten algorithm in data mining, CRC Press.

【数据挖掘】聚类之k-means（转载）的更多相关文章

软件——机器学习与Python，聚类，K——means
K-means是一种聚类算法: 这里运用k-means进行31个城市的分类城市的数据保存在city.txt文件中,内容如下: BJ,2959.19,730.79,749.41,513.34,467. ...
【十大经典数据挖掘算法】k
[十大经典数据挖掘算法]系列 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN Naïve Bayes CART 1. 引言 k-means与kNN虽 ...
[数据挖掘] - 聚类算法：K-means算法理解及SparkCore实现
聚类算法是机器学习中的一大重要算法,也是我们掌握机器学习的必须算法,下面对聚类算法中的K-means算法做一个简单的描述: 一.概述 K-means算法属于聚类算法中的直接聚类算法.给定一个对象(或记 ...
ML: 聚类算法-K均值聚类
基于划分方法聚类算法R包: K-均值聚类(K-means) stats::kmeans().fpc::kmeansruns() K-中心点聚类(K-Medoids) ...
聚类算法:K均值、凝聚层次聚类和DBSCAN
聚类分析就仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组(簇).其目标是,组内的对象相互之间是相似的,而不同组中的对象是不同的.组内相似性越大,组间差别越大,聚类就越好. 先介绍下聚类的不 ...
常见聚类算法——K均值、凝聚层次聚类和DBSCAN比较
聚类分析就仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组(簇).其目标是,组内的对象相互之间是相似的,而不同组中的对象是不同的.组内相似性越大,组间差别越大,聚类就越好. 先介绍下聚类的不 ...
KNN 与 K - Means 算法比较
KNN K-Means 1.分类算法聚类算法 2.监督学习非监督学习 3.数据类型:喂给它的数据集是带label的数据,已经是完全正确的数据喂给它的数据集是无label的数据,是杂乱无章的,经过 ...
【机器学习】聚类算法——K均值算法（k-means）
一.聚类 1.基于划分的聚类:k-means.k-medoids(每个类别找一个样本来代表).Clarans 2.基于层次的聚类:(1)自底向上的凝聚方法,比如Agnes (2)自上而下的分裂方法,比 ...
聚类之K均值聚类和EM算法
这篇博客整理K均值聚类的内容,包括: 1.K均值聚类的原理: 2.初始类中心的选择和类别数K的确定: 3.K均值聚类和EM算法.高斯混合模型的关系. 一.K均值聚类的原理 K均值聚类(K-means) ...

随机推荐

csu1808
csu1808 题意 n 个点间有 m 条地铁,每条地铁可能属于不同的线路,每条地铁有权值即通过时花费的时间,如果乘坐第 i 条地铁来到地铁站 s,再乘坐第 j 条地铁离开,需要花费额外的时间 \(| ...
使用create-react-app命令创建一个项目，运行npm run eject报错
解决方法: 先 git add . 然后 git commit -m ‘init’ 然后再npm run eject
细说JavaScript对象(4)： for in 循环
如同 in 运算符一样,使用 for in 循环遍历对象属性时,也将往上遍历整个原型链. // Poisoning Object.prototype Object.prototype.bar = 1; ...
Xcode 5 单元测试（二）OCMock和GHUnit
在Xcode 5 单元测试(一)使用XCTest进行单元测试中说了如何在Xcode 5中使用XCTest进行简单的单元测试,本文就来探讨下mock测试和更高级的工具GHUnit. Mock 首先科普下 ...
XCTest(一)
target: + 来添加target,可以选择工程中不同的target目标来添加 class: +来添加class, 可以按照不同的测试功能来分类,比如NormalFunctionTest, UI ...
访问php程序无法解析，排查步骤
1.安装lamp后,php程序没有被解析 (1) apachectl -M 看是否加载了libphp5.so ,apachectl -M 这个命令查看动态libphp5.so的是否由apache加载 ...
shoppingCart.js
ylbtech-JavaScript-util: shoppingCart.js 购物车脚本 1.A,JS-效果图返回顶部 1.B,JS-Source Code(源代码)返回顶部 1.B.1,m. ...
INTZ DX format
http://aras-p.info/texts/D3D9GPUHacks.html 格式用法资源描述 NVIDIA GeForce AMD Radeon 英特尔阴影映射 D3DFMT_D16 ...
Mybatis通用分页
分页分为真分页和假分页,而 MyBatis 本身没有提供基于数据库方言的分页功能,而是基于 JDBC 的游标分页,很容易出现性能问题.网上提供的一个解决方案感觉还不错,是基于 MyBatis 本身的插 ...
JAX-WS编写webservice
1.新建一个Java工程 2.创建要发布的类 package com.linjian.webservice; import javax.jws.WebMethod; import javax.jws. ...

【数据挖掘】聚类之k-means（转载）

1.算法简述

2. Referrence

【数据挖掘】聚类之k-means（转载）的更多相关文章

随机推荐

热门专题