K-means聚类

　　聚类算法，无监督学习的范畴，没有明确的类别信息。

　　给定n个训练样本{x_1，x_2，x_3，...，x_n}

　　kmeans算法过程描述如下所示：

　　1.创建k个点作为起始质心点，c1，c2，...，ck

　　2.重复以下过程直到收敛

　　　　遍历所有样本x_i

　　　　　　遍历所有质心c_j

　　　　　　　　记录质心与样本间的距离
　　　　　　将样本分配到距离其最近的质心
　　　　对每一个类，计算所有样本的均值并将其作为新的质心

　　下图展示了对n个样本点进行K-means聚类的效果，这里k取2。

　　需要注意的几点：

　　k个点怎么取

　　1.选择距离尽可能远的k个点

　　　　首先随机选一个点p1作为第一个簇的质心，然后选距离这个点p1最远的点p2作为第二个簇的质心，

　　再选择距离前面p1和p2最短距离的最大值的点作为第三个簇的质心。max(min(d(p1),d(p2)))

　　以此类推，选k个点。

　　2.选用层次聚类或者Canopy算法先进行初始聚类，利用这些类簇的中心点作为Kmeans初始类簇的质心

　　　要求：样本相对较小，例如数百到数千(层次聚类开销较大)；K相对于样本大小较小

　　k值怎么确定

　　ps:每个类称为簇，则簇的直径：簇内任意两点间的最大距离，簇的半径：簇内点到簇质心的最大距离

　　给定一个合适的簇指标，可以是簇平均半径、簇平均直径、或者平均质心距离的加权平均值（权重可以为簇内点的个数）

　　分别取k值在1,2,4,8,16....

　　基本会符合下图，当簇个数低于真实个数时，簇指标会随簇个数的增长快速下降，当簇个数高于真实个数时，簇指标会趋于平稳

　　找到图中所示转折点，先确定k的大致范围，再通过二分查找确定k的值

　　算法停止条件

　　1.规定一个迭代次数，达到即停止

　　2.目标函数收敛

　　求上述目标函数的最小值

　　参考：http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006910.html

K-means聚类的更多相关文章

ML: 聚类算法-K均值聚类
基于划分方法聚类算法R包: K-均值聚类(K-means) stats::kmeans().fpc::kmeansruns() K-中心点聚类(K-Medoids) ...
【转】算法杂货铺——k均值聚类(K-means)
k均值聚类(K-means) 4.1.摘要在前面的文章中,介绍了三种常见的分类算法.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应.但是很多时 ...
5-Spark高级数据分析-第五章基于K均值聚类的网络流量异常检测
据我们所知,有‘已知的已知’,有些事,我们知道我们知道:我们也知道,有 ‘已知的未知’,也就是说,有些事,我们现在知道我们不知道.但是,同样存在‘不知的不知’——有些事,我们不知道我们不知道. 上一章 ...
机器学习实战5：k-means聚类：二分k均值聚类+地理位置聚簇实例
k-均值聚类是非监督学习的一种,输入必须指定聚簇中心个数k.k均值是基于相似度的聚类,为没有标签的一簇实例分为一类. 一经典的k-均值聚类思路: 1 随机创建k个质心(k必须指定,二维的很容易确定 ...
Python实现kMeans(k均值聚类)
Python实现kMeans(k均值聚类) 运行环境 Pyhton3 numpy(科学计算包) matplotlib(画图所需,不画图可不必) 计算过程 st=>start: 开始 e=> ...
机器学习理论与实战（十）K均值聚类和二分K均值聚类
接下来就要说下无监督机器学习方法,所谓无监督机器学习前面也说过,就是没有标签的情况,对样本数据进行聚类分析.关联性分析等.主要包括K均值聚类(K-means clustering)和关联分析,这两大类 ...
R与数据分析旧笔记（十五）基于有代表性的点的技术：K中心聚类法
基于有代表性的点的技术:K中心聚类法基于有代表性的点的技术:K中心聚类法算法步骤随机选择k个点作为"中心点" 计算剩余的点到这个k中心点的距离,每个点被分配到最近的中心点组成 ...
第十篇：K均值聚类(KMeans)
前言本文讲解如何使用R语言进行 KMeans 均值聚类分析,并以一个关于人口出生率死亡率的实例演示具体分析步骤. 聚类分析总体流程 1. 载入并了解数据集:2. 调用聚类函数进行聚类:3. 查看聚类 ...
K均值聚类的失效性分析
K均值聚类是一种应用广泛的聚类技术,特别是它不依赖于任何对数据所做的假设,比如说,给定一个数据集合及对应的类数目,就可以运用K均值方法,通过最小化均方误差,来进行聚类分析. 因此,K均值实际上是一个最 ...
机器学习算法与Python实践之（五）k均值聚类（k-means）
机器学习算法与Python实践这个系列主要是参考<机器学习实战>这本书.因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学 ...

随机推荐

Remove Duplicates from Sorted Array II ——LeetCode
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For exampl ...
JQuery固定表头插件fixedtableheader源码注释
在开发XX车站信息系统时,需要将大量数据显示在一个巨大的表格内部,由于表格是一个整体,无法分页,加之数据很多,超出一屏,为了方便用户,决定使用固定表头的插件,经过测试,发现JQuery 插件:fixe ...
Big Event in HDU(01背包)
/* 题意: 输入一个数n代表有n种物品, 接下来输入物品的价值和物品的个数: 然后将这些物品分成A B 两份,使A B的价值尽可能相等也就是尽量分的公平一些,如果无法使A B相等,那么就使A多一些: ...
J - A Bug's Life - poj2492
这个题目很有意思啊,有一些bug生物(肯定是程序员养的),有人观察他们的生活习惯,观察他们之间是否有同性恋关系,比如ab发生关系,bc发生关系,ab发生关系...产生了同性恋了,你需要判断一下这种关系 ...
XQuery FLWOR 表达式
FLWOR 是 "For, Let, Where, Order by, Return" 的只取首字母缩写.for 语句把 bookstore 元素下的所有 book 元素提取到名为 ...
Excel2003读取sqlserver数据库表数据(图)
Spring入门一
一简介 1.Spring为企业应用的开发提供了一个轻量级的解决方案,该解决方案包括:基于依赖注入的核心机制.基于AOP的声明式事务管理.与多种持久层技术的整合,以及优秀的Web MVC框架等等.可 ...
【asp.net爬虫】asp.NET分页控件抓取第n页数据 javascript:__doPostBack
最近在模拟HTTP请求抓取数据,但是服务器是asp.net开发的分页控件代码 <tr> <td align="left">共&nbsp210&am ...
C# WinForm登录窗口代码
Main窗体为应用程式主窗体,Login为登录窗体.均为SDI窗体. 两种实现方式如下: 1.应用程式入口放在Login窗体,在Login窗体实现登录机制,验证通过则创建Main窗体的实例,并 ...
前端的数据库：IndexedDB 。 ps：入门
应用程序需要数据.对大多数Web应用程序来说,数据在服务器端组织和管理,客户端通过网络请求获取.随着浏览器变得越来越有能力,因此可选择在浏览器存储和操纵应用程序数据. 本文向你介绍名为IndexedD ...

K-means聚类

K-means聚类的更多相关文章

随机推荐

热门专题