K-means 算法

本学习笔记参考自吴恩达老师机器学习公开课

聚类算法是一种无监督学习算法。k均值算法是其中应用最为广泛的一种，算法接受一个未标记的数据集，然后将数据聚类成不同的组。K均值是一个迭代算法，假设我们想要将数据聚类成K个组，其方法为：

随机选择K个随机的点（称为聚类中心）；
对与数据集中的每个数据点，按照距离K个中心点的距离，将其与距离最近的中心点关联起来，与同一中心点关联的所有点聚成一类；
计算每一组的均值，将该组所关联的中心点移动到平均值的位置；
重复执行2-3步，直至中心点不再变化

算法的数学表示

算法的输入（input）：

K – 聚类的类别数

- 无标签训练集，其中每个输入是都是一个n维的实数向量，即

假设分别表示K个类别的聚类中心，用来存储与第i个实例数据最近的聚类中心的索引（1,2,…,k），则K-均值算法的伪代码如下：

算法分为2个步骤，第一个for循环是赋值步骤，即：对于每一个样例i，计算其应该属于的类。第二个for循环是聚类中心的移动，即：对于每一个类k，重新计算该类的质心。（注：算法执行过程中若出现没有分配点的聚类中心，可以直接移除该聚类中心）

目标函数及其执行细节

目标函数

K均值最小化的问题，是要最小化所有数据点与其所关联的聚类中心点之间的距离之和。因此k均值的代价函数为：

随机初始化

K均值算法执行开始时，通常随机初始化聚类中心点，即：随机选择K个训练实例，然后令K个聚类中心分别等于这K个训练实例。这就使得Kmeans算法存在一个缺陷：最后结果会依赖于初始化的情况，并且有可能使得代价函数停留在局部最小值处。

为了解决该问题，我们通常需要多次（50到1000次）运行K均值算法，每一次都重新进行初始化，最后再比较多次运行K-均值的结果，选择代价函数最小的结果。通常这种方法在K较小的时候（2-10）还是可行的；但是K较大，这么做可能不会有明显的改善，并且K较大时，通常第一次执行K均值也会得到一个不错的结果。典型的执行次数为100次。伪代码如下：

选择聚类数K

没有所谓最好的选择聚类数的方法，通常是需要根据不同的问题，人工的进行选择。但是，当你想要确定最优聚类数K时，有一个值得一试的方法 - “肘部法则（Elbow method）”。该方法所做的就是不断的改变K值（from 1 to x），执行k-均值，然后画出代价函数与K值的变化曲线，选择“肘点处”的值作为K的取值。如下图：

事实上，该方法并不常用，因为大多数情况下，我们通常会得到一个光滑下降的曲线，没有一个清晰的“肘点”，这样就不能果断的确定K的取值；即便若此，该方法还是值得推荐和尝试的。

K-means 算法的更多相关文章

KNN 与 K - Means 算法比较
KNN K-Means 1.分类算法聚类算法 2.监督学习非监督学习 3.数据类型:喂给它的数据集是带label的数据,已经是完全正确的数据喂给它的数据集是无label的数据,是杂乱无章的,经过 ...
K－means算法
K-means算法很简单,它属于无监督学习算法中的聚类算法中的一种方法吧,利用欧式距离进行聚合啦. 解决的问题如图所示哈:有一堆没有标签的训练样本,并且它们可以潜在地分为K类,我们怎么把它们划分呢? ...
机器学习实战笔记--k近邻算法
#encoding:utf-8 from numpy import * import operator import matplotlib import matplotlib.pyplot as pl ...
《机器学习实战》学习笔记一K邻近算法
一. K邻近算法思想:存在一个样本数据集合,称为训练样本集,并且每个数据都存在标签,即我们知道样本集中每一数据(这里的数据是一组数据,可以是n维向量)与所属分类的对应关系.输入没有标签的新数据后,将 ...
[Machine-Learning] K临近算法-简单例子
k-临近算法算法步骤 k 临近算法的伪代码,对位置类别属性的数据集中的每个点依次执行以下操作: 计算已知类别数据集中的每个点与当前点之间的距离: 按照距离递增次序排序: 选取与当前点距离最小的k个点 ...
k近邻算法的Java实现
k近邻算法是机器学习算法中最简单的算法之一,工作原理是:存在一个样本数据集合,即训练样本集,并且样本集中的每个数据都存在标签,即我们知道样本集中每一数据和所属分类的对应关系.输入没有标签的新数据之后, ...
基本分类方法——KNN(K近邻)算法
在这篇文章 http://www.cnblogs.com/charlesblc/p/6193867.html 讲SVM的过程中,提到了KNN算法.有点熟悉,上网一查,居然就是K近邻算法,机器学习的入门 ...
聚类算法：K-means 算法(k均值算法)
k-means算法: 第一步:选$K$个初始聚类中心,$z_1(1),z_2(1),\cdots,z_k(1)$,其中括号内的序号为寻找聚类中心的迭代运算的次序号. 聚类中心的向量值可任意设 ...
从K近邻算法谈到KD树、SIFT+BBF算法
转自 http://blog.csdn.net/v_july_v/article/details/8203674 ,感谢july的辛勤劳动前言前两日,在微博上说:“到今天为止,我至少亏欠了3篇文章 ...
Python实现kNN（k邻近算法）
Python实现kNN(k邻近算法) 运行环境 Pyhton3 numpy科学计算模块计算过程 st=>start: 开始 op1=>operation: 读入数据 op2=>op ...

随机推荐

SpringMVC 基本概念
DispatcherServlet:前端控制器,解释用户请求,通过HandlerMapping查找对应Handler处理请求,调用ViewResolve回填页面,DispatcherServlet在W ...
[译]ASP.NET Core 2.0 会话状态
问题如何在ASP.NET Core 2.0中存储会话状态? 答案创建一个空项目,修改Startup类的ConfigureServices()方法,添加会话状态服务和它后台的存储服务: public ...
Call From master/192.168.128.135 to master:8485 failed on connection exception: java.net.ConnectException: Connection refused
hadoop集群搭建了ha,初次启动正常,最近几天启动时偶尔发现,namenode1节点启动后一段时间(大约10几秒-半分钟左右),namenode1上namenode进程停掉,查看日志: -- :: ...
Mysql 用户，权限管理的几点理解。
前两天项目数据库要移植到mysql,为此临时抓了几天很久没用的mysql. 公司的数据库比较简单,从oracle迁移到mysql很简单,但是,中间的权限管理让我感觉既简单又复杂..简单是因为网上关于m ...
正则和grep——再做正则就去死
grep 文本过滤工具基本正则表达式 grep 语法基本正则表达式的元字符次数匹配位置锚定分组扩展正则表达式基本正则表达式的元字符次数匹配位置锚定分组或者 grep的介绍 lin ...
js excel 列表导出
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...
my dream
我的梦想(践踏一切可以践踏的,放弃一切必须放弃的,然后朝着自己认为的方向努力,只要自己认为对了就可以了(但是最好能考虑方面全一点,这就叫尽力了)我想要的生活怎么那么醉我想要的食物怎么那么碎我最爱的女孩 ...
C++ 中memset 勿要对类使用
C++ 中memset 勿要对类使用参考链接: http://www.cppblog.com/qinqing1984/archive/2009/08/07/92479.html 百度百科第一次这么给 ...
C++ new 解析重载
C++ new 解析重载 new的三种形式: (1)operator new(运算符new) (2)new operator(new 操作) (3)placement new(特殊的new操作)(不分 ...
Windows环境下多线程编程原理与应用读书笔记（2）————面向对象技术
面向对象技术是学C++需要重点掌握的知识,因为我觉得自己的基础还是比较可以,这一章节的内容就只是粗略的读了一遍,在此就不做过多的笔记.