EM算法（1）：K-means 算法

　　　　　　　　　　　　　　　　　EM算法（1）： K-means算法

1. 简介

　　K-means算法是一类无监督的聚类算法，目的是将没有标签的数据分成若干个类，每一个类都是由相似的数据组成。这个类的个数一般是认为给定的。

2. 原理

　　假设给定一个数据集$\mathbf{X} = \{\mathbf{x}_1, \mathbf{x}_2,...,\mathbf{x}_N \}$, 和类的个数K。我们的每个类都用一个中心点$\mu_k$表示。每个数据集都应该被归为某一个类，那么我们定义$r_{nk}$:如果$\mathbf{x}_n$属于类k,则$r_{nk}$=1；如果$\mathbf{x}_n$不属于类k，则$r_{nk}$=0。那么我们就可以定义一个误差函数$\mathbf{J}$：

　　　　　　　　　　$\mathbf{J} = \sum_n\sum_kr_{nk}||\mathbf{x}_n - \mu_k||^2$

　　误差函数直观理解为每个数据点离自己类的中心点的距离之和。那么我们的目标就是 min $\mathbf{J}$。我们发现，$\mathbf{J}$中$r_{nk}$和$\mu_k$都是未知的，直接求导的话没有闭式解。所以我们需要换一个方法，这就是所谓的k-keans算法。

　　k-means算法分为两步。第一步，假设各个类的中心$\mu_k$已知，那么所有$r_{nk}$都可以求出，计算方法采取最近邻原则，即

　　　　　　　　　　$r_{nk} = 1$ if $k = arg\ min_j||\mathbf{x}_n - \mu_j||^2$　　　　　　　　　　　　　　（1）　　　

　　　　　　　　　　$r_{nk} = 0$ otherwise　　　　　　　　　　　　　　　　　　　　　　　　（2）

　　第二步，假设所有$r_{nk}$都已知，将$\mathbf{J}$对$\mu_k$求导等于零，那么：

　　　　　　　　　　$\frac{\partial\mathbf{J}}{\partial\mu_k}$ = $2\sum_nr_{nk}(\mathbf{x}_n-\mu_k)$ = 0

　　那么很容易得到$\mu_k$的闭式解：

　　　　　　　　　　$\mu_k = \frac{\sum_nr_{nk}\mathbf{x}_n}{\sum_nr_{nk}}$

　　k-means有更通俗的解释，第一步其实是给每个数据点都分类，分类方法采取最近邻原则；第二步是根据分类的结果，将中心点重新计算，计算方式为类中所有点的中心点。

3. 与EM算法的关系

　　这就是为什么在EM算法系列中我们要讲k-means算法的原因：k-means是最简单的EM算法。EM算法全称为Expectation-Maximization algorithm。其也是分为两步，第一步叫Expectation，第二步叫Maximization。

　　EM算法取名是有其意义的，比如第一步Expectation，顾名思义就是计算期望。那么在k-means算法中，第一步计算$r_{nk}$其实是计算Expectation的一步。$r_{nk}$可以看做是$\mathbf{x}_n$属于各个类的概率，只不过它们取值只有0和1，但也符合概率的定义。那么$\mathbf{x}_n$ 的误差期望就是：$\sum_kr_nk||\mathbf{x}_n - \mu_k||^2$。那么所有点的误差期望之和为：

　　　　　　　　　　$\sum_n\sum_kr_{nk}||\mathbf{x}_n-\mu_k||^2$

　　我们可以发现，这其实就是k-means算法中的$\mathbf{J}$。

　　EM算法第二步就是对求得的期望求最值。那么在k-means算法中，第二步对$\mathbf{J}$求导等于零其实就是在求最值，这也正好对应EM算法的第二步。所以我们可以看到，其实k-means就是EM算法的一种。

　　我们知道，用平方和来计算误差其实就是隐性假设原数据服从高斯分布，那么后续我们会看到，我们用EM算法和高斯分布，也能推导出k-means算法。

EM算法（1）：K-means 算法的更多相关文章

机器学习算法之Kmeans算法（K均值算法）
Kmeans算法(K均值算法) KMeans算法是典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大.该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑 ...
机器学习——KNN算法（k近邻算法）
一 KNN算法 1. KNN算法简介 KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分 ...
【算法】K最近邻算法（K-NEAREST NEIGHBOURS，KNN）
K最近邻算法(k-nearest neighbours,KNN) 算法对一个元素进行分类查看它k个最近的邻居在这些邻居中,哪个种类多,这个元素有更大概率是这个种类使用使用KNN来做两项基本工 ...
机器学习（Machine Learning）算法总结-K临近算法
一.算法详解 1.什么是K临近算法 Cover 和 Hart在1968年提出了最初的临近算法属于分类(classification)算法邻近算法,或者说K最近邻(kNN,k-NearestNeig ...
图说十大数据挖掘算法(一)K最近邻算法
如果你之前没有学习过K最近邻算法,那今天几张图,让你明白什么是K最近邻算法. 先来一张图,请分辨它是什么水果很多同学不假思索,直接回答:“菠萝”!!! 仔细看看同学们,这是菠萝么?那再看下边这这张图 ...
机器学习算法之K近邻算法
0x00 概述 K近邻算法是机器学习中非常重要的分类算法.可利用K近邻基于不同的特征提取方式来检测异常操作,比如使用K近邻检测Rootkit,使用K近邻检测webshell等. 0x01 原理 ...
KNN 与 K - Means 算法比较
KNN K-Means 1.分类算法聚类算法 2.监督学习非监督学习 3.数据类型:喂给它的数据集是带label的数据,已经是完全正确的数据喂给它的数据集是无label的数据,是杂乱无章的,经过 ...
Python实现机器学习算法：K近邻算法
''' 数据集:Mnist 训练集数量:60000 测试集数量:10000(实际使用:200) ''' import numpy as np import time def loadData(file ...
数据挖掘十大算法--K-均值聚类算法
一.相异度计算在正式讨论聚类前,我们要先弄清楚一个问题:怎样定量计算两个可比較元素间的相异度.用通俗的话说.相异度就是两个东西区别有多大.比如人类与章鱼的相异度明显大于人类与黑猩猩的相异度,这是能 ...
【机器学习】k近邻算法（kNN）
一.写在前面本系列是对之前机器学习笔记的一个总结,这里只针对最基础的经典机器学习算法,对其本身的要点进行笔记总结,具体到算法的详细过程可以参见其他参考资料和书籍,这里顺便推荐一下Machine Le ...

随机推荐

Kylin(三): Saiku
Saiku是一个轻量级的OLAP分析引擎,可以方便的扩展.嵌入和配置.Saiku通过REST API连接OLAP系统,利用其友好的界面为用户提供直观的分析数据的方式,它是基于jQuery做的前端界面. ...
CentOS 6主机上的RStudio Server安装步骤
1. 安装EPEL库 yum -y install epel-release 2. 安装R yum install R 3. 安装OpenSSL yum install openssl098e 4. ...
MS-MPI 的使用
MPI在windows上的扯淡 MPI的实现一般使用MPICH与OpenMPI,这两个库在12年的版本就已经停止了对windows的更新,不支持MPI的新特性(也不知道有没有bug方面的问题),配置的 ...
iOS获取UUID，并使用keychain存储
http://blog.sina.com.cn/s/blog_5971cdd00102vqgy.html
JS脚本修改控件宽度
var winWidth=0;if (window.innerWidth) { winWidth = window.innerWidth; } else if ((document.body) &am ...
java程序转换excel中科学记数法的数据为date类型
今天出于某些原因从mongodb数据库中导出了一些数据,为了更直观的发送给其他人查阅,便使用mongoVUE的导出为excel功能. 但是导出后出现了一个问题,里边有一列存储时间的,存储的是lon ...
Android Studio 小技巧/快捷键合集
参考: http://jaeger.itscoder.com/android/2016/02/14/android-studio-tips.html 1. 书签(Bookmarks) 描述:这是一个很 ...
eclipse NoClassDefFoundError错误
问题描述:eclipse中执行一个java web项目,代码中依赖都是正常的,发布到tomcat中调试就提示NoClassDefFoundError错误, 问题分析:首先确定工程中该类确实存在,因为代 ...
html css javascript 加载的顺序
html /css /javascript 这三者的加载顺序影响整个页面的加载速度.而加载速度的快慢直接影响pv(访问量),而且会影响经济收入.在大网站中,可能打开速度快一秒,一年能多带来上亿的收入. ...
windows下CMake使用图文手册 Part 2
例子2:有目录的项目我现在有个文件夹ProjectDate,有如下文件结构 E:. │ CMakeLists.txt │ ├─include │ Date.h │ └─src ...

EM算法（1）：K-means 算法

EM算法（1）：K-means 算法的更多相关文章

随机推荐

热门专题