K-Means聚类和EM算法复习总结

摘要：

　　1.算法概述

　　2.算法推导

　　3.算法特性及优缺点

　　4.注意事项

　　5.实现和具体例子

　　6.适用场合

内容：

1.算法概述

　　k-means算法是一种得到最广泛使用的聚类算法。它是将各个聚类子集内的所有数据样本的均值作为该聚类的代表点。

2.算法推导

2.1 k-means 计算过程：

深入：如何验证收敛：

　　我们定义畸变函数（distortion function）如下：

J函数表示每个样本点到其质心的距离平方和。K-means是要将J调整到最小。假设当前J没有达到最小值，那么首先可以固定每个类的质心，调整每个样例的所属的类别来让J函数减少，同样，固定，调整每个类的质心也可以使J减小。这两个过程就是内循环中使J单调递减的过程。当J递减到最小时，和c也同时收敛。

2.3 期望最大化（EM）：

　　EM算法（Expectation Maximization）是在含有隐变量（latent variable）的模型下计算最大似然的一种算法

　　其中Z是隐变量，theta是待定参数;

　　E-step是固定参数theta,求Z的期望;M-step是theta的极大似然估计

　引申：使用EM算法推导K-means:

　　k-means算法是高斯混合聚类在混合成分方差相等，且每个样本仅指派一个混合成分时候的特例。k-means中每个样本所属的类就可以看成是一个隐变量，在E步中，我们固定每个类的中心，通过对每一个样本选择最近的类优化目标函数，在M步，重新更新每个类的中心点，该步骤可以通过对目标函数求导实现，最终可得新的类中心就是类中样本的均值。

　　深入：EM的收敛性证明

3.算法特性及优缺点

　　特性：本算法确定的k个划分到达平方误差最小。当聚类是密集的，且类与类之间区别明显时，效果较好。

　　优点：原理简单，实现容易；对于处理大数据集，这个算法是相对可伸缩和高效的

　　缺点：初始聚类中心的选择比较敏感，可能只能收敛到局部最优解（改进：选取距离尽可能远的点作为初始聚类实现kmeans++）

　　　　不能发现非凸形状的簇，或大小差别很大的簇

　　　　算法复杂度高O(nkt)

　　　　无法确定K的个数（根据什么指标确定K）

4.注意事项

　　归一化：基于距离的算法都需要进行无量纲化，防止样本在某些维度上过大导致距离计算失效

　　后处理：具有最大SSE值的簇划分为两个簇，具体实现只要将属于最大簇的数据点用K-均值聚类，设定簇数k=2即可。

　　　　　　为了保证簇总数不变，可以合并最近的质心，或者合并两个使得SSE值增幅最小的质心。

5.实现和具体例子

　　《机器学习实战》中的k-mean和二分k-means以及基于地点坐标的聚类

　　spark mllib的kmeans实现;spark mllib的二分k-means(BisectingKMeans)--有时间研究下

　　互联网防刷（反作弊）-- 近期计划

6.适用场合

　　支持大规模数据

　　特征维度

　　是否有 Online 算法:有，spark mllib的流式k均值

　　特征处理：支持数值型数据，类别型类型需要进行0-1编码

K-Means聚类和EM算法复习总结的更多相关文章

聚类之K均值聚类和EM算法
这篇博客整理K均值聚类的内容,包括: 1.K均值聚类的原理: 2.初始类中心的选择和类别数K的确定: 3.K均值聚类和EM算法.高斯混合模型的关系. 一.K均值聚类的原理 K均值聚类(K-means) ...
聚类和EM算法——K均值聚类
python大战机器学习——聚类和EM算法注:本文中涉及到的公式一律省略(公式不好敲出来),若想了解公式的具体实现,请参考原著. 1.基本概念 (1)聚类的思想: 将数据集划分为若干个不想交的子 ...
python大战机器学习——聚类和EM算法
注:本文中涉及到的公式一律省略(公式不好敲出来),若想了解公式的具体实现,请参考原著. 1.基本概念 (1)聚类的思想: 将数据集划分为若干个不想交的子集(称为一个簇cluster),每个簇潜在地对应 ...
EM 算法资料
EM 算法的英文全称是: Expectation-Maximum. EM 算法的步骤假设 \(Z\) 是隐变量,\(\theta\) 是待定参数. E 步:固定参数 \(\theta\),求 \(Z ...
K均值聚类算法
k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个 ...
K均值聚类
聚类(cluster)与分类的不同之处在于, 分类算法训练过程中样本所属的分类是已知的属监督学习. 而聚类算法不需要带有分类的训练数据,而是根据样本特征的相似性将其分为几类,又称为无监督分类. K均值 ...
ML: 聚类算法-K均值聚类
基于划分方法聚类算法R包: K-均值聚类(K-means) stats::kmeans().fpc::kmeansruns() K-中心点聚类(K-Medoids) ...
【机器学习】K-means聚类算法与EM算法
初始目的将样本分成K个类,其实说白了就是求一个样本例的隐含类别y,然后利用隐含类别将x归类.由于我们事先不知道类别y,那么我们首先可以对每个样例假定一个y吧,但是怎么知道假定的对不对呢?怎样评价假定 ...
K-means聚类算法与EM算法
K-means聚类算法 K-means聚类算法也是聚类算法中最简单的一种了,但是里面包含的思想却不一般. 聚类属于无监督学习.在聚类问题中,给我们的训练样本是,每个,没有了y. K-means算法是将 ...

随机推荐

distinct 与 group by 去重
例如下表格:表名:fruit id Name Price Num 1 西瓜 10 2 2 西瓜 11 2 3 香蕉 10 3 4 桃子 10 2 当我想获取Name不重复的数据,结果如下 id Nam ...
git 查看某文件的修改历史
前提先进入此文件所在的目录下 1. git log filename可以看到fileName相关的commit记录2. git log -p filename可以显示每次提交的diff3. 只看某次 ...
利用DNS Zone Transfers漏洞工具dnswalk
利用DNS Zone Transfers漏洞工具dnswalk DNS Zone Transfers(DNS区域传输)是指一台备用服务器使用来自主服务器的数据刷新自己的域(zone)数据库.当主服 ...
iOS10以上关于访问权限设置
记录一下: iOS对用户的安全和隐私的增强,在申请很多私有权限的时候都需要添加描述,但是,在使用Xcode 8之前的Xcode还是使用系统的权限通知框.要想解决这个问题,只需要在info.plist添 ...
ContactsUtil 工具类 - 转载
import java.util.HashMap; import java.util.Map; //http://www.open-open.com/code/view/1432300986802 / ...
【原】iOS学习之Xcode8关于控制台不打印错误信息
前几天将我的Xcode升到了8,但是在运行程序时,会打印很多没有用的信息,如下图: Xcode8运行程序时打印的乱码于是各种寻求答案,找到如下答案: Edit Scheme-> Run -&g ...
[BZOJ4199][NOI2015]品酒大会
#131. [NOI2015]品酒大会统计描述提交自定义测试一年一度的“幻影阁夏日品酒大会”隆重开幕了.大会包含品尝和趣味挑战两个环节,分别向优胜者颁发“首席品酒家”和“首席猎手”两个奖项, ...
Salesforce注册开发者账号
在对Salesforce进行了简单的了解之后,我们现在来注册Salesforce的开发者账号,开始Salesforce的学习一.注册前的准备首先点击网址:https://developer.sal ...
用Node.js发送邮件
本文讲的是用Node.js通过一个开启smtp的已有的邮箱账号发送邮件,而不是如何创建一个邮件服务器开启smtp服务首先要去要使用的邮箱中设置开启smtp,才能正常发送邮件这边以163邮箱为例 ...
Web前端开发推荐阅读书籍
前言前端工程师在中国兴起也就5年左右,以前公司里没有专门前端工程师的这个职位,很多前端方面的任务都是由全栈工程师来完成,有的基础一点的后台或者设计的帮助分担一些.但是随着互联网的快速发展,特别是所谓 ...

K-Means聚类和EM算法复习总结

K-Means聚类和EM算法复习总结的更多相关文章

随机推荐

热门专题