本系列意在长期连载分享，内容上可能也会有所删改；

因此如果转载，请务必保留源地址，非常感谢！

博客园：http://www.cnblogs.com/data-miner/（暂时公式显示有问题）

其他：建设中…

当我们在谈论kmeans：总结

概述

　　通过前面阅读K-means相关论文，大致能梳理出K-means算法发展过程中的一些轨迹。由于本人所阅读的仅仅是一部分，因此还会有更多的方面，欢迎大家补充（补充时请给出具体例子）。

K-means算法的提出
对K-means算法的性质进行分析的文章相继发出
对K-means算法思想进行扩展：
- 有作者提出“Maximum Entropy”算法，并表示K-means为其一种特殊形式
- 后又有作者提出“Mean Shift”算法，并表示“Maximum Entropy”也是其特殊形式
针对K-means缺陷，对K-means算法进行修改（一般仅适用于某场景）：
- 提出online的K-means
- 提出针对非凸数据集的K-means
- 提出应用在FPGA中的K-means
- 提出自动对特征进行加权的K-means
- Intelligent K-means算法使用异常检测的思想聚类
对K-means算法进行优化：
- KD树加速的K-means
- 利用SVD分解加速K-means
- K-means++的初始化聚类中心算法
将K-means与新提出的思想融合：
- 结合Ensembling与K-means

K-means存在的问题

K-means由于简单有效被大量的用于数据预处理、数据分析等。在K-means被实际应用的过程中，大家也逐渐发现它本身存在很多的问题。如：

计算量大
聚类数量K需要提前设定，并影响聚类效果
聚类中心需要人为初始化，并影响聚类效果
异常点的存在，会影响聚类效果
只能收敛到局部最优

其中每个问题都有作者分析，并尝试提出解决办法：

计算量大
- KD树加速K-means
聚类数量K需要提前设定，并影响聚类效果
- 各种估计K的方法
聚类中心需要人为初始化，并影响聚类效果
- K-means++方法
- 其他初始化聚类中心方法
异常点的存在，会影响聚类效果
- 数据预处理
只能收敛到局部最优
- 未知

以下我们对其中两点（“类别数量估计”，“初始化聚类中心”）进行更多的介绍

类别数量估计

估计类别数量，现在还没有很通用的方法。以下介绍常见的估计类别数量的一些方式

数据的先验知识，或者数据进行简单分析能得到
基于变化的算法：即定义一个函数，认为在正确的K时会产生极值。
基于结构的算法：即比较类内距离、类间距离以确定K。
基于一致性矩阵的算法：即认为在正确的K时，不同聚类的结果会更加相似，以此确定K。
基于层次聚类：即基于合并或分裂的思想，在一定情况下停止获得K。
基于采样的算法：即对样本采样，分别做聚类；根据这些结果的相似性确定K。

初始化聚类中心

接下来介绍几个看到的初始化聚类中心的方法。需要强调的是，在任何场景下都合适的方法是不存在的。理想情况应该是针对数据的特点，挑选或设计出适合的方法。

K-means++已经被证明是一种简单、好用的方法
先计算整体样本中心，然后根据样本点到中心的距离，由近至远均匀采样作为初试聚类中心
初步将数据分成K个区域，将每个区域中心作为初始聚类中心
计算出每个点的”密度“，认为”密度“较大的是聚类中心。先把”密度“最大的挑出作为第一个聚类中心，从剩下的点中找出密度最大，且离所有已有聚类中心大于一定距离的点作为下一个聚类中心，直到选择了K个
计算整体均值，作为第一个聚类中心。从剩下的点中顺序寻找，当遇到离所有已有聚类中心大于一定距离的点，则作为下一个聚类中心，直到选择了K个

其他聚类算法总结

ING。。。

当我们在谈论kmeans（5）的更多相关文章

当我们在谈论kmeans（1）
本稿为初稿,后续可能还会修改:如果转载,请务必保留源地址,非常感谢! 博客园:http://www.cnblogs.com/data-miner/ 简书:建设中... 知乎:建设中... 当我们在谈论 ...
当我们在谈论kmeans（2）
本稿为初稿,后续可能还会修改:如果转载,请务必保留源地址,非常感谢! 博客园:http://www.cnblogs.com/data-miner/ 其他:建设中- 当我们在谈论kmeans(2 ...
当我们在谈论kmeans（3）
本系列意在长期连载分享,内容上可能也会有所删改: 因此如果转载,请务必保留源地址,非常感谢! 博客园:http://www.cnblogs.com/data-miner/(暂时公式显示有问题) ...
K-Means 聚类算法
K-Means 概念定义: K-Means 是一种基于距离的排他的聚类划分方法. 上面的 K-Means 描述中包含了几个概念: 聚类(Clustering):K-Means 是一种聚类分析(Clus ...
用scikit-learn学习K-Means聚类
在K-Means聚类算法原理中,我们对K-Means的原理做了总结,本文我们就来讨论用scikit-learn来学习K-Means聚类.重点讲述如何选择合适的k值. 1. K-Means类概述在sc ...
K-Means聚类算法原理
K-Means算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛.K-Means算法有大量的变体,本文就从最传统的K-Means算法讲起,在其基础上讲述K-Means的优化变体 ...
[Erlang 0117] 当我们谈论Erlang Maps时,我们谈论什么 Part 2
声明:本文讨论的Erlang Maps是基于17.0-rc2,时间2014-3-4.后续Maps可能会出现语法或函数API上的有所调整,特此说明. 前情提要: [Erlang 0116] 当我们谈论E ...
[Erlang 0116] 当我们谈论Erlang Maps时,我们谈论什么 Part 1
Erlang 增加 Maps数据类型并不是很突然,因为这个提议已经进行了2~3年之久,只不过Joe Armstrong老爷子最近一篇文章Big changes to Erlang掀起不小了风 ...
kmeans算法并行化的mpi程序
用c语言写了kmeans算法的串行程序,再用mpi来写并行版的,貌似参照着串行版来写并行版,效果不是很赏心悦目~ 并行化思路: 使用主从模式.由一个节点充当主节点负责数据的划分与分配,其他节点完成本地 ...

随机推荐

SQL点滴22—性能优化没有那么神秘
原文:SQL点滴22-性能优化没有那么神秘经常听说SQL Server最难的部分是性能优化,不禁让人感到优化这个工作很神秘,这种事情只有高手才能做.很早的时候我在网上看到一位高手写的博客,介绍了SQ ...
- C#编程大幅提高OUTLOOK的邮件搜索能力!
原文:[原创] - C#编程大幅提高OUTLOOK的邮件搜索能力! 使用OUTLOOK, 你有没有遇到过上图的问题? 多达18419封邮件! 太多了, 每次想找一个邮件都非常耗时, 想办法解决这个问题 ...
ajax提交表单验证
function submitKH(mobileInputId,nameInputId) { var mobileInputSelector ='#'+ mobileInputId; var pass ...
.net图片压缩
1.png很难进行压缩,一般压缩时间较长. 2.jpg图片压缩方法: #region 图片压缩[之压缩jpg] public static void JpgImgZip(Image img,strin ...
JavaScript实例技巧精选(11)—计算器实例3
>>点击这里下载完整html源码<< 界面如下将以下代码插入<body></body>中 <FORM NAME="Calc" ...
JavaScript实例技巧精选(9)—计算器实例1
>>点击这里下载完整html源码<< 这是截图: 利用Javascript和html实现的一个计算器实例,核心代码如下: <script language="J ...
单点登录（SSO）实现方式
谁都能看懂的单点登录(SSO)实现方式(附源码) SSO的基本概念 SSO英文全称Single Sign On(单点登录).SSO是在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用 ...
Printk 标志优先级别
#define KERN_EMERG "<0>" /* 致命级:紧急事件消息,系统崩溃之前提示,表示系统不可用 */# ...
在线预览PDF
FlexPaper+SWFTool+操作类=在线预览PDF 引言由于客户有在线预览PDF格式的需求,在网上找了一下解决方案,觉得FlexPaper用起来还是挺方便的,flexpaper是将pdf ...
ImageMagick利用蒙版合成图片
先看合成后的效果图. 需要的图片素材: 1.一张图片(335x600) 2.一张蒙版图片(335x600) 3.一张相框图片(335x600) 第一步,根据蒙板和图片,截取图片.而且所截取的图片之外的 ...

当我们在谈论kmeans（5）