聚类clustering

聚类：把相似的东西分到一组，是无监督学习。

聚类算法的分类：

（1）基于划分聚类算法（partition clustering)：建立数据的不同分割，然后用相同标准评价聚类结果。（比如最小化平方误差和）

典型算法：k-means、k-medoids

K-means 基本假设：对于每一个 cluster ，可以选出一个中心点，使得该 cluster 中的所有点到该中心点的距离小于到其他 cluster 的中心的距离。

算法步骤：

1、选择K个点作为初始中心；

2、Repeat

3、将每个点归类到最近的中心，形成K个簇；

4、重新计算每个簇的中心；

5、Until 簇的中心不再变化或迭代了最大的步数。

k-medoids：k-medoids 和 k-means 不一样的地方在于中心点的选取，在 k-means 中，我们将中心点取为当前 cluster 中所有数据点的平均值，而在 k-medoids 中，我们将中心点的选取限制在当前 cluster 所包含的数据点的集合中。即我们将从当前 cluster 中选取这样一个点——它到其他所有（当前 cluster 中的）点的距离之和最小——作为中心点。 k-medoids 对数据的要求比 k-means 要低。

（2）基于模型的聚类算法：对于每个类假定一个分布模型，试图找到每个类最好的模型。该方法主要分为基于概率模型的方法和基于神经网络模型的方法。

概率模型主要指概率生成模型（generative Model），同一”类“的数据属于同一种概率分布，这种方法的优点就是对”类“的划分不那么”坚硬“，而是以概率形式表现，每一类的特征也可以用参数来表达；但缺点就是执行效率不高，特别是分布数量很多并且数据量很少的时候。其中最典型、也最常用的方法就是高斯混合模型（GMM），GMM和k-means很像，不过GMM是学习出一些概率密度函数来，简单地说，k-means的结果是每个数据点被分配到其中某一个cluster了，而GMM则给出这些数据点被分配到每个cluster的概率，又称作 soft assignment 。

基于神经网络模型的方法主要指SOM（Self Organized Maps）。

（3）降维算法: 先降维，再聚类

典型算法：Spectral clustering，Ncut

（4）基于层次聚类算法（hierarchical method）：对给定的数据对象集合进行层次的分解，根据层次的形成方法，又可以分为凝聚和分裂方法两大类；层次聚类的关键是度量相似性，常用的就是欧式距离（向量对应分量差的组合）和绝对值距离（向量间距离）。

典型算法：BIRCH、CURE、ROCK、CHEMALOEN等。

（5）基于密度聚类算法：根据领域对象的密度或者某种密度函数来生成聚类，使得每个类在给定范围的区域内必须至少包含一定数目的点；

典型算法：DBSCAN、OPTICS

（6）基于网格的聚类算法：将对象空间量化为有限数目的单元，形成一个网格结构，使所有聚类操作都在这个网格结构上进行，使聚类速度得到较大提高；

典型算法：STING、CLIQUE

聚类clustering的更多相关文章

Stanford机器学习笔记-9. 聚类(Clustering)
9. Clustering Content 9. Clustering 9.1 Supervised Learning and Unsupervised Learning 9.2 K-means al ...
sklearn：聚类clustering
http://blog.csdn.net/pipisorry/article/details/53185758 不同聚类效果比较 sklearn不同聚类示例比较 A comparison of the ...
机器学习课程-第8周-聚类(Clustering)—K-Mean算法
1. 聚类(Clustering) 1.1 无监督学习: 简介在一个典型的监督学习中,我们有一个有标签的训练集,我们的目标是找到能够区分正样本和负样本的决策边界,在这里的监督学习中,我们有一系列标签 ...
机器学习之&&Andrew Ng课程复习--- 聚类——Clustering
第十三章.聚类--Clustering ******************************************************************************** ...
[C8] 聚类(Clustering)
聚类(Clustering) 非监督学习:简介(Unsupervised Learning: Introduction) 本章节介绍聚类算法,这是我们学习的第一个非监督学习算法--学习无标签数据,而不 ...
机器学习（九）-------- 聚类(Clustering) K-均值算法 K-Means
无监督学习没有标签聚类(Clustering) 图上的数据看起来可以分成两个分开的点集(称为簇),这就是为聚类算法. 此后我们还将提到其他类型的非监督学习算法,它们可以为我们找到其他类型的结构或者 ...
机器学习-聚类(clustering)算法：K-means算法
1. 归类: 聚类(clustering):属于非监督学习(unsupervised learning) 无类别标记(class label) 2. 举例: 3. Kmeans算法 3.1 clust ...
海量数据挖掘MMDS week5: 聚类clustering
http://blog.csdn.net/pipisorry/article/details/49427989 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Le ...
[综]聚类Clustering
Annie19921223的博客 [转载]用MATLAB做聚类分析 http://blog.sina.com.cn/s/blog_9f8cf10d0101f60p.html Free Mind 漫谈 ...

随机推荐

51CTO专访淘宝清无：漫谈Nginx服务器与Lua语言
http://os.51cto.com/art/201112/307610.htm 说到Web服务器,也许你第一时间会想到Apache,也许你会想到Nginx.虽然说Apache依然是Web服务器的老 ...
js接受url参数
1.正则表达式 function getQueryString(name) { var reg = new RegExp("(^|&)" + name + "=( ...
paper 106：图像增强方面的介绍
图像增强是从像素到像素的操作,是以预定的方式改变图像的灰度直方图.有时又称为对比度增强,灰度变换.点运算不可能改变图像内的空间关系,输出像素的灰度值由输入像素的值决定.其作用: 对比度增强:扩展感兴趣 ...
Repeater控件三层嵌套-内层Repeater添加绑定事件
用Repeater三层嵌套,最外层Repeater可以生成自己的ItemCommand事件.但接下来中间层因为是嵌套了的,所以无法在属性窗口中生成自己的事件.如果手动敲入则无效. 解决办法是需要通过编 ...
ECMAScript 6教程 (一)
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,博客地址为 http://www.cnblogs.com/jasonnode/ .该系列课程是 ...
在win 7 vs2013下 web 调试出现“ iis Express Worker Process 已停止工作”错误
在win 7 vs2013下 web 调试出现“ iis Express Worker Process 已停止工作”错误: 如下图: 最终解决方案如下: 用管理员身份运行CMD,输入netsh ...
HDU 4770 Lights Against DudelyLights
Lights Against Dudely Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Ot ...
s3c2440 移值u-boot-2016.03 第3篇支持Nor flash 识别
当选择,NOR flash 启用时,才可以访问 NOR FLASH ./common/board_r.c 364 line:initr_flash()flash_size = flash_init() ...
SQL学习指南 ——笔记
前言:每章的练习题很实用,跟着练了一遍.答案附录有 1.流行的商业级关系数据库:
android开源项目总汇
http://www.cnblogs.com/wanqieddy/p/3709466.html

聚类clustering

聚类clustering的更多相关文章

随机推荐

热门专题