--------------------------------

不管是GMM，还是k-means，都面临一个问题，就是k的个数如何选取？比如在bag-of-words模型中，用k-means训练码书，那么应该选取多少个码字呢？为了不在这个参数的选取上花费太多时间，可以考虑层次聚类。

假设有N个待聚类的样本，对于层次聚类来说，基本步骤就是：

1、（初始化）把每个样本归为一类，计算每两个类之间的距离，也就是样本与样本之间的相似度；

2、寻找各个类之间最近的两个类，把他们归为一类（这样类的总数就少了一个）；

3、重新计算新生成的这个类与各个旧类之间的相似度；

4、重复2和3直到所有样本点都归为一类，结束。

整个聚类过程其实是建立了一棵树，在建立的过程中，可以通过在第二步上设置一个阈值，当最近的两个类的距离大于这个阈值，则认为迭代可以终止。另外关键的一步就是第三步，如何判断两个类之间的相似度有不少种方法。这里介绍一下三种：

SingleLinkage：又叫做 nearest-neighbor ，就是取两个类中距离最近的两个样本的距离作为这两个集合的距离，也就是说，最近两个样本之间的距离越小，这两个类之间的相似度就越大。容易造成一种叫做 Chaining 的效果，两个 cluster 明明从“大局”上离得比较远，但是由于其中个别的点距离比较近就被合并了，并且这样合并之后 Chaining 效应会进一步扩大，最后会得到比较松散的 cluster 。

CompleteLinkage：这个则完全是 Single Linkage 的反面极端，取两个集合中距离最远的两个点的距离作为两个集合的距离。其效果也是刚好相反的，限制非常大，两个 cluster 即使已经很接近了，但是只要有不配合的点存在，就顽固到底，老死不相合并，也是不太好的办法。这两种相似度的定义方法的共同问题就是指考虑了某个有特点的数据，而没有考虑类内数据的整体特点。

Average-linkage：这种方法就是把两个集合中的点两两的距离全部放在一起求一个平均值，相对也能得到合适一点的结果。

average-linkage的一个变种就是取两两距离的中值，与取均值相比更加能够解除个别偏离样本对结果的干扰。

这种聚类的方法叫做agglomerative hierarchical clustering（自下而上，@2013.11.20 之前把它写成自顶而下了，我又误人子弟了。感谢4楼的网友指正）的，描述起来比较简单，但是计算复杂度比较高，为了寻找距离最近/远和均值，都需要对所有的距离计算个遍，需要用到双重循环。另外从算法中可以看出，每次迭代都只能合并两个子类，这是非常慢的。尽管这么算起来时间复杂度比较高，但还是有不少地方用到了这种聚类方法，在《数学之美》一书的第14章介绍新闻分类的时候，就用到了自顶向下的聚类方法。

是这样的，谷歌02年推出了新闻自动分类的服务，它完全由计算机整理收集各个网站的新闻内容，并自动进行分类。新闻的分类中提取的特征是主要是词频因为对不同主题的新闻来说，各种词出现的频率是不一样的，比如科技报道类的新闻很可能出现的词就是安卓、平板、双核之类的，而军事类的新闻则更可能出现钓鱼岛、航母、歼15、歼20这类词汇。一般对每篇文章提取TF-IDF(词频-逆文本频率值)特征，组成一个高维的特征向量（每一维表示一个词出现的TF-IDF值），然后采用监督学习或者非监督学习的方法对新闻进行分类。在已知一些新闻类别的特征的情况下，采用监督学习的方法是很OK的。但是在未知的情况下，就采用这种agglomerative hierarchical clustering进行自动分类。这种分类方法的动机很有意思。1998年雅让斯基是某个国际会议的程序委员会主席，需要把提交上来的几百篇论文发给各个专家去评审是否录用。虽然论文的作者自己给定了论文的方向，但方向还是太广，没有什么指导意义。雅让斯基就想到了这个将论文自动分类的方法，由他的学生费罗里安很快实现了。

另外有一种聚类方法叫做divisive hierarchical clustering（自顶而下），过程恰好是相反的，一开始把所有的样本都归为一类，然后逐步将他们划分为更小的单元，直到最后每个样本都成为一类。在这个迭代的过程中通过对划分过程中定义一个松散度，当松散度最小的那个类的结果都小于一个阈值，则认为划分可以终止。这种方法用的不普遍，原文也没有做更多介绍。

由于这种层次结构，普通的k-means也被称为一种flat clustering。

add@2013.9.11

层次聚类如何使用呢，借助matlab就可以实现了，十分简单。首先需要构造距离矩阵Y。这是一个对称矩阵，且对角线元素为0（自己与自己的距离为0）。假设所有样本保存为X，则通过：

Y=pdist(X);
Y=squareform(Y);

就能够得到距离矩阵。注意pdist可以选择距离度量的方法，例如欧式距离，内积或者余弦夹角。在很多时候这个参数十分重要。

然后通过Z=linkage(Y)就能产生层次聚类的树结构了。

Z=linkage(Y)；

Z的结果描述起来需要借助实际的例子，大家可以通过matlab help查看，并结合实际结果领悟一下。这棵树可以通过以下指令可视化：

dendrogram(Z)

这样就完成了一次层次聚类了

如何看SPSS的聚类分析的树状图

我在此举个例子，有下面这样的一个树状图
现在我们开始看，从右往左看，开始出现了2条横线，在此竖着切一刀，每一条线的左侧为1类，这样我们把样本划分为2类。

第一类：中国

第二类：其他国家或者地区
继续往左走，在出现第三条横线的时候，竖着切一刀，这样我们就把样本划分为3类。

第一类：中国

第二类：日本和菲律宾

第三类：其他
同理，在继续往左走，竖着切，下面我们将样本分为5类。

第一类：中国

第二类：日本

第三类：菲律宾

第四类：中国香港和中国台湾

第五类：其他
5

你可以一直往左分，一直到1个样本一个群，看你自己的需求，分多少类，你自己做主。

层次聚类 Hierarchical Clustering的更多相关文章

机器学习(6): 层次聚类 hierarchical clustering
假设有N个待聚类的样本,对于层次聚类来说,步骤: 1.(初始化)把每个样本归为一类,计算每两个类之间的距离,也就是样本与样本之间的相似度: 2.寻找各个类之间最近的两个类, ...
Python-层次聚类-Hierarchical clustering
层次聚类关键方法#coding:UTF-8#Hierarchical clustering 层次聚类from E_distance import Euclidean_distance from yez ...
32(1).层次聚类---AGNES
层次聚类hierarchical clustering 试图在不同层次上对数据集进行划分,从而形成树形的聚类结构. 一. AGNES AGglomerative NESting:AGNES是一种常用的 ...
python实现一个层次聚类方法
层次聚类(Hierarchical Clustering) 一.概念层次聚类不需要指定聚类的数目,首先它是将数据中的每个实例看作一个类,然后将最相似的两个类合并,该过程迭代计算只到剩下一个类为止,类 ...
2.交通聚类 -层次聚类（agnes）Java实现
1.项目背景在做交通路线分析的时候,客户需要找出车辆的行车规律,我们将车辆每天的行车路线当做一个数据样本,总共有365天或是更多,从这些数据中通过聚类来获得行车路线规律统计分析. 我首先想到是K-m ...
各类聚类（clustering）算法初探
1. 聚类简介 0x1:聚类是什么? 聚类是一种运用广泛的探索性数据分析技术,人们对数据产生的第一直觉往往是通过对数据进行有意义的分组.很自然,首先要弄清楚聚类是什么? 直观上讲,聚类是将对象进行分组 ...
Python爬虫技术(从网页获取图片)+HierarchicalClustering层次聚类算法，实现自动从网页获取图片然后根据图片色调自动分类—Jason niu
网上教程太啰嗦,本人最讨厌一大堆没用的废话,直接上,就是干! 网络爬虫?非监督学习? 只有两步,只有两个步骤? Are you kidding me? Are you ok? 来吧,follow me ...
聚类：层次聚类、基于划分的聚类（k-means）、基于密度的聚类、基于模型的聚类
一.层次聚类 1.层次聚类的原理及分类 1)层次法(Hierarchicalmethods)先计算样本之间的距离.每次将距离最近的点合并到同一个类.然后,再计算类与类之间的距离,将距离最近的类合并为一 ...
【转】使用scipy进行层次聚类和k-means聚类
scipy cluster库简介 scipy.cluster是scipy下的一个做聚类的package, 共包含了两类聚类方法: 1. 矢量量化(scipy.cluster.vq):支持vector ...

随机推荐

Thinkphp分布式数据库连接代码分析
Thinkphp作为国内的一款流行框架,相信使用的人一定不在少数.本篇我们来分析一下Thinkphp中比较重要的一部分——分布式数据库的连接. 当然了,我们在这里不是去将如何使用模型去对数据库进行增删 ...
vue在生产环境清除console.log
在开发环境中我们喜欢用console.log测试代码,但是部署到生产环境我们不可能一个一个把console.log给手动删除了. 在build/webpack.prod.conf.js文件里加上这样一 ...
Python3之turtle模块的使用
Python3之turtle模块的使用直接扣代码就行: import turtle as t t.pensize(4) t.hideturtle() t.colormode(255) t.c ...
洛谷P2398 GCD SUM [数论，欧拉筛]
题目传送门 GCD SUM 题目描述 for i=1 to n for j=1 to n sum+=gcd(i,j) 给出n求sum. gcd(x,y)表示x,y的最大公约数. 输入输出格式输入格式 ...
001.KVM介绍
KVM介绍可参考: http://liqingbiao.blog.51cto.com/3044896/1740516 http://koumm.blog.51cto.com/703525/128879 ...
002.LVM创建
一 LVM创建步骤创建分区创建PV 创建VG 创建LV 格式化及挂载二创建分区使用分区工具(如fdisk等)创建LVM分区,却将分区标识为LVM的分区类型8e. [root@kauai ~] ...
重读redux源码(一)
前言对于react技术栈的前端同学来说,redux应该是相对熟悉的.其代码之精简和设计之巧妙,一直为大家所推崇.此外redux的注释简直完美,阅读起来比较省事.原本也是强行读了通源码,现在也忘得差不 ...
Odoo访问权限（一）
Odoo访问权限(一) 四个ODOO权限管理层次一. Odoo 菜单级别: 即,不属于指定菜单所包含组的用户看不到该菜单.不安全,只是隐藏菜单,若用户知道菜单ID,仍然可以通过指定URL访问二. ...
oracle 编码
select * from nls_database_parameters where parameter ='NLS_CHARACTERSET'; PARAMETER VALUE --------- ...
【NOIP复习】最短路总结
[模板] /*堆优化Dijkstra*/ void dijkstra() { priority_queue<pair<ll,int>,vector<pair<ll,int ...

层次聚类 Hierarchical Clustering

--------------------------------

层次聚类 Hierarchical Clustering的更多相关文章

随机推荐

热门专题