参考:

2.3. Clustering

2.4. Biclustering

2.1.2.3. The Dirichlet Process

Clusering, GMM, Variational Inference, The Dirchlet Process 这是一个学习渐进的过程，那么，就先从聚类开始。

K-means

那么计算机要如何来完成这个任务呢？当然，计算机还没有高级到能够“通过形状大致看出来”，不过，对于这样的 N 维欧氏空间中的点进行聚类，有一个非常简单的经典算法，也就是本文标题中提到的 k-means 。

在介绍 k-means 的具体步骤之前，让我们先来看看它对于需要进行聚类的数据的一个基本假设吧：对于每一个 cluster ，我们可以选出一个中心点 (center) ，使得该 cluster 中的所有的点到该中心点的距离小于到其他 cluster 的中心的距离。虽然实际情况中得到的数据并不能保证总是满足这样的约束，但这通常已经是我们所能达到的最好的结果，而那些误差通常是固有存在的或者问题本身的不可分性造成的。例如下图所示的两个高斯分布，从两个分布中随机地抽取一些数据点出来，混杂到一起，现在要让你将这些混杂在一起的数据点按照它们被生成的那个分布分开来：

【这里的图例对理解很有帮助】

由于这两个分布本身有很大一部分重叠在一起了，例如，对于数据点 2.5 来说，它由两个分布产生的概率都是相等的，你所做的只能是一个猜测；稍微好一点的情况是 2 ，通常我们会将它归类为左边的那个分布，因为概率大一些，

然而此时它由右边的分布生成的概率仍然是比较大的，我们仍然有不小的几率会猜错。

而整个阴影部分是我们所能达到的最小的猜错的概率，这来自于问题本身的不可分性，无法避免。因此，我们将 k-means 所依赖的这个假设看作是合理的。

基于这样一个假设，我们再来导出 k-means 所要优化的目标函数：设我们一共有 N 个数据点需要分为 K 个 cluster ，k-means 要做的就是最小化

这个函数，其中在数据点 n 被归类到 cluster k 的时候为 1 ，否则为 0 。直接寻找和来最小化并不容易，不过我们可以采取迭代的办法：先固定，选择最优的，很容易看出，只要将数据点归类到离他最近的那个中心就能保证最小。下一步则固定，再求最优的。将对求导并令导数等于零，很容易得到最小的时候应该满足：

亦即的值应当是所有 cluster k 中的数据点的平均值。【这里很像GMM的PI值】

由于每一次迭代都是取到的最小值，因此只会不断地减小（或者不变），而不会增加，这保证了 k-means 最终会到达一个极小值。虽然 k-means 并不能保证总是能得到全局最优解，但是对于这样的问题，像 k-means 这种复杂度的算法，这样的结果已经是很不错的了。

下面我们来总结一下 k-means 算法的具体步骤：【算法】

1. 选定 K 个中心的初值。这个过程通常是针对具体的问题有一些启发式的选取方法，或者大多数情况下采用随机选取的办法。因为前面说过 k-means 并不能保证全局最优，而是否能收敛到全局最优解其实和初值的选取有很大的关系，所以有时候我们会多次选取初值跑 k-means ，并取其中最好的一次结果。
2. 将每个数据点归类到离它最近的那个中心点所代表的 cluster 中。
3. 用公式计算出每个 cluster 的新的中心点。
4. 重复第二步，一直到迭代了最大的步数或者前后的的值相差小于一个阈值为止。

短板，弊端，无能为力之处：

然而并不是所有的数据都能满足这样的要求，对于数值类型的特征，比如身高，可以很自然地用这样的方式来处理，但是类别 (categorical) 类型的特征就不行了。举一个简单的例子，如果我现在要对犬进行聚类，并且希望直接在所有犬组成的空间中进行，k-means 就无能为力了，因为欧氏距离在这里不能用了：一只 Samoyed 减去一只 Rough Collie 然后在平方一下？天知道那是什么！再加上一只 German Shepherd Dog 然后求一下平均值？根本没法算，k-means 在这里寸步难行！

k-medoids

并且我们已经证明在固定了各个数据点的 assignment 的情况下，这样选取的中心点能够把目标函数最小化。然而在 k-medoids 中，我们将中心点的选取限制在当前 cluster 所包含的数据点的集合中。

换句话说，在 k-medoids 算法中，我们将从当前 cluster 中选取这样一个点——它到其他所有（当前 cluster 中的）点的距离之和最小——作为中心点。

【理解小助手】

k-means 和 k-medoids 之间的差异就类似于一个数据样本的均值 (mean) 和中位数 (median) 之间的差异：前者的取值范围可以是连续空间中的任意值，而后者只能在给样本给定的那些点里面选。那么，这样做的好处是什么呢？
一个最直接的理由就是 k-means 对数据的要求太高了，它使用欧氏距离描述数据点之间的差异 (dissimilarity) ，从而可以直接通过求均值来计算中心点。这要求数据点处在一个欧氏空间之中。

时间复杂度

从 k-means 变到 k-medoids ，时间复杂度陡然增加了许多：在 k-means 中只要求一个平均值即可，而在 k-medoids 中则需要枚举每个点，并求出它到所有其他点的距离之和，复杂度为。

对相似度的定义

在 k-medoids 中，我们把原来的目标函数中的欧氏距离改为一个任意的 dissimilarity measure 函数：

最常见的方式是构造一个 dissimilarity matrix 来代表，其中的元素表示第只狗和第只狗之间的差异程度，例如，两只 Samoyed 之间的差异可以设为 0 ，一只 German Shepherd Dog 和一只 Rough Collie 之间的差异是 0.7，和一只 Miniature Schnauzer 之间的差异是 1 ，等等。

K-Means	K-Medoids
初始据点随机选取	初始随机据点限定在样本点中
使用Means（均值）作为聚点，对outliers（极值）很敏感	使用Medoids(中位数)作为聚点
对数据要求高，要求数据点处于欧式空间中	可适用类别（categorical）类型的特征——（4）
时间复杂度：O(nkt)，t为迭代次数	时间复杂度：O(n^2 kt)，t为迭代次数——（4）
K-Means 算法对小规模数据集较高效	K-Medoids算法对大规模数据性能更好，但伸缩性较差——（3）
都有可能陷入局部最优解的困境之中
K的含义相同,都需要开始人为设定簇数目
都是无监督算法

References：

1. Velmurugan T. Efficiency of K-Means and K-Medoids algorithms for clustering arbitrary data points[J]. International Journal of Computer Technology & Applications, 2012, 3(5): 1758-64.
2. Arbin N, Mokhtar N Z, Suhaimi N S, et al. Comparative Analysis between K-Means and K-Medoids for Statistical Clustering[J].
3. Velmurugan T, Santhanam T. Computational complexity between K-means and K-medoids clustering algorithms for normal and uniform distributions of data points[J]. Journal of computer science, 2010, 6(3): 363.
4. http://blog.pluskid.org/?p=40
5. https://www.youtube.com/watch?v=u1NtKPuXQKo

Vector Quantization by k-means

实际做法就是：

将每个像素点当作一个数据，跑一下 K-means ，得到 k 个 centroids。
然后用这些 centroids 的像素值来代替对应的 cluster 里的所有点的像素值。
对于彩色图片来说，也可以用同样的方法来做，例如 RGB 三色的图片，每一个像素被当作是一个 3 维向量空间中的点。

【一种容易理解的压缩算法】

[Scikit-learn] 2.3 Clustering - kmeans的更多相关文章

Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）
scikit learn 模块调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
(原创)（三）机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价模型训练好后,度量模型拟合效果的 ...
(原创)（四）机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
Scikit Learn
Scikit Learn Scikit-Learn简称sklearn,基于 Python 语言的,简单高效的数据挖掘和数据分析工具,建立在 NumPy,SciPy 和 matplotlib 上.
K-means clustering (K-means聚类)
问题: K-所有值聚类是无监督学习算法设数据集.当中,. 如果这个数据能够分为类. 把这个问题模型化: , 当中代表第类的聚点(中心点.均值). 该模型能够用EM算法进行训练: 初始化,. E步:固 ...
机器学习-scikit learn学习笔记
scikit-learn官网:http://scikit-learn.org/stable/ 通常情况下,一个学习问题会包含一组学习样本数据,计算机通过对样本数据的学习,尝试对未知数据进行预测. 学习 ...
Linear Regression with Scikit Learn
Before you read This is a demo or practice about how to use Simple-Linear-Regression in scikit-lear ...
如何使用scikit—learn处理文本数据
答案在这里:http://www.tuicool.com/articles/U3uiiu http://scikit-learn.org/stable/modules/feature_extracti ...

随机推荐

Linux 02 Linux基本概念及操作
基本echo "hello word" 输出 hello wordtouch file 创建文件名为file 常用快捷键TAB:在忘记命令时,可以用来补全命令Ct ...
markdown在typora的超方便的应用
经常性需要进行文字的编写,但是使用word比较麻烦,而excel又不方便自己的工作实际实用,特此有一款软件支持我的应用,typora软件,让人使用的无法自拨. typora是基于markdown的来应 ...
用js刷剑指offer(数值的整数次方)
题目描述给定一个double类型的浮点数base和int类型的整数exponent.求base的exponent次方. 保证base和exponent不同时为0 牛客网链接思路快速幂算法,举个例 ...
导弹拦截( 二分+dilworth定理）
https://www.luogu.org/problemnew/show/P1020 原题接下来是dilworth定理 https://blog.csdn.net/u011676717/artic ...
Lua 学习之基础篇八<Lua 元表(Metatabble)&&继承>
讲到元表,先看一段table的合并动作. t1 = {1,2} t2 = {3,4} t3 = t1 + t2 attempt to perform arithmetic on a table val ...
django.db.utils.OperationalError: (1050, "Table 'article_category' already exists")
(转自:https://blog.csdn.net/huanhuanq1209/article/details/77884014) 执行manage.py makemigrations 未提示错误信息 ...
Mysql建表+创建索引
创建表时可以直接创建索引,这种方式最简单.方便.其基本形式如下: CREATE TABLE 表名( 属性名数据类型[完整性约束条件], 属性名数据类型[完整性约束条件], ...... 属性名数 ...
Active Directory 常用属性
1.获取DirectoryEntry string str = string.Empty; string strPath = @LDAP://testDomain.com.mo; string ad ...
Emacs：十六进制模式下跳转到特定地址
造冰箱的大熊猫@cnblogs 2019/9/18 Emacs提供的十六进制模式(M-x hexl-mode)以十六进制格式显示文件内容,对于分析图像等二进制数据文件非常方便.在此模式下,我们可以使用 ...
洛谷P1860 新魔法药水
洛谷题目链接动态规划: 这个题目调了我好久....结果循环变量写错了... 而且题目有个坑!!!只能用开始给你的$v$元买入东西回归正题: 我们定义状态$ans[i][j]$表示第$i$个物品用了 ...

[Scikit-learn] 2.3 Clustering - kmeans

K-means

k-medoids

Vector Quantization by k-means

[Scikit-learn] 2.3 Clustering - kmeans的更多相关文章

随机推荐

热门专题