unsupervised learning: K-means 算法

k-means算法是目前最流行的，用得最多的一种clustering算法

K-means算法

如果我们想要将上图中的绿色的点分为两类，首先随机的选取两个cluster centroids(聚类中心)，然后迭代(循环)地做两件事：cluster assignment和move centroids(图1)

cluster assignment: 然后将训练集中的每个样本，根据是距离红色的cluster centroid近还是蓝色的cluster centroid近来进行分配cluster.(图2)

move centroids:然后将所有红色的点的位置计算出平均值做为新的cluster centroid,同样所有的蓝色的点的位置计算出平均值做为新的cluster centroid.(图3)

cluster assignment:根据新的cluster centroids来重新分配（根据距离远近）每个样本的cluster,即对每个样本重新进行染色(图4)

move centroids:重新分配clusters后，再计算每个cluster的平均值做为新的cluster centroids.(图5)

我们继续进行迭代，发现cluster centroids和分配的cluster不再变化了，意味着k-means算法收敛了，即在这个数据中发现两个cluster这个工作结束了

K-means算法formally

输入：K为我们希望将数据集分为K个clusters(以后会讲如何选择K)，现在K做为输入为需要将data分为的cluster的个数。

training set(没有y值，因为为非监督学习)

x⁽ⁱ⁾为n维，而不是n+1维，不用加上x₀=1

cluster assignment step: 对于training data中的第一个点，计算c⁽ⁱ⁾(对每个样本进行染色)为距离最近的那个cluster centroid的下标值(1-K),注意u_k中的k为小写，指的是centroid的下标,Kcluster centroids为大写，表示总共有K个cluster.通常我们喜欢用距离的平方来求最小值.

move centroid step: 重新计算每个cluster的cluster centroid(根据染色后的平均值)

如果某个cluster centroid没有一个点分配给它，那么怎么办呢？通常情况下，我们是将这个cluster centroid给移除掉,这样就会得到K-1个clusters；如果就是要K个clusters，怎么办呢？办法是重新找一个cluster centroid.但是将这个cluster centroid给移除掉这种方法更常使用。

K-means在不能明显区分的clusters上的应用

左边图为k-means在明显分为三个clusters上的数据集上的应用。

K-means也可以应用在如右图所示的那样，数据集看上去是没有明显的cluster的区分的。这是一个T-shirt size的例子，如你想要设计三种大小(S,M,L)的T-shirt,但是不知道每种大小应设计为多大，这时我们将要穿我们T-shirt的人的身高体重（这些是影响T-shirt大小的主要因素）做个统计，如左图所示，然后应用K-means算法将这些数据分为三个cluster,然后分别针对每个cluster来设计不同size的衣服的大小。=>市场细分的例子,使用K-means将我的市场划分为三部分，这样就能区别对待三类不同的顾客群体，更好地适应他们不同的需求（如S,M,L不同size的衣服那样）

总结

先随机选取cluster centroids(聚类中心)
对每个样本点进行cluster assignment step（染色）
move centroid step:根据染色后的结果，再重新计算新的cluster centroids(聚类中心)
重复以上2,3步骤，直到收敛（cluster centroids与染色结果不再改变）

unsupervised learning: K-means 算法的更多相关文章

KNN 与 K - Means 算法比较
KNN K-Means 1.分类算法聚类算法 2.监督学习非监督学习 3.数据类型:喂给它的数据集是带label的数据,已经是完全正确的数据喂给它的数据集是无label的数据,是杂乱无章的,经过 ...
K－means算法
K-means算法很简单,它属于无监督学习算法中的聚类算法中的一种方法吧,利用欧式距离进行聚合啦. 解决的问题如图所示哈:有一堆没有标签的训练样本,并且它们可以潜在地分为K类,我们怎么把它们划分呢? ...
机器学习（Machine Learning）算法总结-K临近算法
一.算法详解 1.什么是K临近算法 Cover 和 Hart在1968年提出了最初的临近算法属于分类(classification)算法邻近算法,或者说K最近邻(kNN,k-NearestNeig ...
Machine Learning Algorithms Study Notes(4)—无监督学习（unsupervised learning）
1 Unsupervised Learning 1.1 k-means clustering algorithm 1.1.1 算法思想 1.1.2 k-means的不足之处 1 ...
Coursera 机器学习第8章（上） Unsupervised Learning 学习笔记
8 Unsupervised Learning8.1 Clustering8.1.1 Unsupervised Learning: Introduction集群(聚类)的概念.什么是无监督学习:对于无 ...
无监督学习(Unsupervised Learning)
无监督学习(Unsupervised Learning) 聚类无监督学习特点只给出了样本, 但是没有提供标签通过无监督学习算法给出的样本分成几个族(cluster), 分出来的类别不是我们自己规 ...
【Machine Learning】KNN算法虹膜图片识别
K-近邻算法虹膜图片识别实战作者:白宁超 2017年1月3日18:26:33 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...
[笔记]Learning to Rank算法介绍：RankNet，LambdaRank，LambdaMart
之前的博客:http://www.cnblogs.com/bentuwuying/p/6681943.html中简单介绍了Learning to Rank的基本原理,也讲到了Learning to R ...
[机器学习] k近邻算法
算是机器学习中最简单的算法了,顾名思义是看k个近邻的类别,测试点的类别判断为k近邻里某一类点最多的,少数服从多数,要点摘录: 1. 关键参数:k值 && 距离计算方式 &&am ...
Unsupervised learning无监督学习
Unsupervised learning allows us to approach problems with little or no idea what our results should ...

随机推荐

Docker虚拟化
1. Docker虚拟化特点跟传统VM比较具有如下优点: 操作启动快运行时的性能可以获取极大提升,管理操作(启动,停止,开始,重启等等) 都是以秒或毫秒为单位的. 轻量级虚拟化你会拥有足够的“操 ...
【转】Fuel 9.0安装Openstack网络验证失败解决
原文链接:https://blog.csdn.net/wiborgite/article/details/52983575 故障现象: 网络验证失败,报错信息如下: Repo availability ...
@Component和@Configuration作为配置类的差别
https://blog.csdn.net/long476964/article/details/80626930 虽然Component注解也会当做配置类,但是并不会为其生成CGLIB代理Class ...
js获取日期时间
获取当前时间 function getNowFormatDate() {//获取当前时间 var date = new Date(); var symbol_gang = "-"; ...
C 风格字符串、string 类要点总结
1. C风格字符串 1.1 其它头文件<cstring> 特殊性质:C风格字符串以空字符\0结尾 1.2 读取一行的区别 1.2.1 cin.getline(array1,n,char) ...
c++修改打印机名称
public static bool SetPrinterName(string OldName, string newName) { IntPtr hPrinter; PrintAPI.struct ...
Fully Convolutional Networks for Semantic Segmentation 译文
Fully Convolutional Networks for Semantic Segmentation 译文 Abstract Convolutional networks are powe ...
leetcode两数相加
题目描述:给出两个非空的链表用来表示两个非负的整数.其中,它们各自的位数是按照逆序的方式存储的,并且它们的每个节点只能存储一位数字. 如果,我们将这两个数相加起来,则会返回一个新的链表来表 ...
【LEETCODE】53、数组分类，简单级别，题目：989、674、1018、724、840、747
真的感觉有点难... 这还是简单级别... 我也是醉了 package y2019.Algorithm.array; import java.math.BigDecimal; import java. ...
Mybatis @ResultMap复用@Result
@ResultMap复用@Result: 可以简写成:@ResultMap("userMap")

unsupervised learning: K-means 算法

unsupervised learning: K-means 算法的更多相关文章

随机推荐

热门专题