K-means算法简介

simplelovecs 2024-10-09 22:37:57 原文

　　K-means 算法是无监督的聚类算法，算法简单，有效。

K-means算法：

输入参数：

　　指定聚类数目 k，训练集 X

输出：

　　k 个聚类

算法描述：

　　K-means 算法是一个迭代算法，每次迭代分成两个步骤：

　　　　1）指定聚类步骤：

　　　　　　计算每个样本到 k 个聚类中心的距离，将样本归类到距离聚类中心最小的那个类别

　　　　2）移动聚类中心步骤：

　　　　　　根据每个聚类所拥有的样本点，重新计算每个聚类的中心

伪代码描述：

　　随机初始化 k 个聚类的中心 u(1), u(2)... u(k)

　　repeat {

　　　　for i = 1 to m # 假设有m 个样本

　　　　　　c(i) = 聚类中心离 X(i) 最近的那个聚类的下标索引 #（1,2... k）

　　　　for i = 1 to k # k 个类别

　　　　　　u(i) = 属于 i 聚类所有点的平均值，即中心　　

　　}

　　注意：停止条件可以自己设定，比如归类不再发生变化，或者最多 N次迭代等

K-means算法 = 优化问题：

　　K-means的优化目标：

　　　　J（c(1), c(2)...c(m), u(1), u(2)...u(k)） = 1/2 * sum( ||x(i) - uc(i) || ^2）

　　　　min J

　　对应到算法：

　　　　1）指定聚类步骤时，保持聚类中心不变，通过改变每个样本所属聚类来最小化 J；

　　　　2）移动聚类中心步骤时，通过移动调整聚类中心来最小化 J。

　　　　

K-means算法存在问题：

　　往往K-means算法的解空间存在多个满足 J 局部最小值，因此K-means算法得到的解，很有可能只是满足 J 局部最小的那个解，而不是全局最小的那个解。

一种避免方案：

　　运行 K-means 算法 n 次，比如 n = 100 次，每次都是随机初始化 k 个聚类中心，然后迭代最后收敛得到 k 个聚类。

　　最后，依此计算这 n 次 J 值，选择 J 值最小那次得到的 k 个聚类

如何选择 k？：

　　计算 J 随着 k 数目变化而如何变化，k = 1, 2 ..

　　如果选择的 k 是发生比较明显转折的那个点，就叫做 elbow method

K-means算法简介的更多相关文章

李航统计学习方法(第二版)（五）：k 近邻算法简介
1 简介 k近邻法的输入为实例的特征向量,对应于特征空间的点;输出为实例的类别,可以取多类.k近邻法假设给定一个训练数据集,其中的实例类别已定.分类时,对新的实例,根据其k个最近邻的训练实例的类别,通 ...
KNN 与 K - Means 算法比较
KNN K-Means 1.分类算法聚类算法 2.监督学习非监督学习 3.数据类型:喂给它的数据集是带label的数据,已经是完全正确的数据喂给它的数据集是无label的数据,是杂乱无章的,经过 ...
K－means算法
K-means算法很简单,它属于无监督学习算法中的聚类算法中的一种方法吧,利用欧式距离进行聚合啦. 解决的问题如图所示哈:有一堆没有标签的训练样本,并且它们可以潜在地分为K类,我们怎么把它们划分呢? ...
排列熵算法简介及c#实现
一. 排列熵算法简介: 排列熵算法(Permutation Entroy)为度量时间序列复杂性的一种方法,算法描述如下: 设一维时间序列: 采用相空间重构延迟坐标法对X中任一元素x(i)进行相空间 ...
机器学习——KNN算法（k近邻算法）
一 KNN算法 1. KNN算法简介 KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分 ...
【算法】K最近邻算法（K-NEAREST NEIGHBOURS，KNN）
K最近邻算法(k-nearest neighbours,KNN) 算法对一个元素进行分类查看它k个最近的邻居在这些邻居中,哪个种类多,这个元素有更大概率是这个种类使用使用KNN来做两项基本工 ...
<转>从K近邻算法、距离度量谈到KD树、SIFT+BBF算法
转自 http://blog.csdn.net/likika2012/article/details/39619687 前两日,在微博上说:“到今天为止,我至少亏欠了3篇文章待写:1.KD树:2.神经 ...
《算法图解》——第十章 K最近邻算法
第十章 K最近邻算法 1 K最近邻(k-nearest neighbours,KNN)——水果分类 2 创建推荐系统利用相似的用户相距较近,但如何确定两位用户的相似程度呢? ①特征抽取对水果 ...
PageRank 算法简介
有两篇文章一篇讲解(下面copy)< PageRank算法简介及Map-Reduce实现>来源:http://www.cnblogs.com/fengfenggirl/p/pagerank ...
从K近邻算法、距离度量谈到KD树、SIFT+BBF算法
转载自:http://blog.csdn.net/v_july_v/article/details/8203674/ 从K近邻算法.距离度量谈到KD树.SIFT+BBF算法前言前两日,在微博上说: ...

随机推荐

JAVA-基本知识
1.JAVA跨平台其实就是在每个平台上要安装对应该操作系统的JVM,JVM负责解析执行,即实现了跨平台.JVM是操作系统与java程序之间的桥梁. 2.JRE:java运行环境,包含JVM+核心类库 ...
KVO 进阶
Key-value coding (KVC) 和 key-value observing (KVO) 是两种能让我们驾驭 Objective-C 动态特性并简化代码的机制.在这篇文章里,我们将接触一些 ...
Flexigrid的API
基本设定 width table的长度(default:auto) height table的宽度(default:200) striped 表格的线的表示(default:true) nov ...
Dom+2016/4/20
元素.parentNode父节点 offsetParent
windows程序设计（三）
MFC所有封装类一共200多个,但在MFC的内部技术不只是简单的封装 MFC的内部总共有六大关键技术,架构起了整个MFC的开发平台一.MFC的六大关键技术包括: a).MFC程序的初始化过程 b). ...
HDU-1072 Nightmare （bfs+贪心）
Nightmare Time Limit : 2000/1000ms (Java/Other) Memory Limit : 65536/32768K (Java/Other) Total Sub ...
java 接口参数
Example6_5.java interface SpeakHello { void speakHello(); } class Chinese implements SpeakHello { pu ...
This compilation unit is not on the build path SVN
This compilation unit is not on the build path of a Java project 解决办法把项目导入STS(基于Eclipse)时,项目出现问题, ...
String Stringbuilder Stringbuffer的区别
String 字符串常量StringBuffer 字符串变量(线程安全)StringBuilder 字符串变量(非线程安全) 简要的说, String 类型和 StringBuffer 类型的主要性能 ...
表单提交中记得form表单放到table外面
帝国后台按栏目搜索文章时怎么都不生效控制台查看原来是栏目的select的值没有提交过去,原来由于form标签在table标签里面,导致js生成的<select>标签提交失败. 解决办 ...