K-means算法的原理、优缺点及改进(转)

文章内容转载自：http://blog.csdn.net/sinat_35512245/article/details/55051306

http://blog.csdn.net/baimafujinji/article/details/50570824

----------------------------------------------------------------------------------------------------------------------------------------------------

K-means方法是一种非监督学习的算法，它解决的是聚类问题

1、算法简介：K-means方法是聚类中的经典算法，数据挖掘十大经典算法之一；算法接受参数k,然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足聚类中的对象相似度较高，而不同聚类中的对象相似度较小。

2、算法思想：以空间中k个点为中心进行聚类，对最靠近他们的对象归类，通过迭代的方法，逐次更新各聚类中心的值，直到得到最好的聚类结果。

3、算法描述：

（1）适当选择c个类的初始中心；
（2）在第k次迭代中，对任意一个样本，求其到c个类的各中心的距离，将该样本归到距离最短的那个中心所在的类（也成为簇）；
（3）利用均值等方法更新该类的中心值；
（4）对于所有的C个聚类中心，如果利用（2）（3）的迭代法更新后，值保持不变，则迭代结束；否则继续迭代。

注：对于距离函数和中心类型的某些组合，算法总是收敛到一个解，即K均值到达一种状态，聚类结果和中心都不再改变。但为了避免过度迭代所导致的时间消耗，实践中，也常用一个较弱的条件替换掉“中心不再发生变化”这个条件。例如，使用“直到仅有1%的点改变簇”。

4、算法举例：

详细内容参看：http://blog.csdn.net/sinat_35512245/article/details/55051306

5、优、缺点：

优点：

1、该算法时间复杂度为O(tkmn)，（其中，t为迭代次数，k为簇的数目，m为记录数，n为维数）与样本数量线性相关，所以，对于处理大数据集合，该算法非常高效，且伸缩性较好；

2、原理简单，实现容易。

缺点：

1、聚类中心的个数K 需要事先给定，但在实际中这个 K 值的选定是非常难以估计的，很多时候，事先并不知道给定的数据集应该分成多少个类别才最合适；

2、Kmeans需要人为地确定初始聚类中心，不同的初始聚类中心可能导致完全不同的聚类结果。（可以使用K-means++算法来解决）；

3、结果不一定是全局最优，只能保证局部最优；

4、对噪声和离群点敏感；

5、该方法不适于发现非凸面形状的簇或大小差别很大的簇；

6、需样本存在均值（限定数据种类）。

6、算法改进

　　针对上述第2个缺陷，可以使用Kmeans++算法来解决。 k-means++算法选择初始seeds的基本思想就是：初始的聚类中心之间的相互距离要尽可能的远。wiki上对该算法的描述是如下:

从输入的数据点集合中随机选择一个点作为第一个聚类中心；
对于数据集中的每一个点x，计算它与最近聚类中心(指已选择的聚类中心)的距离D(x)；
选择一个新的数据点作为新的聚类中心，选择的原则是：D(x)较大的点，被选取作为聚类中心的概率较大；
重复2和3直到k个聚类中心被选出来；
利用这k个初始的聚类中心来运行标准的k-means算法。

附：k-means++代码：http://rosettacode.org/wiki/K-means%2B%2B_clustering

K-means算法的原理、优缺点及改进(转)的更多相关文章

KNN 与 K - Means 算法比较
KNN K-Means 1.分类算法聚类算法 2.监督学习非监督学习 3.数据类型:喂给它的数据集是带label的数据,已经是完全正确的数据喂给它的数据集是无label的数据,是杂乱无章的,经过 ...
K 均值算法-如何让数据自动分组
公号:码农充电站pro 主页:https://codeshellme.github.io 之前介绍到的一些机器学习算法都是监督学习算法.所谓监督学习,就是既有特征数据,又有目标数据. 而本篇文章要介绍 ...
K－means算法
K-means算法很简单,它属于无监督学习算法中的聚类算法中的一种方法吧,利用欧式距离进行聚合啦. 解决的问题如图所示哈:有一堆没有标签的训练样本,并且它们可以潜在地分为K类,我们怎么把它们划分呢? ...
机器学习--支持向量机（SVM）算法的原理及优缺点
一.支持向量机 (SVM)算法的原理支持向量机(Support Vector Machine,常简称为SVM)是一种监督式学习的方法,可广泛地应用于统计分类以及回归分析.它是将向量映射到一个更高维的 ...
机器学习--主成分分析(PCA)算法的原理及优缺点
一.PCA算法的原理 PCA(principle component analysis),即主成分分析法,是一个非监督的机器学习算法,是一种用于探索高维数据结构的技术,主要用于对数据的降维,通过降维可 ...
使用K近邻算法改进约会网站的配对效果
1 定义数据集导入函数 import numpy as np """ 函数说明:打开并解析文件,对数据进行分类:1 代表不喜欢,2 代表魅力一般,3 代表极具魅力 Par ...
K最近邻算法
K最近邻(K-Nearest-Neighbour,KNN)算法是机器学习里简单易掌握的一个算法.通过你的邻居判断你的类型,“近朱者赤,近墨者黑”表达了K近邻的算法思想. 一．算法描述: 1.1 KNN ...
机器学习——KNN算法（k近邻算法）
一 KNN算法 1. KNN算法简介 KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分 ...
KMeans (K均值)算法讲解及实现
算法原理 KMeans算法是典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大.该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标 ...
从K近邻算法、距离度量谈到KD树、SIFT+BBF算法
转载自:http://blog.csdn.net/v_july_v/article/details/8203674/ 从K近邻算法.距离度量谈到KD树.SIFT+BBF算法前言前两日,在微博上说: ...

随机推荐

修改oralce数据库用户名和密码
首先以sys用户登录数据库一.修改用户名查到到所需修改用户名称的用户需要:select user#,name from user$;(例如查到有一个normal的用户对应的user#=61) 修改 ...
java启动jar包中的指定类
运行jar文件的方法是:java -jar xxx.jar 希望运行里面的具体某个类,这时可以通过:java -cp xxx.jar xxx.com.xxxx 其中-cp命令是将xxx.jar加入到c ...
Spring boot 集成Dubbo简单版,准备工作,
一.GitHub上找寻Dubbo资源阿里巴巴在其GitHub上已经写好一个Github案例所以我们只要进入其Git上就可以看到和clone这个项目二.阿里巴巴GitHub使用 https://gi ...
CodeForces 235E Number Challenge (莫比乌斯反演)
题意:求,其中d(x) 表示 x 的约数个数. 析:其实是一个公式题,要知道一个结论知道这个结论就好办了. 然后就可以解决这个问题了,优化就是记忆化gcd. 代码如下: #pragma commen ...
富文本粘贴word文档内容图片处理
公司做的项目要用到文本上传功能. 网上找了很久,大部分都有一些不成熟的问题,终于让我找到了一个成熟的项目. 下面就来看看: 1.打开工程: 对于文档的上传我们需要知道这个项目是否符合我们的初衷. 运行 ...
1.4isAlive()方法
方法isAlive()的功能是判断当前线程是否处于活动状态活动状态是线程已经启动且尚未终止,线程处于正在运行或准备开始运行的状态,就认为线程是存活的. 测试如下 package com.cky.th ...
723 if while for
if == 如果程序结构分为三种顺序结构程序按照从上往下的顺序依次执行分支结构程序根据某种条件选择要执行的代码循环结构可以使代码重复的结构需求如果温度高于30就开空调 while fo ...
switch()语句
语法: switch(expression){ case value:statement break; case value:statement break; case value:statement ...
ASP.NET MVC IActionFilter IResultFilter IExceptionFilter/HandleError
一.IActionFilter 1.基本定义在action的执行前后进行AOP拦截. IActionFilter接口定义如下: public interface IActionFilter { // ...
Advice from an Old Programmer
You’ve finished this book and have decided to continue with programming. Maybe it will be a career f ...

K-means算法的原理、优缺点及改进(转)

附：k-means++代码：http://rosettacode.org/wiki/K-means%2B%2B_clustering

K-means算法的原理、优缺点及改进(转)的更多相关文章

随机推荐

热门专题