聚类算法kmeans

1. 聚类问题

所谓聚类问题，就是给定一个元素集合D，其中每个元素具有n个可观察属性，使用某种算法将D划分成k个子集，要求每个子集内部的元素之间相异度尽可能低，而不同子集的元素相异度尽可能高。

2. K-均值算法简介

k-means算法，也被称为k-平均或k-均值，是一种得到最广泛使用的聚类算法。它是将各个聚类子集内的所有数据样本的均值作为该聚类的代表点，

算法的主要思想是通过迭代过程把数据集划分为不同的类别，使得评价聚类性能的准则函数达到最优，从而使生成的每个聚类内紧凑，类间独立。这一算法不适合处理离散型属性，但是对于连续型具有较好的聚类效果。

k-means要解决的问题

3. 算法描述

1、为中心向量c1, c2, …, ck初始化k个种子

2、分组:

（1）将样本分配给距离其最近的中心向量

（2）由这些样本构造不相交（ non-overlapping ）的聚类

3、确定中心:

用各个聚类的中心向量作为新的中心

4、重复分组和确定中心的步骤，直至算法收敛。

4. Hadoop数据挖掘中的应用

(1) 将数据分割为多份，并将格式统一为<id , <A, B>>， A为当前页面，B为跳转前的界面。

(2) Map函数对数据进行操作，得到<<A,B> 1>；Reduce函数处理，得到<<A,B> n>，其中n为执行<A, B>操作的次数。

(3) 每个子群体分别将Reduce的结果转换为链表结构，链表头部保存k值，

(A, B)

(B, D)

(D, E)

…

(4) 子群体内部进行选择、交叉等操作。

a) 首先从原始数据中随机选择两条数据；

b) 随机插入其他位置生成新链表

c) 比较两条链表的长度，

i. 如果相等则判断头尾是否有重合，如果有则将两条链表重合部分连接生成新的链表；

ii. 如果不相等则合并为新的链表

(5) 每个子群体分别重复上述操作，直到k值不再变化

5. 程序设计

Map函数主要负责计算样本点到各个中心点到各个中心点的距离，并将其归类。Map函数程序设计伪码：

Map( < key, value > )

{

MinDis初始化一个极限最大值，作为样本点到各个中心点的最小距离值；

For( I=1; I <= k; index ++ ) //k为中心点个数

{

计算样本点到第i个中心点的距离ids；

If( dis < MinDIs ){

MinDis = dis;

Index = I;

}}

Return < index, value >;

}

Reduce函数主要功能是更新中心点，其函数输入是Mapper函数的输出< key, list(value)>, 输出函数写入到HDFS中。Reduce函数伪代码如下：

Reduce( <key, list(value)> ){

While ( list.HasNext() ){

SUM += list.value; //将归属于中心点key的所有值相加

Key = SUM / N;

}

Return <key, value>;

}

聚类算法kmeans的更多相关文章

ML.NET技术研究系列-2聚类算法KMeans
上一篇博文我们介绍了ML.NET 的入门: ML.NET技术研究系列1-入门篇本文我们继续,研究分享一下聚类算法k-means. 一.k-means算法简介 k-means算法是一种聚类算法,所谓聚 ...
[聚类算法] K-means 算法
聚类和 k-means简单概括. 聚类是一种无监督学习问题,它的目标就是基于相似度将相似的子集聚合在一起. k-means算法是聚类分析中使用最广泛的算法之一.它把n个对象根据它们的属性分为 ...
聚类算法K-Means, K-Medoids, GMM, Spectral clustering,Ncut
原文请戳:http://blog.csdn.net/abcjennifer/article/details/8170687 聚类算法是ML中一个重要分支,一般采用unsupervised learni ...
数据挖掘之聚类算法K-Means总结
序由于项目需要,需要对数据进行处理,故而又要滚回来看看paper,做点小功课,这篇文章只是简单的总结一下基础的Kmeans算法思想以及实现: 正文: 1.基础Kmeans算法. Kmeans算法的属 ...
机器学习sklearn19.0聚类算法——Kmeans算法
一.关于聚类及相似度.距离的知识点二.k-means算法思想与流程三.sklearn中对于kmeans算法的参数四.代码示例以及应用的知识点简介 (1)make_blobs:聚类数据生成器 sk ...
【转】聚类算法-Kmeans算法的简单实现
1. 聚类与分类的区别: 首先要来了解的一个概念就是聚类,简单地说就是把相似的东西分到一组,同 Classification (分类)不同,对于一个 classifier ,通常需要你告诉它“这个东西 ...
聚类算法K-Means, K-Medoids, GMM, Spectral clustering，Ncut
聚类算法是ML中一个重要分支,一般采用unsupervised learning进行学习,本文根据常见聚类算法分类讲解K-Means, K-Medoids, GMM, Spectral cluster ...
机器学习 - 算法 - 聚类算法 K-MEANS / DBSCAN算法
聚类算法概述无监督问题手中无标签聚类将相似的东西分到一组难点如何评估, 如何调参基本概念要得到的簇的个数 - 需要指定 K 值质心 - 均值, 即向量各维度取平均距离的度量 ...
数据聚类算法-K-means算法
深入浅出K-Means算法摘要: 在数据挖掘中,K-Means算法是一种 cluster analysis 的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法. K-Mea ...

随机推荐

Ubuntu14.04桌面版基本配置
最近公司需要用Ubuntu测试一些功能,安装好后绚丽的桌面环境很是吸引人,但切换到字符界面后,发现不少地方与RHEL不一样,连ssh.vim都没有,字符界面玩得不开心. 搜了不少文章,才将基本的功能配 ...
emacs 新手笔记（二） —— 分割窗格 (split window)
初极狭,才通人.复行数十步,豁然开朗.—— 陶渊明·桃花源记 ilocker:关注 Android 安全(新入行,0基础) QQ: 2597294287 使用 split-window-xxx 函数可 ...
[转]Oracle 修改或者删除临时表 ORA-14452: 试图创建，更改或删除正在使用的临时表中的索引
本文转自:http://blog.csdn.net/treasurelifelhf/article/details/7290729 由于存储过程出现问题,导致前台页面无法显示数据.执行存储过程发现临时 ...
[转]NopCommerce 多数据库方案
本文转自:http://www.cnblogs.com/YUTOUYUWEI/p/5538200.html 有时候一个项目需要连接多个数据库,以实现不同数据库的数据在同个项目的共享. 如果已经安装了n ...
【HTML5】使用多媒体
HTML5 支持直接在浏览器中播放音频和视频文件,不需要使用Abode Flash这样的插件. 1. 使用 video 元素可以用video 元素在网页里嵌入视频内容. 其基本用法如下: <! ...
AC日记——画矩形 1.5 42
42:画矩形总时间限制: 1000ms 内存限制: 65536kB 描述根据参数,画出矩形. 输入输入一行,包括四个参数:前两个参数为整数,依次代表矩形的高和宽(高不少于3行不多于10行,宽 ...
AC日记——单词倒排 1.7 28
28:单词倒排总时间限制: 1000ms 内存限制: 65536kB 描述编写程序,读入一行英文(只包含字母和空格,单词间以单个空格分隔),将所有单词的顺序倒排并输出,依然以单个空格分隔. 输 ...
使用javascript实现的雪花飞舞的效果
原作者是在body中不停的插入多个小div雪花来向下慢慢飘,一直飘到body的底部后,将雪花移除,于是,将原来的代码稍加修改,让他只是从屏幕的顶部飘落到屏幕底部(不是body的底部)后,就将雪花移除, ...
FragmentTransaction.replace（）你不知道的坑
一.起源: 先看效果,在linearLayout中添加了4个Fragment,然后点击替换一次确替换了两个Fragment,引发了我的研究兴趣: 第一次启动 ...
实现鼠标拖动canvas绘制的图片
不啰嗦上代码: <html> <head> <meta http-equiv="Content-Type" content="text/ht ...

聚类算法kmeans

聚类算法kmeans的更多相关文章

随机推荐

热门专题