Mahout kmeans聚类
Mahout K-means聚类
一、Kmeans 聚类原理
K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。
假设要把样本集分为c个类别,算法描述如下:
(1)适当选择c个类的初始中心;
(2)在第k次迭代中,对任意一个样本,求其到c各中心的距离,将该样本归到距离最短的中心所在的类;
(3)利用均值等方法更新该类的中心值;
(4)对于所有的c个聚类中心,如果利用(2)(3)的迭代法更新后,值保持不变,则迭代结束,否则继续迭代。
该算法的最大优势在于简洁和快速。算法的关键在于初始中心的选择和距离公式
二、Mahout kmeans实现
Mahout kmeans MapReduce实现的原理和上述的一致,值得注意的是,Mahout将数据存储在HDFS,用MapReduce做批量并行的计算。在做kmeans之前,需要将文本用Mahout向量化模块工具做向量化。计算过程主要分为三个步骤:初始中心选取,寻找簇中心,划分数据。
(一) 簇定义
簇Cluster是一个实体,保存该簇的关键信息。
privateint id;
簇编号
核心参数:计算完数据后最终的簇属性
private long numPoints;
簇中点的个数
private Vector center;
中心向量 center=
private Vector radius;
半径向量 radius =
调整参数:簇中加入一个点后调整的参数
private double s0; s0= 权重和。对于Kmeans,w=1
,所有s0=numPoints
private Vector s1; s1= x
为point,w为权重。对kmeansw =1
private Vector s2 ; s2= x
为point,w为权重。对kmeansw =1
(二) 初始中心点选择
(1)RandomSeedGenerator 将输入的向量随机选择K个输出到HDFS作为Kmeans 聚类的初始中心点。
(2)另一种将Canopy计算出的簇中心作为kmeans聚类的初始中心点。
(三) 迭代更新中心
通过不断的迭代,移动簇中心。该过程划分为两个部分,一个是簇划分Job,一个是控制迭代循环。
1.簇划分Job过程:
Map:
Collection<Cluster> clusters = newArrayList<Cluster>()
setUp(){
读入上一次输出的全部中心点,填充cluster。
}
Map(WritableComparable<?> key, VectorWritable point){
用KMeansClustererclusterer 将point 划分到cluster中距离最近的一个cluster中。
输出: key clusterID ,value ClusterObservations
}
}
Combiner:
Reduce(key clusterID ,value Iterator<ClusterObservations> it ){
计算同一个cluster的局部参数。
}
Reduce:
Reduce(key clusterID ,value ClusterObservations){
计算同一cluster的全局参数。
计算cluster的新中心。
对比之前的中心,计算是否收敛。
替换新的中心点作为cluster的中心。
输出 keyclusterID,value Cluster
}
2.循环过程
while(!收敛||没有达到相应的迭代次数){
1.执行迭代Job,输入全部数据,输出新的簇中心;
2.判断是否有簇没有收敛。只要有一个簇没有收敛,则断定为全局不收敛。
}
(四) 划分数据
划分数据过程是对简单的,只需要计算向量和所有簇的距离,将其划分到距离最小的一个簇中。由一个map完成。
Map:
Collection<Cluster> clusters = new ArrayList<Cluster>()
setUp(){
读取最终收敛的簇,填充clusters。
}
Map(WritableComparable<?> key, VectorWritable point){
Double min = 0 ;
String clusterID ;
While(cluster :clusters){
计算min;
得到最小距离的clusterID;
}
输出:clusterID ,point
}
三、API说明
API
KMeansDriver.main(args); |
|
--input(-i) |
输入路径 |
--outpu(-o) |
输出路径 |
--distanceMeasure(-dm) |
距离类权限命名,如“org.apache.mahout.common.distance.Cosine DistanceMeasure” |
--clusters(-c) |
中心点存储路径,如果该路径下没有中心点,则随机生成并写入该目录 |
--numClusters(-k) |
簇个数 |
--convergenceDelta(-cd) |
收敛值 |
--maxIter(-x) |
最大迭代次数 |
--overwrite(-ow) |
是否覆盖上次操作 |
--clustering(-cl) |
是否执行聚类 |
--method(-xm) |
默认”mapreduce”,或”sequential” |
示例
String [] arg= {"-x","10", "-c","kmeans_center", "-i","vector\tfidf-vectors", "-o","kmeans", "-dm","org.apache.mahout.common.distance. EuclideanDistanceMeasure", "-k","3", "-cd","0.01", "-ow", "-cl", "-xm","mapreduce"}; KMeansDriver.main(arg); |
输出
结果文件 |
Key类型 |
Value类型 |
说明 |
clusters-* |
类id (org.apache.hadoop.io.Text) |
类中心 (org.apache.mahout. clustering.kmeans.Cluster) |
每条记录以类id和类中心表示一个类别 |
clusteredPoints |
类id (org.apache.hadoop.io.IntWritable) |
文档向量 (org.apache. mahout.clustering.WeightedVectorWritable) |
每条记录中,文档向量代表文档,类id代表该文档所属类别 |
注:clusters-*中*代表数字,第i次迭代产生的类信息即为clusters-i
四、参考文献
1.《web数据挖掘》
Mahout kmeans聚类的更多相关文章
- Mahout系列之----kmeans 聚类
Kmeans是最经典的聚类算法之一,它的优美简单.快速高效被广泛使用. Kmeans算法描述 输入:簇的数目k:包含n个对象的数据集D. 输出:k个簇的集合. 方法: 从D中任意选择k个对象作为初始簇 ...
- mahout in Action2.2-聚类介绍-K-means聚类算法
聚类介绍 本章包含 1 实战操作了解聚类 2.了解相似性概念 3 使用mahout执行一个简单的聚类实例 4.用于聚类的各种不同的距离測算方法 作为人类,我们倾向于与志同道合的人合作-"鸟的 ...
- K-Means 聚类算法
K-Means 概念定义: K-Means 是一种基于距离的排他的聚类划分方法. 上面的 K-Means 描述中包含了几个概念: 聚类(Clustering):K-Means 是一种聚类分析(Clus ...
- k-means聚类JAVA实例
<mahout in action>第六章. datafile/cluster/simple_k-means.txt数据集例如以下: 1 1 2 1 1 2 2 2 3 3 8 8 8 9 ...
- (转)Mahout Kmeans Clustering 学习
一.Mahout命令使用 合成控制的数据集 synthetic_control.data 可以从 此处下载,总共由600行X60列double型的数据组成, 意思是有600个元组,每个元组是一个时间序 ...
- Hadoop平台K-Means聚类算法分布式实现+MapReduce通俗讲解
Hadoop平台K-Means聚类算法分布式实现+MapReduce通俗讲解 在Hadoop分布式环境下实现K-Means聚类算法的伪代码如下: 输入:参数0--存储样本数据的文本文件inpu ...
- 改用MyAnalyzer的KMeans聚类算法
<strong><span style="font-size:18px;">/*** * @author YangXin * @info 改用MyAnaly ...
- 用scikit-learn学习K-Means聚类
在K-Means聚类算法原理中,我们对K-Means的原理做了总结,本文我们就来讨论用scikit-learn来学习K-Means聚类.重点讲述如何选择合适的k值. 1. K-Means类概述 在sc ...
- K-Means聚类算法原理
K-Means算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛.K-Means算法有大量的变体,本文就从最传统的K-Means算法讲起,在其基础上讲述K-Means的优化变体 ...
随机推荐
- PHP 5 Date/Time 函数
PHP Date/Time 简介 Date/Time 函数允许您从 PHP 脚本运行的服务器上获取日期和时间.您可以使用 Date/Time 函数通过不同的方式来格式化日期和时间. 注释:这些函数依赖 ...
- Docker标准化开发测试和生产环境
对于大部分企业来说,搭建 PaaS 既没有那个精力,也没那个必要,用 Docker 做个人的 sandbox 用处又小了点. 可以用 Docker 来标准化开发.测试.生产环境. Docker 占用资 ...
- Bootstrap3 表格-条纹状表格
通过 .table-striped 类可以给 之内的每一行增加斑马条纹样式. 跨浏览器兼容性 条纹状表格是依赖 :nth-child CSS 选择器实现的,而这一功能不被 Internet Explo ...
- 【事务】<查询不到同一调用方法其它事务提交的更新>解决方案
最近遇到一个很棘手的问题,至今也解释不清楚原因,不过已经找到了解决方案. 先来看看Propagation属性的值含义,@Transactional中Propagation属性有7个选项可供选择: Pr ...
- ubuntu重装指定版本的mysql
查看错误log cat /var/log/mysql/error.log 首先彻底删除mysql,比如版本5.5 apt-get autoremove --purge mysql-server-5.5 ...
- EasyUI常用组件(基础)
---------------------------------------------------------------------------------------------------- ...
- 360浏览器不能打开CSDN登陆页面
碰见个奇葩问题: 使用360浏览器(广大程序员不要鄙视我~ 我有我的理由)不能打开csdn的登陆页面~~你登陆的时候,他就一直在那里打转~~ 但是用ie就可以打开登陆页面.... 怎么回事???难道C ...
- post插件
分享牛系列,分享牛专栏,分享牛.在项目开发中,http请求方式是最常见的了.怎么模拟http请求呢?方法有很多种,可以使用httpclient直接模拟请求,也可以使用火狐post插件方式,这个章节主要 ...
- Swift如何取得View所属的ViewController
从VC取得View很容易,但有些情况下我们需要从View反向获取VC. 不过在一些特殊的场合,Cocoa库帮我们想的很周到,比如在自定义View过渡动画的时候: func animateTransit ...
- python+OpenCV 特征点检测
1.Harris角点检测 Harris角点检测算法是一个极为简单的角点检测算法,该算法在1988年就被发明了,算法的主要思想是如果像素周围显示存在多于一个方向的边,我们认为该点为兴趣点.基本原理是根据 ...