数据准备：

canopy.dat文件，COPY到HDFS上，文件内容如下：

8.1  8.1

7.1  7.1

6.2  6.2

7.1  7.1

2.1  2.1

1.1 1.1

0.1 0.1

3.0 3.0

算法简单说明，步骤如下:

（1） 将所有数据放进list中，选择两个距离，T1，T2，T1>T2

（2）While(list不为空)

{ 

随机选择一个节点做canopy的中心；并从list删除该点；

遍历list：

对于任何一条记录，计算其到各个canopy的距离；

如果距离<T2,则给此数据打上强标记，并从list删除这条记录；

如果距离<T1,则给此数据打上弱标记；

如果到任何canopy中心的聚类都>T1,那么将这条记录作为一个新的canopy的中心，并从list中删除这个元素；

}

预期的结果应该是：

Canopy 1 (8.1,8.1) :[ (8.1,8.1),  (7.1,7.1),  (6.2,6.2) ,(7.1,7.1) ]

Canopy 2 (2.1,2.1) :[ (2.1,2.1), (1.1,1.1) ,(0.1,0.1),  (3.0,3.0)  ]

Canopy 3 (0.1,0.1) :[ (0.1,0.1)]

下面开始用Mahout实现

# 1.将数据文件转换成向量

mahout用InputDriver数据转换时候，需要数据默认用空格分隔

mahout org.apache.mahout.clustering.conversion.InputDriver -i /user/hdfs/canopy/in/canopy.dat -o /user/hdfs/canopy/vecfile -v org.apache.mahout.math.RandomAccessSparseVector

# 2. 调用命令

mahout canopy -i /user/hdfs/canopy/vecfile -o /user/hdfs/canopy/out/result -t1 8 -t2 4 -ow -cl

参数说明：

CanopyDriver.main(args);
--input (-i)	输入路径
--output(-o)	输出路径
--distanceMeasure(-dm)	距离度量类的权限命名，如：”org.apache.mahout.common.distance.CosineDistanceMeasure”
--t1 (-t1)	t1值（t1>t2）
--t2 (-t2)	t2值
--t3 (-t3)	t3值，默认t3=t1
--t4(-t4)	t4值，默认t4=t2
--overwrite (-ow)	是否覆盖上次操作的结果
--clustering (-cl)	是否执行聚类操作，即划分数据
--method (-method)	默认，mapreduce。还可选sequential，执行单机模式

# 3.查看结果

mahout seqdumper -i /user/hdfs/canopy/out/result/clusters-0-final/part-r-00000  -o /home/hadoop/output/result

#关联各个点

mahout clusterdump -i /user/hdfs/canopy/out/result/clusters-0-final/part-r-00000  -o /home/hadoop/output/result -p /user/hdfs/canopy/out/result/clusteredPoints

C-0{n=2 c=[6.888, 6.888] r=[0.237, 0.237]}

Weight : [props - optional]: Point:

1.0: [8.100, 8.100]

1.0: [7.100, 7.100]

1.0: [6.200, 6.200]

1.0: [7.100, 7.100]

C-1{n=2 c=[1.083, 1.083] r=[0.983, 0.983]}

Weight : [props - optional]: Point:

1.0: [2.100, 2.100]

1.0: [1.100, 1.100]

1.0: [3.000, 3.000]

C-2{n=1 c=[0.100, 0.100] r=[]}

Weight : [props - optional]: Point:

1.0: [0.100, 0.100]

mahout 实现canopy的更多相关文章

Mahout之Canopy Clustering深入理解
转自:http://www.cnblogs.com/vivounicorn/archive/2011/09/23/2186483.html Mahout学习——Canopy Clustering 聚类 ...
mahout之canopy算法简单理解
canopy是聚类算法的一种实现它是一种快速,简单,但是不太准确的聚类算法 canopy通过两个人为确定的阈值t1,t2来对数据进行计算,可以达到将一堆混乱的数据分类成有一定规则的n个数据堆由于c ...
Canopy算法聚类
Canopy一般用在Kmeans之前的粗聚类.考虑到Kmeans在使用上必须要确定K的大小,而往往数据集预先不能确定K的值大小的,这样如果 K取的不合理会带来K均值的误差很大(也就是说K均值对噪声的抗 ...
Mahout机器学习平台之聚类算法具体剖析（含实例分析）
第一部分: 学习Mahout必需要知道的资料查找技能: 学会查官方帮助文档: 解压用于安装文件(mahout-distribution-0.6.tar.gz),找到例如以下位置.我将该文件解压到win ...
深入浅出Hadoop Mahout数据挖掘实战(算法分析、项目实战、中文分词技术)
Mahout简介 Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目, 提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建 ...
学习Mahout(三)
开发+运行第一个Mahout的程序代码: /** * Licensed to the Apache Software Foundation (ASF) under one or more * con ...
hadoop文本转换为序列文件
在以前使用hadoop的时候因为mahout里面很多都要求输入文件时序列文件,所以涉及到把文本文件转换为序列文件或者序列文件转为文本文件(因为当时要分析mahout的源码,所以就要看到它的输入文件是什 ...
北风风hadoop课程体系
课程一.基于Linux操作系统平台下的Java语言开发(20课时)课程简介本套课程主要介绍了Linux系统下的Java环境搭建及最基础的Java语法知识.学习Linux操作系统下Java语言开发的好处 ...
基于Hadoop2.0、YARN技术的大数据高阶应用实战(Hadoop2.0\YARN\Ma
Hadoop的前景随着云计算.大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈.谷歌.淘宝.百度.京东等底层都应用hadoop.越来越多的企业急需引入hadoop技术人才.由于掌握H ...

随机推荐

每天一个Linux命令（33）cal命令
cal命令用于显示当前日历,或者指定日期的日历. (1)用法: 用法: cal [选项] [[[日] 月] 年] (2)功能: 功能: 用于查看日历等时间信息,如只有一 ...
java常用注解(更新中)
注解根据来源可分为: 系统注解(自带的,取决于JDK版本).自定义注解及第三方注解系统注解根据用途又可分为: java内置注解和元注解根据运行机制(保留到什么时候)可分为: 源码注解.编译注解和运 ...
jquery中篇
一.attr 返回属性值返回被选元素的属性值. 语法 $(selector).attr(attribute) 参数描述 attribute 规定要获取其值的属性. 属性 • 属性 o attr(n ...
mysql 主从,主主,主主复制时的主键冲突解决
原理:slave 的i/o thread ,不断的去master抓取 bin_log, 写入到本地relay_log 然后sql thread不断的更新slave的数据把主服务器所有的数据复制给从服 ...
Oracle数据库设计规范建议
Oracle数据库设计规范建议 1 目的本规范的主要目的是希望规范数据库设计,尽量提前避免由于数据库设计不当而产生的麻烦:同时好的规范,在执行的时候可以培养出好的习惯,好的习惯是软件质量的很好的保证 ...
51nod 1681
题目神犇题解这题挺神的..思路很巧妙首先想到DFS序(毕竟是子树问题),这道题可以转化成:我们对于每一个节点的子树区间去看,两棵树同一节点的这个子树区间有多少个相同元素,设个数为x,那么这个点的 ...
Symbol Table（符号表）
一.定义符号表是一种存储键值对的数据结构并且支持两种操作:将新的键值对插入符号表中(insert):根据给定的键值查找对应的值(search). 二.API 1.无序符号表几个设计决策: A.泛型 ...
selenium-查看selenium API
pydoc是Python自带的模块,主要用于从python模块中自动生成文档,这些文档可以基于文本呈现的.也可以生成WEB 页面的,还可以在服务器上以浏览器的方式呈现! 一.pydoc 1.到底什么是 ...
Python基础-MD5加密
import hashlibm = hashlib.md5()#构造一个md5 m.update(b"Hello")#加密前必须转化成二进制字节类型print(m.hexdiges ...
201621123014《Java程序设计》第四周学习总结
1.本周学习总结 1.1 写出你认为本周学习中比较重要的知识点关键词答:继承.多态.子类.父类.final.static.类型判断与类型转换.抽象类. 1.2 尝试使用思维导图将这些关键词组织起来. ...

mahout 实现canopy