mahout安装

mahout是hadoop的一种高级应用。运行mahout需要提前安装好hadoop。hadoop的安装网上很多。而且也不复杂，这里不再讲述。这里默认hadoop已经安装完成。

1：下载二进制解压安装。

到http://labs.renren.com/apache-mirror/mahout/0.5/ 下载，我选择下载二进制包，直接解压及可。

2：配置环境变量：HADOOP_HOME,HADOOP_CONF_DIR,MAHOUT_HOME,格式如下

export HADOOP_HOME=/usr/local/hadoop-0.20.205.0

export HADOOP_CONF_DIR=/usr/local/hadoop-0.20.205.0/conf

export MAHOUT_HOME=/usr/local/mahout-distribution-0.5

export PATH=$HADOOP_HOME/bin:$MAHOUT_HOME/bin:$PATH

3:(注意)

网上都说运行bin/mahout --help来查看一些算法以及是否安装成功，这其实是有问题的。bin/mahout --help有bug,有时候运行会提示Unknown program '--help' chosen.这其实并不代表安装出了问题。

你可以继续试下bin/mahout -h或者bin/mahout kmeans --help.应该说如果配置没有问题的话bin/mahout kmeans --help应该是可以正常运行的。

4：准备

　　1.下载一个文件synthetic_control.data,下载地址http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data,并把这个文件放在$MAHOUT_HOME目录下。

　　2.启动Hadoop：$HADOOP_HOME/bin/start-all.sh

　　3.在$MAHOUT_HOME目录下创建测试目录testdata，并把数据导入到这个tastdata目录中（这里的目录的名字只能是testdata）

　　　　$HADOOP_HOME/bin/hadoop fs -mkdir testdata

　　　　$HADOOP_HOME/bin/hadoop fs -put $MAHOUT_HOME/synthetic_control.data $MAHOUT_HOME/testdata

　　4.使用kmeans算法(这会运行1分钟左右)

　　　　$HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/mahout-examples-0.5-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

　　5.查看结果

　　　　$HADOOP_HOME/bin/hadoop fs -lsr output

　　　　$HADOOP_HOME/bin/hadoop fs -get output $MAHOUT_HOME/examples

　　　　$cd $MAHOUT_HOME/examples/output

　　　　$ ls

　　　　如果看到以下结果那么算法运行成功，你的安装也就成功了.

　　　　clusteredPoints clusters-0 clusters-1 clusters-10 clusters-2 clusters-3 clusters-4

　　　　clusters-5 clusters-6 clusters-7 clusters-8 clusters-9 data

clusteredPoints：存放的是最后聚类的结果，将cluster-id和documents-id都展示出来了，用mahout seqdumper读clusteredPoints结果的key-value类型是(IntWritable,WeightedVectorWritable)

clusters-N：是第N次聚类的结果，其中n为某类的样本数目，c为各类各属性的中心，r为各类属性的半径。 clusters-N结果类型是(Text,Cluster)

data：存放的是原始数据，这个文件夹下的文件可以用mahout vectordump来读取，原始数据是向量形式的，其它的都只能用mahout seqdumper来读取，向量文件也可以用mahout seqdumper来读取，只是用vectordump读取出来的是数字结果，没有对应的key，用seqdumper读出来的可以看到key，即对应的url，而value读出来的是一个类描述，而不是数组向量

bin/mahout seqdumper --input /user/hadoop/output/data/part-m-00000 --output test.txt（此处Input必须为filesystem上的目录）

mahout中的kmeans结果分析

运行官网上的mahout kmeas示例，结果文件夹有clusteredPoints，clusters-N，data，用命令mahout seqdumper仔细看了一下结果文件

clusters-N：是第N次聚类的结果，其中n为某类的样本数目，c为各类各属性的中心，r为各类属性的半径。 clusters-N结果类型是(Text,Cluster)

为什么mahout seqdumper可以读任何SequenceFiles文件呢？看了一下源文件，是因为用的reader.getValueClass().newInstance()去读取的

clusters-0：读出来的结果(key,value)类型是(Text，Canopy)，我猜应该是随机从原始数据里取出五个点来做初始聚类中心点，看到里面有RandomAccessSparseVector类，而后成的clusters-N读出来的(key，value)都是(Text，Cluster)类型，查了一下Canopy，说Canopy 聚类算法经常用于 K 均值聚类算法的预处理，用来找合适的 k 值和簇中心。

bin/mahout clusterdump --seqFileDir output/clusters-10 --pointsDir output/clusteredPoints --output /home/test/output
这个命令会将每一类的点列出来，seqFileDir指向的目录存放的是某类有几个点和该类的质心点及半径，即clusters-N目录，pointsDir指向的是所有输入点归于哪一类，即clusteredPoints目录，两者联合起来，就可以列举出属于同一类的所有点

注意seqFileDir指向的目录，要是最后一次迭代的结果目录，最后一次迭代的结果才是最终的结果

mahout Kmeans聚类有两个重要参数：收敛Delta和最大迭代次数.所以有时候改敛时,并还没有达到最大迭代次数

关于mahout命令的运行的几点说明

1.如果没设置HADOOP_HOME，mahout seqdumper的输入路径是本地的目录，而不是HDFS上的目录，如果要查看HDFS上的结果，需要先将文件从HDFS上拷下来，当设置了HADOOP_HOME后，用seqdumper去查看结果时，输入路径则是HDFS上的目录。

2.读写路径跟源文件中是不是用到hadoop的FileSystem类无关，前面一直理解错了，以为用到这个类，就认为一定是在HDFS上操作，自己写了一个简单的SequenceFile文件读写测试，发现刚开始run as->java application，读写操作是操作的本地目录，如果run as->run on hadoop，则读写操作就在HDFS上，将hadoop停掉后，此时在去run as->java application，一直会提示连接不到hdfs，难道一次操作在hdfs上后，后面不管是run as->java application，还是run as->run on hadoop，都必须是在hdsf上吗？有知道原因的大侠，还请赐教！hadoop在启动过后，需要等一段时间，因为还在安全模式下，此时不能在hdfs上创建文件

3.将(Text，ParseText)->(Text，Text)，这样才能用seq2sparse将文本转成向量，如果不这样的话，必须自己将文本信息用tfidf算法转成对应的数组，然后再由

RandomAccessSparseVector类或DenseVector类包装成向量，因为现有的算法中，还没有直接处理文本的，全都要转成数字来度量特征，然后根据某种条件收敛，从这里也可以看出计算机对数学的依赖有多大了，自然语言是不好处理的。

mahout安装的更多相关文章

mahout 安装测试
1 下载在http://archive.apache.org/dist/mahout下载相应版本的mahout 版本,获取官网查看http://mahout.apache.org 相关的信息
Mahout安装部署
0x01 简介 Mahout 是一套具有可扩充能力的机器学习类库.它提供机器学习框架的同时,还实现了一些可扩展的机器学习领域经典算法的实现,可以帮助开发人员更加方便快捷地创建智能应用程序.通过和 Ap ...
Mahout 安装配置
http://log.medcl.net/item/2011/02/mahout_install/ Apache Mahout是一个机器学习的框架,构建在hadoop上支持大规模数据集的处理,目前最新 ...
Mahout安装与配置
一.安装mahout 1.下载mahout(mahout-distribution-0.9.tar.gz) http://pan.baidu.com/s/1kUtOMQb 2.解压至指定目录我平时都 ...
mahout安装配置
1.下载mahout 下载地址:http://mahout.apache.org 我下载的最新版:mahout-distribution-0.9 2.把mahout解压到你想存放的文档,我是放在/Us ...
hadoop家族之mahout安装
步骤一.下载mahout http://www.apache.org/dyn/closer.cgi/mahout/ 我下载的是 mahout-distribution-0.9.tar.gz 16-F ...
Centos下mahout安装与配置
对于Mahout的安装与配置,须要一个前提.就是hadoop已经安装. 假设没有安装能够參考. http://blog.csdn.net/u012965373/article/details/4533 ...
在mahout安装目录下输入mahout 提示 ERROR: Could not find mahout-examples-*.job
错误:ERROR: Could not find mahout-examples-*.job in /home/grid/mahout-distribution-0.8 or /home/grid/m ...
mahout 安装
1. 下载mahout-distribution-0.5.tar.gz 并解压: 2.配置环境变量: /etc/profile export MAHOUT_HOME=/home/mahout/ exp ...

随机推荐

ConcurrentHashMap内存溢出问题
写在前面上周,同事写了一段ConcurrentHashMap的测试代码,说往map里放了32个元素就内存溢出了,我大致看了一下他的代码及运行的jvm参数,觉得很奇怪,于是就自己捣鼓了一下.首先上一段 ...
ARM汇编编程基础之一 —— 寄存器
ARM的汇编编程,本质上就是针对CPU寄存器的编程,所以我们首先要弄清楚ARM有哪些寄存器?这些寄存器都是如何使用的? ARM寄存器分为2类,普通寄存器和状态寄存器寄存器类别寄存器在汇编中的名称 ...
如何自定义 maven中的archetype
1.首先使用eclipse创建一个新的maven project,然后把配置好的一些公用的东西放到相应的目录下面比如说会将一些常用的java代码存放到src/main/java目录下面: 会将一些通 ...
MTK65XX平台充电调试总结
MTK平台充电调试总结摘要:调试电池的充放电管理,首先须要深入了解锂电池的电池原理和特点.充放电特性以及主要的电池安全问题.然后须要对MTK的电池管理驱动程序有深入的了解.理解电池充放电算法的基本原 ...
加快Qemu Aarch32虚拟开发板的启动速度
软件版本 Qemu: 2.8.0 虚拟开发板: vexpress-ca9 概述之前的博文介绍了将Python移植到开发板上, 根文件系统采用的是ramdisk, 这个文件系统的缺点是修改的内容重启会 ...
CListCtrlEx：一个支持文件拖放和实时监视的列表控件——用未公开API函数实现Shell实时监视
一.需求无论何时,当你在Explorer窗口中创建.删除或重命名一个文件夹/文件,或者插入拔除移动存储器时,Windows总是能非常快速地更新它所有的视图.有时候我们的程序中也需要这样的功能,以便当用 ...
SpringBoot配置多数据源
原文:https://www.jianshu.com/p/033e0ebeb617 项目中用到了两个数据库,分别是Oracle和Mysql,涉及到了多数据源问题,这里做下记录官方讲解:https:/ ...
dev的documentManager，多个tab窗体
private void AddDocument(Funcation CurrentModel) { if (!string.IsNullOrWhiteSpace(CurrentModel.Funct ...
java数组和字符串相互转换
将字符串变成数组 Java.lang包中有String.split()方法,java中通常用split()分割字符串,返回的是一个数组. 特殊,转义字符,必须加"\\"(“.”和“ ...
algid parse error, not a sequence错误
主要使用由于没有对使用openssl生成的公私密钥对进行pkcs8编码,导致程序无法识别参考支付宝.项目用用到RSA加密用openssl生成了一个公私密钥对,在对加密字符串进行数字签名的时候,程序一直 ...

mahout安装

mahout安装的更多相关文章

随机推荐

热门专题