本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，博主为石山园，博客地址为 http://www.cnblogs.com/shishanyuan 。该系列课程是应邀实验楼整理编写的，这里需要赞一下实验楼提供了学习的新方式，可以边看博客边上机实验，课程地址为 https://www.shiyanlou.com/courses/237

【注】该系列所使用到安装包、测试数据和代码均可在百度网盘下载，具体地址为 http://pan.baidu.com/s/10PnDs，下载该PDF文件

、搭建环境

部署节点操作系统为CentOS，防火墙和SElinux禁用，创建了一个shiyanlou用户并在系统根目录下创建/app目录，用于存放Hadoop等组件运行包。因为该目录用于安装hadoop等组件程序，用户对shiyanlou必须赋予rwx权限（一般做法是root用户在根目录下创建/app目录，并修改该目录拥有者为shiyanlou(chown –R shiyanlou:shiyanlou /app）。

Hadoop搭建环境：

l 虚拟机操作系统： CentOS6.6 64位，单核，1G内存

l JDK：1.7.0_55 64位

l Hadoop：1.1.2

、Mahout介绍

Mahout 是 Apache Software Foundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。AMahout包含许多实现，包括聚类、分类、推荐过滤、频繁子项挖掘。此外，通过使用 Apache Hadoop 库，Mahout 可以有效地扩展到云中。

Mahout的意思是大象的饲养者及驱赶者。Mahout 这个名称来源于该项目（有时）使用 Apache Hadoop —其徽标上有一头黄色的大象 —来实现可伸缩性和容错性。

Mahout 项目是由 Apache Lucene（开源搜索）社区中对机器学习感兴趣的一些成员发起的，他们希望建立一个可靠、文档翔实、可伸缩的项目，在其中实现一些常见的用于集群和分类的机器学习算法。该社区最初基于 Ng et al. 的文章 “Map-Reduce for Machine Learning on Multicore”（见参考资料），但此后在发展中又并入了更多广泛的机器学习方法。Mahout 的目标还包括：

l 建立一个用户和贡献者社区，使代码不必依赖于特定贡献者的参与或任何特定公司和大学的资金。

l 专注于实际用例，这与高新技术研究及未经验证的技巧相反。

l 提供高质量文章和示例

、搭建Mahout环境

3.1 部署过程

3.1.1 下载Mahout

在Apache下载最新的Mahout软件包，点击下载会推荐最快的镜像站点，以下为下载地址：http://archive.apache.org/dist/mahout/0.6/

也可以在/home/shiyanlou/install-pack目录中找到该安装包，解压该安装包并把该安装包复制到/app目录中

cd /home/shiyanlou/install-pack

tar -xzf mahout-distribution-0.6.tar.gz

mv mahout-distribution-0.6 /app/mahout-0.6

3.1.2 设置环境变量

使用如下命令编辑/etc/profile文件：

sudo vi /etc/profile

声明mahout的home路径和在path加入bin的路径：

export MAHOUT_HOME=/app/mahout-0.6

export MAHOUT_CONF_DIR=/app/mahout-0.6/conf

export PATH=$PATH:$MAHOUT_HOME/bin

编译配置文件/etc/profile，并确认生效

source /etc/profile

echo $PATH

3.1.3 验证安装完成

重新登录终端，确保hadoop集群启动，键入mahout --help命令，检查Mahout是否安装完好，看是否列出了一些算法：

mahout --help

3.2 测试例子

3.2.1 下载测试数据

下载一个文件synthetic_control.data，下载地址http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data，也可以在/home/shiyanlou/install-pack/class9目录中找到该测试数据文件，把这个文件放在$MAHOUT_HOME/testdata目录下

cd /home/shiyanlou/install-pack/class9

mkdir /app/mahout-0.6/testdata

mv synthetic_control.data /app/mahout-0.6/testdata

3.2.2 启动Hadoop

通过下面命令启动hadoop并通过jps查看进程

cd /app/hadoop-1.1.2/bin

./start-all.sh

jps

3.2.3 使用kmeans算法

使用如下命令进行kmeans算法测试：

cd /app/mahout-0.6/

mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

这里需要说明下，当你看到下面的代码时以为是错的，其实不是，原因：MAHOUT_LOCAL：设置是否本地运行，如果设置该参数就不会在hadoop运行了，一旦设置这个参数那HADOOP_CONF_DIR 和HADOOP_HOME两个参数就自动失效了。

MAHOUT_LOCAL is not set, so we don't add HADOOP_CONF_DIR to classpath.

no HADOOP_HOME set , running locally

3.2.4 查看结果

结果会在根目录建立output新文件夹，如果下图结果表示mahout安装正确且运行正常：

cd /app/mahout-0.6/output

、测试例子：运行20newsgroup

4.1 算法流程

朴素贝叶斯分类是一种十分简单的分类算法，朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率哪个最大，就认为此待分类项属于哪个类别。

个不同的集合。这20个新闻组集合采集最近流行的数据集合到文本程序中作为实验，根据机器学习技术。例如文本分类，文本聚集。我们将使用Mahout的Bayes Classifier创造一个模型，它将一个新文档分类到这20个新闻组集合范例演示

4.2 实现过程（mahout 0.6版本）

4.2.1 下载数据并解压数据

下载20Newsgroups数据集，地址为 http://qwone.com/~jason/20Newsgroups/ ，下载20news-bydate.tar.gz数据包，也可以在/home/shiyanlou/install-pack/class9目录中找到该测试数据文件：

解压20news-bydate.tar.gz数据包，解压后可以看到两个文件夹，分别为训练原始数据和测试原始数据：

cd /home/shiyanlou/install-pack/class9

tar -xzf 20news-bydate.tar.gz

在mahout根目录下建data文件夹，然后把20news训练原始数据和测试原始数据迁移到该文件夹下：

mkdir /app/mahout-0.6/data

mv 20news-bydate-t* /app/mahout-0.6/data

ll /app/mahout-0.6/data

4.2.2 建立训练集

通过如下命令建立训练集，训练的数据在20news-bydate-train目录中，输出的训练集目录为 bayes-train-input：

cd /app/mahout-0.6

mahout org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups \

-p /app/mahout-0.6/data/20news-bydate-train \

-o /app/mahout-0.6/data/bayes-train-input \

-a org.apache.mahout.vectorizer.DefaultAnalyzer \

-c UTF-8

4.2.3 建立测试集

通过如下命令建立训练集，训练的数据在20news-bydate-test目录中，输出的训练集目录为 bayes-test-input：

mahout org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups \

-p /app/mahout-0.6/data/20news-bydate-test \

-o /app/mahout-0.6/data/bayes-test-input \

-a org.apache.mahout.vectorizer.DefaultAnalyzer \

-c UTF-8

4.2.4 上传数据到HDFS

在HDFS中新建/class9/20news文件夹，把生成的训练集和测试集上传到HDFS的/class9/20news目录中：

hadoop fs -mkdir /class9/20news

hadoop fs -put /app/mahout-0.6/data/bayes-train-input /class9/20news

hadoop fs -put /app/mahout-0.6/data/bayes-test-input /class9/20news

hadoop fs -ls /class9/20news

hadoop fs -ls /class9/20news/bayes-test-input

4.2.5 训练贝叶斯分类器

使用trainclassifier类训练在HDFS中/class9/20news/bayes-train-input的数据，生成的模型放到/class9/ 20news/newsmodel 目录中：

mahout trainclassifier \

-i /class9/20news/bayes-train-input \

-o /class9/20news/newsmodel \

-type cbayes \

-ng 2 \

-source hdfs

4.2.6 观察训练作业运行过程

注：实验楼为命令行界面，无法观测到该步骤界面，以下描述仅做参考

分钟左右：

点击查看具体作业信息

map运行情况

作业运行情况

4.2.7 查看生成模型

通过如下命令查看模型内容：

hadoop fs -ls /class9/20news

hadoop fs -ls /class9/20news/newsmodel

hadoop fs -ls /class9/20news/newsmodel/trainer-tfIdf

4.2.8 测试贝叶斯分类器

使用testclassifier类训练在HDFS中./20news/bayestest-input的数据，使用的模型路径为./ 20news/newsmodel：

mahout testclassifier \

-m /class9/20news/newsmodel \

-d /class9/20news/bayes-test-input \

-type cbayes \

-ng 2 \

-source hdfs \

-method mapreduce

4.2.9 观察训练作业运行过程

注：实验楼为命令行界面，无法观测到该步骤界面，以下描述仅做参考

个作业，大概运行了5分钟左右：

作业的基本信息

map运行情况

reduce运行情况

4.2.10 查看结果

类别，这就是我们之前给的20个输入文件，列中的数据说明每个类别中被分配到的字节个数，classified说明应该被分配到的总数

381 0 0 0 0 9 1 0 0 0 1 0 0 2 0 1 0 0 3 0 0 | 398 a = rec.motorcycles

篇文档被划为了a类，这个是正确的数据，其它的分别表示划到 b~u类中的数目。我们可以看到其正确率为 381/398=0.9573 ,可见其正确率还是很高的了。

4.3 实现过程（mahout 0.7+版本）

在0.7版本的安装目录下$MAHOUT_HOME/examples/bin下有个脚本文件classifu-20newsgroups.sh，这个脚本中执行过程是和前面分布执行结果是一致的，只不过将各个API用shell脚本封装到一起了。从0.7版本开始，Mahout移除了命令行调用的API：prepare20newsgroups、trainclassifier和testclassifier，只能通过shell脚本执行。

执行 $MAHOUT_HOME/examples/bin/classify-20newsgroups.sh 四个选项中选择第一个选项，

执行结果如下：

、问题解决

5.1 使用mahout0.7+版本对20Newsgroup数据建立训练集时出错

使用如下命令对20Newsgroupt数据建立训练集时：

mahout org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups \

-p /app/mahout-0.9/data/20news-bydate-train \

-o /app/mahout-0.9/data/bayes-train-input \

-a org.apache.mahout.vectorizer.DefaultAnalyzer\

-c UTF-8

出现如下错误，原因在于从0.7版本开始，Mahout移除了命令行调用的prepare20newsgroups、trainclassifier和testclassifier API，只能通过shell脚本执行$MAHOUT_HOME/examples/bin/classify-20newsgroups.sh进行

14/12/7 21:31:35 WARN driver.MahoutDriver: Unable to add class: org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups

14/12/7 21:31:35 WARN driver.MahoutDriver: No org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups.props found on classpath, will use command-line arguments only

Unknown program 'org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups' chosen.

Valid program names are:

arff.vector: : Generate Vectors from an ARFF file or directory

baumwelch: : Baum-Welch algorithm for unsupervised HMM training

.......

Hadoop入门进阶课程9--Mahout介绍、安装与应用案例的更多相关文章

Hadoop入门进阶课程13--Chukwa介绍与安装部署
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,博主为石山园,博客地址为 http://www.cnblogs.com/shishanyuan ...
Hadoop入门进阶课程12--Flume介绍、安装与应用案例
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,博主为石山园,博客地址为 http://www.cnblogs.com/shishanyuan ...
Hadoop入门进阶课程11--Sqoop介绍、安装与操作
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,博主为石山园,博客地址为 http://www.cnblogs.com/shishanyuan ...
Hadoop入门进阶课程10--HBase介绍、安装与应用案例
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,博主为石山园,博客地址为 http://www.cnblogs.com/shishanyuan ...
Hadoop入门进阶课程8--Hive介绍和安装部署
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,博主为石山园,博客地址为 http://www.cnblogs.com/shishanyuan ...
Hadoop入门进阶课程7--Pig介绍、安装与应用案例
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,博主为石山园,博客地址为 http://www.cnblogs.com/shishanyuan ...
Hadoop入门进阶课程1--Hadoop1.X伪分布式安装
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,博主为石山园,博客地址为 http://www.cnblogs.com/shishanyuan ...
（转）Hadoop入门进阶课程
http://blog.csdn.net/yirenboy/article/details/46800855 1.Hadoop介绍 1.1Hadoop简介 Apache Hadoop软件库是一个框架, ...
Hadoop入门进阶课程6--MapReduce应用案例
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,博主为石山园,博客地址为 http://www.cnblogs.com/shishanyuan ...

随机推荐

gearman mysql udf
gearman安装 apt-get install gearman gearman-server libgearman-dev 配置bindip /etc/defalut/gearman-job-se ...
mysql 查看正在运行的进程
show processlist ; 显示正在运行的进程,使用Kill命令删除 kill 5260;
微信、陌陌等著名IM软件设计架构详解
对微信.陌陌等进行了分析,发出来分享一下(时间有些久了) 电量:对于移动设备最大的瓶颈就是电量了.因为用户不可能随时携带电源,充电宝.所以必须考虑到电量问题.那就要检查我们工程是不是有后台运行,心跳包 ...
结合Domino打造全功能的Grid
1. 需求说明: 在domino开发中我们经常会遇到表单上需要一个类似table的组件,你可以增删改等.比如我有一个张报核单据,上面需要详细列出每项金额的明细,我们先看完成后的效果: 上面 ...
easyui datagrid去掉加载提示
掉这个等待效果的方法:查了easyui的api,datagrid没有去掉这个遮罩层的方法或者属性,在网上找了半天也没人碰到相同的问题(可能比较easy就解决了吧).还好easyui是开源的,就研究它的 ...
Android gradle问题解决: This app has been built with an incorrect configuration. Please configure your build for VectorDrawableCompat
1. 问题描述: Android Studio在运行模拟器某些机型或者真机某些机型的时候发生闪退. 错误如下: Java.lang.RuntimeException: Unable to start ...
js笔记--1
1.创建一个layer层 var GameLayer = cc.Layer.extend({ _time:null, _ship:null, _backSky:null, // 构造函数 ctor:f ...
android国际化（多语言）
2013-03-18 23:45 13390人阅读评论(0) 收藏举报 1. 很大程度上,为什么 ...
Kernel Function--核函数收集
转自 http://www.zhizhihu.com/html/y2010/2292.html Kernel Functions Below is a list of some kernel func ...
Android开发（三十二）——延时
模拟延时 private class GetDataTask extends AsyncTask<Void, Void, String[]> { @Override protected S ...

Hadoop入门进阶课程9--Mahout介绍、安装与应用案例

、搭建环境

、Mahout介绍

、搭建Mahout环境

3.1 部署过程

3.1.1 下载Mahout

3.1.2 设置环境变量

3.1.3 验证安装完成

3.2 测试例子

3.2.1 下载测试数据

3.2.2 启动Hadoop

3.2.3 使用kmeans算法

3.2.4 查看结果

、测试例子：运行20newsgroup

4.1 算法流程

4.2 实现过程（mahout 0.6版本）

4.2.1 下载数据并解压数据

4.2.2 建立训练集

4.2.3 建立测试集

4.2.4 上传数据到HDFS

4.2.5 训练贝叶斯分类器

4.2.6 观察训练作业运行过程

4.2.7 查看生成模型

4.2.8 测试贝叶斯分类器

4.2.9 观察训练作业运行过程

4.2.10 查看结果

4.3 实现过程（mahout 0.7+版本）

、问题解决

5.1 使用mahout0.7+版本对20Newsgroup数据建立训练集时出错

Hadoop入门进阶课程9--Mahout介绍、安装与应用案例的更多相关文章

随机推荐

热门专题