[Mahout] 完整部署过程

概述

Mahout底层依赖Hadoop，部署Mahout过程中最困难的就是Hadoop的部署

本文假设用户本身没有进行Hadoop的部署，记述部署Mahout的过程

关于Mahout

官网：http://mahout.apache.org/

介绍：http://www.ibm.com/developerworks/cn/java/j-mahout/

目录：

1. 准备工作

2. 部署Hadoop

3. 部署测试Mahout

一. 准备工作

0. 工具列表及版本

(1) 平台：Linux Ubuntu 13.10 64-bit

(2) Java：1.7.0_45，下载地址：http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html

(3) Maven：apache-maven-3.1.1-bin.tar.gz，下载地址：http://maven.apache.org/download.cgi

(4) protobuf：protobuf-2.5.0.tar.gz，下载地址：https://code.google.com/p/protobuf/downloads/list

(5) Hadoop：hadoop-2.2.0-src.tar.gz，注意：这里要下载源码包，下载地址：http://www.apache.org/dyn/closer.cgi/hadoop/common/

(6) Mahout：mahout-distribution-0.8.tar.gz，下载地址：http://www.apache.org/dyn/closer.cgi/mahout/

1. Java and Maven

这一步假设已经完成，完成路径配置，$ java -version，$ javac -version，$ mvn -version输出正确版本号

二. Hadoop的编译、部署和运行

1. 编译Hadoop源代码

(1) 问题引入

Hadoop官方只提供了32位的预编译包，如果将32位Hadoop部署在64位服务器上，运行时会报错：

Java HotSpot(TM) 64-BitServer VM warning: You have loaded library/usr/local/bin/hadoop/lib/native/libhadoop.so.1.0.0 which might havedisabled stack guard. The VM will try to fix the stack guard now.

It's highly recommendedthat you fix the library with 'execstack -c <libfile>', or link it with'-z noexecstack'.

如果在运行时看到这段话，那不好意思，你需要重新编译Hadoop，本人就是经历了这个过程。

可以确定一下服务器上的Hadoop是多少位构建的：

$ file $HADOOP_HOME/lib/native/libhadoop.so.1.0.0

(2) 编译过程

A. 准备工作

$ sudo apt-get install autoconf automake libtool cmake

$ sudo apt-get install libssl-dev

$ sudo apt-get install libncurses5-dev

$ sudo apt-get install gcc*

B. 安装protobuf

准备步骤中下载好的protobuf-2.5.0.tar.gz，解压，./configure , make ,make install，检查protoc --version

如果成功，则会输出版本号信息，例如：libprotoc 2.5.0
如果有问题，则会输出错误内容：protoc: error while loading shared libraries: libprotoc.so.8: cannot open shared

错误原因：protobuf的默认安装路径是/usr/local/lib，而/usr/local/lib 不在Ubuntu体系默认的 LD_LIBRARY_PATH 里，所以就找不到该lib

解决方法：
1. 创建文件 /etc/ld.so.conf.d/libprotobuf.conf 包含内容：/usr/local/lib

2. 输入命令： $ sudo ldconfig

参考：http://blog.csdn.net/xocoder/article/details/9155901

C. 修改源码中的hadoop-common-project/hadoop-auth/pom.xml文件

添加：

<dependency>
<groupId>org.mortbay.jetty</groupId>
<artifactId>jetty-util</artifactId>
<scope>test</scope>
</dependency>

说明：不添加上述配置直接进行编译，会遇到

[ERROR] class file for org.mortbay.component.AbstractLifeCycle not found

[ERROR] 找不到org.mortbay.component.AbstractLifeCycle的类文件

这是Hadoop的一个Bug，参照https://issues.apache.org/jira/browse/HADOOP-10110

D. 使用Maven编译Hadoop源码

yusong@yusong-ps:~/下载/hadoop-2.2.0-src$ mvn package -Pdist,native -DskipTests -Dtar

大约需要15分钟，视网络情况而定，直至提示success编译完成

编译后可以在hadoop-dist/target里边找到压缩包hadoop-2.2.0.tar.gz

2. 部署Hadoop

单节点部署，参考：http://blog.csdn.net/focusheart/article/details/14005893

要注意，一定要进行HADOOP_HOME与HADOOP_CONF_DIR的路径配置，/etc/profile相关内容如下：

如后在使用Hadoop的时候遇到类似 mkdir: `./testdata': No such file or directory 这样的提示，那就回去设置一下吧，设置完就好了

3. 运行Hadoop

按照步骤2中参考博文上的操作即可，确保执行$ jps 能看到 NameNode和DataNode

浏览器访问http://127.0.0.1:50070/dfshealth.jsp能看到信息

三. 部署测试Mahout

1. 解压，设置好MAHOUT_HOME和bin的PATH

2. 确保Hadoop运行正常，因为Mahout是依赖Hadoop进行计算的

3. 准备测试数据，wget http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data

$ cd $MAHOUT_HOME

$ hadoop fs -mkdir /testdata # mahout会默认找这个文件名的目录

$ hadoop fs -put synthetic_control.data testdata

$ hadoop fs -lsr testdata

4. 执行聚类算法，输入mahout命令会有列出很多算法，其输入目录默认为testdata

mahout org.apache.mahout.clustering.syntheticcontrol.canopy.Job
          mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
          mahout org.apache.mahout.clustering.syntheticcontrol.fuzzykmeans.Job
          mahout org.apache.mahout.clustering.syntheticcontrol.dirichlet.Job
          mahout org.apache.mahout.clustering.syntheticcontrol.meanshift.Job

使用mahout org.apache.mahout.clustering.syntheticcontrol.canopy.Job进行计算

5. 命令行输出计算结果，默认输出结果在output/目录下

四. 参考文章

http://blog.csdn.net/bamuta/article/details/13506893

http://blog.csdn.net/licongcong_0224/article/details/12972889

http://www.cnblogs.com/duzl/archive/2012/05/18/2507470.html

关于停止Hadoop时no datanode to stop的问题，参考：http://blog.sina.com.cn/s/blog_6d932f2a0101fsxn.html

[Mahout] 完整部署过程的更多相关文章

ice grid 完整部署过程
待补充一理论准备一个IceGrid集群有一个registry(注册表,用于定位)和多个node组成. IceGrid配置包括集群配置和应用配置: config.grid是集群配置,配置Regis ...
给tomcat容器配置SSL的记录,包含项目完整部署过程
给tomcat容器配置SSL(https) 昨天公司有一个旧的项目要部署, 服务器(OS是windows 10) 数据库都是新买的, 写个博客记录一下 1, 下载证书(以阿里云为例子) 参考链接: h ...
完整部署CentOS7.2+OpenStack+kvm 云平台环境（1）--基础环境搭建
公司在IDC机房有两台很高配置的服务器,计划在上面部署openstack云平台虚拟化环境,用于承载后期开发测试和其他的一些对内业务.以下对openstack的部署过程及其使用做一详细介绍,仅仅依据本人 ...
完整部署CentOS7.2+OpenStack+kvm 云平台环境（2）--云硬盘等后续配置
继上一篇博客介绍了完整部署CentOS7.2+OpenStack+kvm 云平台环境(1)--基础环境搭建,本篇继续讲述后续部分的内容 1 虚拟机相关1.1 虚拟机位置介绍 openstack上创建的 ...
理解裸机部署过程ironic
部署物理机跟部署虚拟机的概念在nova来看是一样,都是nova通过创建虚拟机的方式来触发,只是底层nova-scheduler和nova-compute的驱动不一样.虚拟机的底层驱动采用的libvir ...
Kubernetes容器集群管理环境 - 完整部署（中篇）
接着Kubernetes容器集群管理环境 - 完整部署(上篇)继续往下部署: 八.部署master节点master节点的kube-apiserver.kube-scheduler 和 kube-con ...
大数据学习笔记——Hadoop高可用完全分布式模式完整部署教程(包含zookeeper)
高可用模式下的Hadoop集群搭建本篇博客将会在之前写过的Linux的完整部署的基础上进行,暂时不会涉及到伪分布式或者完全分布式模式搭建,由于HA模式涉及到的配置文件较多,维护起来也较为复杂,相信学 ...
Kubernetes容器集群管理环境 - 完整部署（下篇）
在前一篇文章中详细介绍了Kubernetes容器集群管理环境 - 完整部署(中篇),这里继续记录下Kubernetes集群插件等部署过程: 十一.Kubernetes集群插件插件是Kubernete ...
完整部署CentOS7.2+OpenStack+kvm 云平台环境（3）--为虚拟机指定固定ip
之前在测试环境(centos7.2)上部署了openstack云平台(完整部署CentOS7.2+OpenStack+kvm 云平台环境(1)--基础环境搭建),openstack在neutron组网 ...

随机推荐

ES5对Array增强的9个API
为了更方便的对Array进行操作,ES5规范在Array的原型上新增了9个方法,分别是forEach.filter.map.reduce.reduceRight.some.every.indexOf ...
Linux 江湖系列阶段性总结
引言我使用 Linux 已经有很多年了,最开始接触 Linux 的时候是从 RedHat 9(没有 Enterprise),中途换过 N 个不同的发行版.多年前,我在 BlogJava 上面分享 J ...
ASP.NET MVC5+EF6+EasyUI 后台管理系统（65）-MVC WebApi 用户验证 (1)
系列目录前言: WebAPI主要开放数据给手机APP,其他需要得知数据的系统,或者软件应用,所以移动端与系统的数据源往往是相通的. Web 用户的身份验证,及页面操作权限验证是B/S系统的基础功能, ...
EntityFramework之DetectChanges's Secrets（三）（我为EF正名）
前言对于应用程序开发者来说,通常不需要考虑太多对于Entity Framework中的变更追踪(change tracking),但是变更追踪和DetectChanges方法是栈的一部分,在这其中, ...
PHP代码优化
1 代码优化 1 尽量静态化如果一个方法能被静态,那就声明它为静态的,速度可提高1/4,甚至我测试的时候,这个提高了近三倍. 当然了,这个测试方法需要在十万级以上次执行,效果才明显. 其实静态方法和 ...
利用poi导出Excel
import java.lang.reflect.Field;import java.lang.reflect.InvocationTargetException;import java.lang.r ...
Lind.DDD.LindMQ~关于持久化到Redis的消息格式
回到目录关于持久化到Redis的消息格式,主要是说在Broker上把消息持久化的过程中,需要存储哪些类型的消息,因为我们的消息是分topic的,而每个topic又有若干个queue组成,而我们的to ...
iOS从零开始学习直播之3.美颜
任何一款直播软件都必须进行美颜,不然哪来的那么多美女,所以技术改变世界,不只是说说而已.美颜在采集的时候就得就行,让主播实时看到直播的效果. 1.美颜原理其实美颜的本质就是美白和磨皮,分别通 ...
T-SQL字符串相加之后被截断的那点事
本文出处:http://www.cnblogs.com/wy123/p/6217772.html 字符串自身相加, 虽然赋值给了varchar(max)类型的变量,在某些特殊情况下仍然会被“截断”,这 ...
我的MYSQL学习心得（九）索引
我的MYSQL学习心得(九) 索引我的MYSQL学习心得(一) 简单语法我的MYSQL学习心得(二) 数据类型宽度我的MYSQL学习心得(三) 查看字段长度我的MYSQL学习心得(四) 数据类 ...

[Mahout] 完整部署过程

[Mahout] 完整部署过程的更多相关文章

随机推荐

热门专题