概述
 
     Mahout底层依赖Hadoop,部署Mahout过程中最困难的就是Hadoop的部署
     本文假设用户本身没有进行Hadoop的部署,记述部署Mahout的过程
 
     关于Mahout
     官网:http://mahout.apache.org/
 
 
目录:
 
    1. 准备工作
    2. 部署Hadoop
    3. 部署测试Mahout
 
 
一. 准备工作
 
    0. 工具列表及版本
 
         (1) 平台:Linux Ubuntu 13.10 64-bit
         (3) Maven:apache-maven-3.1.1-bin.tar.gz,下载地址:http://maven.apache.org/download.cgi
         (4) protobuf:protobuf-2.5.0.tar.gz,下载地址:https://code.google.com/p/protobuf/downloads/list
         (5) Hadoop:hadoop-2.2.0-src.tar.gz,注意:这里要下载源码包,下载地址:http://www.apache.org/dyn/closer.cgi/hadoop/common/
         (6) Mahout:mahout-distribution-0.8.tar.gz,下载地址:http://www.apache.org/dyn/closer.cgi/mahout/
 
    1. Java and Maven
 
         这一步假设已经完成,完成路径配置,$ java -version,$ javac -version,$ mvn -version输出正确版本号
 
 
二. Hadoop的编译、部署和运行
 
    1. 编译Hadoop源代码
 
         (1) 问题引入
 
          Hadoop官方只提供了32位的预编译包,如果将32位Hadoop部署在64位服务器上,运行时会报错:
         

Java HotSpot(TM) 64-BitServer VM warning: You have loaded library/usr/local/bin/hadoop/lib/native/libhadoop.so.1.0.0 which might havedisabled stack guard. The VM will try to fix the stack guard now.

It's highly recommendedthat you fix the library with 'execstack -c <libfile>', or link it with'-z noexecstack'.

 
         如果在运行时看到这段话,那不好意思,你需要重新编译Hadoop,本人就是经历了这个过程。
 
         可以确定一下服务器上的Hadoop是多少位构建的:
         $ file $HADOOP_HOME/lib/native/libhadoop.so.1.0.0
         
              
         (2) 编译过程
 
         A.  准备工作
 
         $ sudo apt-get install autoconf automake libtool cmake
         $ sudo apt-get install libssl-dev
         $ sudo apt-get install libncurses5-dev
         $ sudo apt-get install gcc*
 
         B. 安装protobuf
 
         准备步骤中下载好的protobuf-2.5.0.tar.gz,解压,./configure , make ,make install,检查protoc --version
        

如果成功,则会输出版本号信息,例如:libprotoc 2.5.0
         如果有问题,则会输出错误内容:protoc: error while loading shared libraries: libprotoc.so.8: cannot open shared

错误原因:protobuf的默认安装路径是/usr/local/lib,而/usr/local/lib 不在Ubuntu体系默认的 LD_LIBRARY_PATH 里,所以就找不到该lib

解决方法:
         1. 创建文件 /etc/ld.so.conf.d/libprotobuf.conf 包含内容:/usr/local/lib

2. 输入命令: $ sudo ldconfig

         
 
         C. 修改源码中的hadoop-common-project/hadoop-auth/pom.xml文件
 
         添加:       
  1. <dependency>
  2. <groupId>org.mortbay.jetty</groupId>
  3. <artifactId>jetty-util</artifactId>
  4. <scope>test</scope>
  5. </dependency>
        
         说明:不添加上述配置直接进行编译,会遇到
         [ERROR] class file for org.mortbay.component.AbstractLifeCycle not found
         [ERROR] 找不到org.mortbay.component.AbstractLifeCycle的类文件
         这是Hadoop的一个Bug,参照https://issues.apache.org/jira/browse/HADOOP-10110
 
         D. 使用Maven编译Hadoop源码
  

yusong@yusong-ps:~/下载/hadoop-2.2.0-src$ mvn package -Pdist,native -DskipTests -Dtar

大约需要15分钟,视网络情况而定,直至提示success编译完成

编译后可以在hadoop-dist/target里边找到压缩包hadoop-2.2.0.tar.gz

         
 
    2. 部署Hadoop
 
         单节点部署,参考:http://blog.csdn.net/focusheart/article/details/14005893
         要注意,一定要进行HADOOP_HOME与HADOOP_CONF_DIR的路径配置,/etc/profile相关内容如下:
         
 
         如后在使用Hadoop的时候遇到类似 mkdir: `./testdata': No such file or directory 这样的提示,那就回去设置一下吧,设置完就好了
 
    3. 运行Hadoop
 
         按照步骤2中参考博文上的操作即可,确保执行$ jps 能看到 NameNode和DataNode
         浏览器访问http://127.0.0.1:50070/dfshealth.jsp能看到信息
 
三. 部署测试Mahout
 
    1. 解压,设置好MAHOUT_HOME和bin的PATH
 
    2. 确保Hadoop运行正常,因为Mahout是依赖Hadoop进行计算的
 
 
         $ cd $MAHOUT_HOME
         $ hadoop fs -mkdir /testdata              # mahout会默认找这个文件名的目录
         $ hadoop fs -put synthetic_control.data testdata
         $ hadoop fs -lsr testdata
 
    4. 执行聚类算法,输入mahout命令会有列出很多算法,其输入目录默认为testdata
 

mahout org.apache.mahout.clustering.syntheticcontrol.canopy.Job 
          mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
          mahout org.apache.mahout.clustering.syntheticcontrol.fuzzykmeans.Job
          mahout org.apache.mahout.clustering.syntheticcontrol.dirichlet.Job
          mahout org.apache.mahout.clustering.syntheticcontrol.meanshift.Job

使用mahout org.apache.mahout.clustering.syntheticcontrol.canopy.Job进行计算

5. 命令行输出计算结果,默认输出结果在output/目录下

 
四. 参考文章
 
    关于停止Hadoop时no datanode to stop的问题,参考:http://blog.sina.com.cn/s/blog_6d932f2a0101fsxn.html

[Mahout] 完整部署过程的更多相关文章

  1. ice grid 完整部署过程

    待补充 一 理论准备 一个IceGrid集群有一个registry(注册表,用于定位)和多个node组成. IceGrid配置包括集群配置和应用配置: config.grid是集群配置,配置Regis ...

  2. 给tomcat容器配置SSL的记录,包含项目完整部署过程

    给tomcat容器配置SSL(https) 昨天公司有一个旧的项目要部署, 服务器(OS是windows 10) 数据库都是新买的, 写个博客记录一下 1, 下载证书(以阿里云为例子) 参考链接: h ...

  3. 完整部署CentOS7.2+OpenStack+kvm 云平台环境(1)--基础环境搭建

    公司在IDC机房有两台很高配置的服务器,计划在上面部署openstack云平台虚拟化环境,用于承载后期开发测试和其他的一些对内业务.以下对openstack的部署过程及其使用做一详细介绍,仅仅依据本人 ...

  4. 完整部署CentOS7.2+OpenStack+kvm 云平台环境(2)--云硬盘等后续配置

    继上一篇博客介绍了完整部署CentOS7.2+OpenStack+kvm 云平台环境(1)--基础环境搭建,本篇继续讲述后续部分的内容 1 虚拟机相关1.1 虚拟机位置介绍 openstack上创建的 ...

  5. 理解裸机部署过程ironic

    部署物理机跟部署虚拟机的概念在nova来看是一样,都是nova通过创建虚拟机的方式来触发,只是底层nova-scheduler和nova-compute的驱动不一样.虚拟机的底层驱动采用的libvir ...

  6. Kubernetes容器集群管理环境 - 完整部署(中篇)

    接着Kubernetes容器集群管理环境 - 完整部署(上篇)继续往下部署: 八.部署master节点master节点的kube-apiserver.kube-scheduler 和 kube-con ...

  7. 大数据学习笔记——Hadoop高可用完全分布式模式完整部署教程(包含zookeeper)

    高可用模式下的Hadoop集群搭建 本篇博客将会在之前写过的Linux的完整部署的基础上进行,暂时不会涉及到伪分布式或者完全分布式模式搭建,由于HA模式涉及到的配置文件较多,维护起来也较为复杂,相信学 ...

  8. Kubernetes容器集群管理环境 - 完整部署(下篇)

    在前一篇文章中详细介绍了Kubernetes容器集群管理环境 - 完整部署(中篇),这里继续记录下Kubernetes集群插件等部署过程: 十一.Kubernetes集群插件 插件是Kubernete ...

  9. 完整部署CentOS7.2+OpenStack+kvm 云平台环境(3)--为虚拟机指定固定ip

    之前在测试环境(centos7.2)上部署了openstack云平台(完整部署CentOS7.2+OpenStack+kvm 云平台环境(1)--基础环境搭建),openstack在neutron组网 ...

随机推荐

  1. ABP文档 - Mvc 控制器

    文档目录 本节内容: 简介 AbpController基类 本地化 其它 过滤 异常处理和结果包装 审计日志 验证 授权 工作单元 反伪造 模型绑定器 简介 ABP通过nuget包Abp.Web.Mv ...

  2. 算法与数据结构(十五) 归并排序(Swift 3.0版)

    上篇博客我们主要聊了堆排序的相关内容,本篇博客,我们就来聊一下归并排序的相关内容.归并排序主要用了分治法的思想,在归并排序中,将我们需要排序的数组进行拆分,将其拆分的足够小.当拆分的数组中只有一个元素 ...

  3. Android 7.1 - App Shortcuts

    Android 7.1 - App Shortcuts 版权声明:本文为博主原创文章,未经博主允许不得转载. 微博:厉圣杰 源码:AndroidDemo/Shortcuts 文中如有纰漏,欢迎大家留言 ...

  4. 简约之美Jodd-http--深入源码理解http协议

    Jodd 是一个开源的 Java 工具集, 包含一些实用的工具类和小型框架.简单,却很强大! jodd-http是一个轻巧的HTTP客户端.现在我们以一个简单的示例从源码层看看是如何实现的? Http ...

  5. PHP设计模式(五)建造者模式(Builder For PHP)

    建造者模式:将一个复杂对象的构造与它的表示分离,使同样的构建过程可以创建不同的表示的设计模式. 设计场景: 有一个用户的UserInfo类,创建这个类,需要创建用户的姓名,年龄,爱好等信息,才能获得用 ...

  6. SpringMVC+Shiro权限管理【转】

    1.权限的简单描述 2.实例表结构及内容及POJO 3.Shiro-pom.xml 4.Shiro-web.xml 5.Shiro-MyShiro-权限认证,登录认证层 6.Shiro-applica ...

  7. vue.js几行实现的简单的todo list

    序:目前前端框架如:vue.react.angular,构建工具fis3.gulp.webpack等等...... 可谓是五花八门,层出不穷,眼花缭乱...其实吧只要你想玩还是可以玩玩的..下面是看了 ...

  8. 解决:win10_x64 VMware Workstation and Hyper-V are not compatible. Remove the Hyper-V role from the system before running VMware Workstation

    bcdedit /set hypervisorlaunchtype off A reboot of of the Windows OS is necessary  必须重启才能生效   To enab ...

  9. Tomcat 部署我的第一个程序

    idea 生成war包.先双击clean,再双击package.生成成功之后就会产生war包. 第二步:将生成好的war文件复制到tomcat文件夹下. 第三步:配置tomcat的server.xml ...

  10. sqlyog导出json数据格式支持mysql数据转存mongodb

    <!-------------知识的力量是无限的(当然肯定还有更简单的方法)-----------!> 当我考虑将省市区三级联动数据从mysql转入mongodb时遇到了网上无直接插入mo ...