Maven编译并打包Mahout CDH版源码
1. 问题描述
最近在使用Mahout里的推荐算法进行实验,由于业务需求,需要修改Mahout源码,将原本输出到HDFS上的结果输出到HBase中。由于Mahout发布的源码都是Maven项目,所以在对项目进行编译打包时遇到了一些问题,在此文章中进行记录总结。
2. Mahout源码下载
目前,Mahout最新版本已经更新到0.13,从基于Hadoop平台迁移到了Spark,从Mahout官网可以了解其发展历程和框架特性。
官网地址:http://mahout.apache.org/
Mahout历史版本源码下载地址: http://archive.apache.org/dist/mahout/
由于公司使用的Hadoop版本是CDH4.7.1,对应Mahout0.7版,为了保持一致性,所以下载了cdh版Mahout源码。
Mahout CDH版源码下载地址:https://github.com/cloudera/mahout/tree/cdh4-0.7_4.7.1
3. 编译源码
3.1 编译环境和工具
- apache-maven-3.5.4
- JDK 1.8
Maven的安装和配置比较简单,这里不做介绍。
3.2 修改项目的java版本
源码项目默认使用的jdk版本一般和系统不一致,所以直接进行编译会报错,需要先修改项目的pom.xml
文件。下载下来的Mahout源码是一个多模块的Maven项目,修改根目录下父级项目的pom.xml
文件即可。
只需要将以下<javaVersion>1.6</javaVersion>
中的1.6修改为自己电脑配置中的jdk版本即可。
<properties>
<skipTests>false</skipTests>
<sourceJavaVersion>1.6</sourceJavaVersion>
<targetJavaVersion>1.6</targetJavaVersion>
<maven.clover.multiproject>true</maven.clover.multiproject>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
<hadoop.version>${cdh.hadoop.version}</hadoop.version>
<lucene.version>3.6.0</lucene.version>
<javaVersion>1.6</javaVersion>
</properties>
3.3 编译源码
直接执行mvn clean install
报如下错误:
[INFO] Apache Mahout 0.7-cdh4.7.1 ......................... SUCCESS [ 1.207 s]
[INFO] Mahout Build Tools ................................. SUCCESS [ 1.475 s]
[INFO] Mahout Math ........................................ SUCCESS [ 17.652 s]
[INFO] Mahout Core ........................................ FAILURE [ 3.546 s]
[INFO] Mahout Integration ................................. SKIPPED
[INFO] Mahout Examples .................................... SKIPPED
[INFO] Mahout Release Package 0.7-cdh4.7.1 ................ SKIPPED
[INFO] ------------------------------------------------------------------------
[INFO] BUILD FAILURE
[INFO] ------------------------------------------------------------------------
[INFO] Total time: 24.260 s
[INFO] Finished at: 2018-12-12T16:07:19+08:00
[INFO] ------------------------------------------------------------------------
[ERROR] Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:2.3.2:compile (default-compile) on projec
mahout-core: Compilation failure: Compilation failure:
[ERROR] \mahout-cdh4-0.7_4.7.1\core\src\main\java\org\apache\mahout\clustering\classify\ClusterClassifier.java:[24,29]
错误: 程序包org.apache.hadoop.conf不存在
[ERROR] \mahout-cdh4-0.7_4.7.1\core\src\main\java\org\apache\mahout\clustering\classify\ClusterClassifier.java:[25,27]
错误: 程序包org.apache.hadoop.fs不存在
[ERROR] \mahout-cdh4-0.7_4.7.1\core\src\main\java\org\apache\mahout\clustering\classify\ClusterClassifier.java:[26,27]
错误: 程序包org.apache.hadoop.fs不存在
[ERROR] \mahout-cdh4-0.7_4.7.1\core\src\main\java\org\apache\mahout\clustering\classify\ClusterClassifier.java:[27,27]
错误: 程序包org.apache.hadoop.io不存在
[ERROR] \mahout-cdh4-0.7_4.7.1\core\src\main\java\org\apache\mahout\clustering\classify\ClusterClassifier.java:[28,27]
错误: 程序包org.apache.hadoop.io不存在
[ERROR] \mahout-cdh4-0.7_4.7.1\core\src\main\java\org\apache\mahout\clustering\classify\ClusterClassifier.java:[29,27]
错误: 程序包org.apache.hadoop.io不存在
[ERROR] \mahout-cdh4-0.7_4.7.1\core\src\main\java\org\apache\mahout\clustering\classify\ClusterClassifier.java:[30,27]
错误: 程序包org.apache.hadoop.io不存在
[ERROR] \mahout-cdh4-0.7_4.7.1\core\src\main\java\org\apache\mahout\clustering\classify\ClusterClassifier.java:[65,90]
错误: 找不到符号
[ERROR] \mahout-cdh4-0.7_4.7.1\core\src\main\java\org\apache\mahout\clustering\Model.java:[20,27] 错误: 程序包org.apach
.hadoop.io不存在
[ERROR] \mahout-cdh4-0.7_4.7.1\core\src\main\java\org\apache\mahout\clustering\Model.java:[29,34] 错误: 找不到符号
.......
从报错信息中可以看到mahout-core
模块编译失败,原因是找不到Hadoop的配置文件类,Hadoop配置文件类包含在hadoop-common
的jar包中,查看core
目录下的pom.xml
文件,查找hadoop-commen
发现已经有引入依赖,但是是在配置中引入,需要激活相应的配置。
<profile>
<id>hadoop-0.23</id>
<activation>
<property>
<name>hadoop.profile</name>
<value>23</value>
</property>
</activation>
<dependencies>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-mapreduce-client-common</artifactId>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-mapreduce-client-core</artifactId>
</dependency>
</dependencies>
</profile>
激活相应配置并编译源码,执行mvn -Phadoop-0.23 -DskipTests clean install
,添加的-DskipTests
参数为跳过测试模块,会节省编译时间。
编译成功后,在各自模块的/target
目录下可以看到输出的jar包。
3.4 引入第三方依赖
使用mvn eclipse:eclipse
可以将Maven项目转化为eclipse项目在eclipse中进行修改。之前提到我们的需求是将输出结果输出到HBase,在修改工程代码的过程中需要引入第三方HBase的依赖jar包,修改完后代码后再次执行mvn clean install
会再次报错,原因是Maven编译项目根据来进行的pom.xml
,所以我们需要在配置文件中添加我们所依赖的第三方jar的信息。例如,依赖了hbase
和mr
的jar包,添加依赖配置如下:
<profile>
<id>hadoop-0.23</id>
<activation>
<property>
<name>hadoop.profile</name>
<value>23</value>
</property>
</activation>
<dependencies>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-mapreduce-client-common</artifactId>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-mapreduce-client-core</artifactId>
</dependency>
<dependency>
<groupId>org.apache.hbase</groupId>
<artifactId>hbase</artifactId>
<version>0.94.15-cdh4.7.1</version>
</dependency>
</dependencies>
</profile>
所依赖jar包的groupId
和artifactId
可以在Maven官网中查询,同时还可以获取到依赖包所在的仓库地址,查看根目录下的pom.xml
,如果没包含此仓库则需要自行添加。
<repositories>
<repository>
<id>cdh.hbase</id>
<name>Apache Hbase Repository</name>
<url>https://repository.cloudera.com/content/repositories/releases/</url>
<releases>
<enabled>false</enabled>
</releases>
</repository>
<repository>
<id>apache.snapshots</id>
<name>Apache Snapshot Repository</name>
<url>http://repository.apache.org/snapshots</url>
<releases>
<enabled>false</enabled>
</releases>
</repository>
<repository>
<id>cdh.repo</id>
<url>https://repository.cloudera.com/artifactory/cloudera-repos</url>
<name>Cloudera Repositories</name>
<snapshots>
<enabled>false</enabled>
</snapshots>
</repository>
<repository>
<id>cdh.snapshots.repo</id>
<url>https://repository.cloudera.com/artifactory/libs-snapshot-local</url>
<name>Cloudera Snapshots Repository</name>
<snapshots>
<enabled>true</enabled>
</snapshots>
<releases>
<enabled>false</enabled>
</releases>
</repository>
</repositories>
Maven编译并打包Mahout CDH版源码的更多相关文章
- atitit.商业版 源码保护 与 java本地原生代码转换 的方案总结
atitit.商业版 源码保护 与 java本地原生代码转换 的方案总结 1. 为什么虚拟机语言容易被反编译 1 2. 源码泄露的问题问题 1 3. Excelsior JET 1 4. gcj.的流 ...
- [源码]一键获取windows系统登陆密码vc6版源码
[源码]一键获取windows系统登陆密码vc6版源码支持:XP/2000/2003/WIN7/2008等 此版本编译出来的程序体积较小几十KB... 而vs版则1点几M,体积整整大了2-30倍对某些 ...
- 运行OpenGL红宝书第9版源码时Visual Studio提示“无法启动程序...ALL_BUILD。拒绝访问“的问题的解决办法
问题描述: OpenGL红宝书第9版源码采用CMake编译后,用相应的Visual Studio(如VS2012)打开“vermilion9.sln”解决方案,并运行时Visual Studio提示“ ...
- 完美高仿精仿京东商城手机客户端android版源码
完美高仿精仿京东商城手机客户端android版源码,是从安卓教程网那边转载过来的,这款应用源码非常不错的,也是一个非常优秀的应用源码的,希望能够帮到学习的朋友. _js_op> <igno ...
- 锋利的jQuery(第二版)源码下载地址
书上给的http://cssrain.sinaapp.com无法访问 问作者邮箱要的: 第1版源码:百度云盘下载:http://pan.baidu.com/share/link?shareid=104 ...
- ue4.3正式版源码链接
ue4.3正式版源码链接 http://tieba.baidu.com/p/3170253742
- 大写金额换算器iOS版源码
大写金额换算器iOS版源码 人民币金额大写转换器输入数字就可以转换成相应的人民币大写金额,操作很easy,需一键点击,就可以复制. 是財务办公人员必备的小工具. 银行.单位和个人填写的各种票据和结算凭 ...
- ubuntu 14.04.5 编译Android 4.4.4 r1源码(最新)
本文博客链接:http://blog.csdn.net/qq1084283172/article/details/54426189 吐槽:ubuntu系统真是让人又爱又恨,也有可能是VMware Wo ...
- apache kafka & CDH kafka源码编译
Apache kafka编译 前言 github网站kafka项目的README.md有关于kafka源码编译的说明 github地址:https://github.com/apache/kafka ...
随机推荐
- Qt 线程基础
(转自:http://my.oschina.net/laopiao/blog/88158) 何谓线程? 线程与并行处理任务息息相关,就像进程一样.那么,线程与进程有什么区别呢?当你在电子表格上进行数据 ...
- mysql迁移oracle
有很多应用项目, 刚起步的时候用MYSQL数据库基本上能实现各种功能需求,随着应用用户的增多,数据量的增加,MYSQL渐渐地出现不堪重负的情况:连接很慢甚至宕机,于是就有把数据从MYSQL迁到Orac ...
- ES6学习一 JS语言增强篇
一 背景 JavaScript经过二十来年年的发展,由最初简单的交互脚本语言,发展到今天的富客户端交互,后端服务器处理,跨平台(Native),以及小程序等等的应用.JS的角色越来越重要,处理场景越来 ...
- ios 怎么禁止点击子视图的时候不响应父视图的点击事件
方法一 可以在触发手势的方法里添加一个区域的判断,如果点击区域正好是子视图的区域,则过滤掉,不处理此时的手势,如果点击的区域没有被子视图覆盖则,处理手势的事件.具体的代码如下: if( CGRect ...
- JDK5的新特性:泛型、可变参数、静态导入
数组可以在创建的时候就指定存放的数据类型,这样放入不同类型的时候就会发生编译错误. 而集合却可以存储多种不同类型,这样的话如果是遍历的时候在集合中装了好多不同的数据类型的时候,十分容易发生类型转换错误 ...
- iOS-----MFMessageCompose 和 MFMailComposeViewController的使用方法
MFMessageCompose 和 MFMailComposeViewController的使用方法 使用MFMessageComposeViewCOntroller发短信 应用想自己提供界面让用户 ...
- ubuntu系统无法ssh登录--安装openssh
与红帽子系列的Linux发行版不同,Ubuntu系统安装后并不能直接进行ssh登录.需要手动安装openssh才行. Ubuntu安装openssh命令如下: sudo apt-get install ...
- C#模板引擎 DotLiquid
DotLiquid 是一个简单.快速和安全的模板引擎,移植自 Ruby 的 Liquid 标签. 示例模板: <p>{{ user.name }} has to do:</p> ...
- DataTable快速定制之Expression属性表达式
本文旨在讨论使用DataColumn.Expression属性定制列,高手绕过. 这里只介绍两个经典的场景,抛砖引玉其他更多功能待各位读者自己发现吧! 场景一: DataTable里有两个列分别为每种 ...
- linux之 CentOS/RHEL/Scientific Linux 6 & 7上安装Telnet
声明: 在安装和使用Telnet之前,需要记住以下几点. 在公网(WAN)中使用Telnet是非常不好的想法.它会以明文的格式传输登入数据.每个人都可以看到明文.如果你还是需要Telnet,强烈建议你 ...