Flume-0.9.4和Hbase-0.96整合

这几天由于项目的需要，需要将Flume收集到的日志插入到Hbase中，有人说，这不很简单么？Flume里面自带了Hbase sink，可以直接调用啊，还用说么？是的，我在本博客的《Flume-1.4.0和Hbase-0.96.0整合》文章中就提到如何用Flume和Hbase整合，从文章中就看出整个过程不太复杂，直接做相应的配置就行了。那么为什么今天还要特意提一下Flume-0.9.4和Hbase-0.96整合？这是因为Flume-0.9.4和Hbase-0.96整合比Flume-1.4.0和Hbase-0.96整合麻烦多了！不是随便几个配置就能搞定的，里面涉及到修改Flume和Hadoop的源码！
　　先看下我公司的Hadoop、Hbase、Flume等的配置吧。2013年10月末，公司的Hadoop升级到2.2.0，Hbase升级到0.96,Zookeeper升级到3.4.5，但是Flume版本由于各种原因没有升级，还是用Flume-0.9.4，而Flume-0.9.4源码是基于Hadoop-0.20.2-CDH3B4、Hbase-0.90.1-cdh3u0开发的，Hadoop-0.20.2-CDH3B4和现在的Hadoop-2.2.0完全不一样的设计，而且直接用Hadoop-0.20.2-CDH3B4会使得Flume-0.9.4不能和Hbase-0.96.0通信，都不能通信了，何谈整合！但是经过几天的奋战，我们终于通过修改Flume和Hadoop的部分源码达到了Flume-0.9.4和Hbase-0.96整合，今天就分享一下我们是怎么修改的。

　　1、修改Flume-src根目录下的pom.xml文件中的部分依赖版本
　　（1）、Hadoop2x里面已经没有hadoop-core jar包，所以修改Hadoop的依赖包的版本：

<dependency>

<groupId>org.apache.hadoop</groupId>

<artifactId>hadoop-core</artifactId>

<version>${cdh.hadoop.version}</version>

</dependency>

修改为

<dependency>

<groupId>org.apache.hadoop</groupId>

<artifactId>hadoop-mapreduce-client-core</artifactId>

<version>2.2.0</version>

</dependency>

<dependency>

<groupId>org.apache.hadoop</groupId>

<artifactId>hadoop-common</artifactId>

<version>2.2.0</version>

</dependency>

<dependency>

<groupId>org.apache.hadoop</groupId>

<artifactId>hadoop-mapreduce-client-common</artifactId>

<version>2.2.0</version>

</dependency>

<dependency>

<groupId>org.apache.hadoop</groupId>

<artifactId>hadoop-mapreduce-client-jobclient</artifactId>

<version>2.2.0</version>

</dependency>

　　（2）、修改Guava的版本

<dependency>

<groupId>com.google.guava</groupId>

<artifactId>guava</artifactId>

<version>r07</version>

</dependency>

修改为

<dependency>

<groupId>com.google.guava</groupId>

<artifactId>guava</artifactId>

<version>10.0.1</version>

</dependency>

　　（3）、修改flume-src\flume-core\pom.xml里面的以下配置

<dependency>

<groupId>org.apache.hadoop</groupId>

<artifactId>hadoop-core</artifactId>

</dependency>

修改为

<dependency>

<groupId>org.apache.hadoop</groupId>

<artifactId>hadoop-mapreduce-client-core</artifactId>

<version>2.2.0</version>

</dependency>

<dependency>

<groupId>org.apache.hadoop</groupId>

<artifactId>hadoop-common</artifactId>

<version>2.2.0</version>

</dependency>

<dependency>

<groupId>org.apache.hadoop</groupId>

<artifactId>hadoop-mapreduce-client-common</artifactId>

<version>2.2.0</version>

</dependency>

<dependency>

<groupId>org.apache.hadoop</groupId>

<artifactId>hadoop-mapreduce-client-jobclient</artifactId>

<version>2.2.0</version>

</dependency>

　　（4）、修改flume-src\plugins\flume-plugin-hbasesink\pom.xml里面的以下配置

<dependency>

<groupId>org.apache.hbase</groupId>

<artifactId>hbase</artifactId>

<version>${cdh.hbase.version}</version>

</dependency>

<dependency>

<groupId>org.apache.hbase</groupId>

<artifactId>hbase</artifactId>

<version>${cdh.hbase.version}</version>

<classifier>tests</classifier>

<scope>test</scope>

</dependency>

<dependency>

<groupId>org.apache.hadoop</groupId>

<artifactId>hadoop-test</artifactId>

<version>${cdh.hadoop.version}</version>

<scope>test</scope>

</dependency>

修改为

<dependency>

<groupId>org.apache.hbase</groupId>

<artifactId>hbase-it</artifactId>

<version>0.96.0-hadoop2</version>

</dependency>

　2，修改flume-core \ src \ main \ java \ org \ apache \ hadoop \ io \ FlushingSequenceFileWriter.java和RawSequenceFileWriter.java两个java类，
　　因为步骤一中我们用新版本的Hadoop替换了旧版本的Hadoop，而新版本Hadoop中的org.apache.hadoop.io.SequenceFile.Writer类和旧版本的org.apache.hadoop.io.SequenceFile.Writer类有些不一样。所以导致了FlushingSequenceFileWriter.java和RawSequenceFileWriter.java两个java类出现了部分的错误，解决方法如下：
　　（1），需要修改Hadoop-2.2.0源码中的hadoop-2.2.0-src \ hadoop-common-project \ hadoop-common \ src \ main \ java \ org \ apache \ hadoop \ io \ SequenceFile.java类，在Writer类里面添加替换的构造函数：

Writer(){

this.compress = CompressionType.NONE;

}

然后重新编译hadoop-common-project工程，将编译后的hadoop-common-2.2.0.jar替换为hadoop-common-2.2.0.jar
　　（2），修改FlushingSequenceFileWriter.java和RawSequenceFileWriter.java
　　这两个类中有错误，请使用新版本的Hadoop的相应API替换掉旧版本的Hadoop的API，具体如何修改，由此不不说了，如有需要的同学，可以邮件联系我（wyphao.2007@163.com ）
　　（3），修改com.cloudera.flume.handlers.seqfile中的SequenceFileOutputFormat类修改如下：

this(SequenceFile.getCompressionType(FlumeConfiguration.get()),

new DefaultCodec());

修改为

this(SequenceFile.getDefaultCompressionType(FlumeConfiguration.get()),

new DefaultCodec());

CompressionType compressionType = SequenceFile.getCompressionType(conf);

修改为

CompressionType compressionType = SequenceFile.getDefaultCompressionType(conf);

　　3，重新编译Flume源码
　　重新编译Flume源码（如何编译Flume源码？请参见本博客的《 Flume-0.9.4内核编译及一些编译错误解决方法》），并用编译之后的flume-core-0.9.4- cdh3u3.jar替换$ {FLUME_HOME} / lib中的flume-core-0.9.4-cdh3u3.jar类。删除掉$ {FLUME_HOME} /lib/hadoop-core-0.20.2-cdh3u3.jar等有关Hadoop旧版本的包。
　　4，修改$ {} FLUME_HOME /斌/水槽脚本启动
仔细分析$ {} FLUME_HOME /斌/水槽脚本，你会发现如下代码：

# put hadoop conf dir in classpath to include Hadoop

# core-site.xml/hdfs-site.xml

if [ -n "${HADOOP_CONF_DIR}" ]; then

CLASSPATH="${CLASSPATH}:${HADOOP_CONF_DIR}"

elif [ -n "${HADOOP_HOME}" ] ; then

CLASSPATH="${CLASSPATH}:${HADOOP_HOME}/conf"

elif [ -e "/usr/lib/hadoop/conf" ] ; then

# if neither is present see if the CDH dir exists

CLASSPATH="${CLASSPATH}:/usr/lib/hadoop/conf";

HADOOP_HOME="/usr/lib/hadoop"

fi # otherwise give up

# try to load the hadoop core jars

HADOOP_CORE_FOUND=false

while true; do

if [ -n "$HADOOP_HOME" ]; then

HADCOREJARS=`find ${HADOOP_HOME}/hadoop-core*.jar || \

find ${HADOOP_HOME}/lib/hadoop-core*.jar || true`

if [ -n "$HADCOREJARS" ]; then

HADOOP_CORE_FOUND=true

CLASSPATH="$CLASSPATH:${HADCOREJARS}"

break;

fi

HADCOREJARS=`find ./lib/hadoop-core*.jar 2> /dev/null || true`

if [ -n "$HADCOREJARS" ]; then

# if this is the dev environment then hadoop jar will

# get added as part of ./lib (below)

break

fi

# core jars may be missing, we'll check for this below

break

done

　　你会发现，这是Flume加载Hadoop旧版本的依赖包，在新版本的Hadoop根本就没有$ {HADOOP_HOME} / conf等文件夹，所以会出现Flume不能加载对新版本Hadoop的依赖。这里教你用最简单的方法来实现对新版本的Hbase和Hadoop的依赖，在$ {FLUME_HOME} / bin / flume脚本里面加入下面的CLASSPATH依赖：

CLASSPATH="/home/q/hbase/hbase-0.96.0-hadoop2/lib/*"

请注意，hbase-0.96.0-hadoop2里面对hadoop的依赖，hbase-0.96.0-hadoop2里面对Hadoop的依赖包是2.1.0，用上面编译好的hadoop-common-2.2.0.jar替换$ { HBASE_HOME} / lib里面的hadoop-common-2.1.0.jar

　　5，如何和Hbase-0.96整合
　　在flume- src \ plugins \ flume-plugin-hbasesink \ src \ main \ java里面的添加自己的类（当然你完全可以自己创建一个新的maven工程）。如果需要和Hbase整合，必须继承EventSink.Base类，改写里面的方法（可以参照flume-src \ plugins \ flume-plugin-hbasesink \ src \ main \ java \ com \ cloudera \ flume \ hbase \ Attr2 HBase EventSink.java），写完之后需要重新编译flume-src \ plugins \ flume-plugin-hbasesink底下的类，打包成jar文件。然后将您写好的HBase接收器注册到Flume中，关于如何注册，请参见本博客的《 Flume -0.9.4配置Hbase sink》。。
　　6，结束
　　经过上面几步的配置，你的水槽-0.9.4就可以和Hbase-0.96整合了，祝你成功。

Flume-0.9.4和Hbase-0.96整合的更多相关文章

Spark 1.1.0 编译(为了支持hbase 0.98.6)
为了支持hbase0.98.6,需要重新编译spark 1. 下载spark 1.1.0源代码,以及 scala-2.10.4的bin包. 将环境变量 SCALA_HOME 设置为 scala-2.1 ...
Hbase 0.96 比 hbase 0.94的改变
转载:http://blog.csdn.net/hxpjava1/article/details/20043703 环境: hadoop:hadoop-2.2.0 hbase:hbase-0.96.0 ...
hbase 0.96 单机伪分布式配置文件及遇到的问题 find命令
http://www.apache.org/dyn/closer.cgi/hbase/ 国外的站点下载速度慢,可以考虑国内的镜像网站~ 前面已经部署好了hadoop2.2.0单机伪分布式.必须先安装h ...
Hadoop 2.2 & HBase 0.96 Maven 依赖总结
由于Hbase 0.94对Hadoop 2.x的支持不是非常好,故直接添加Hbase 0.94的jar依赖可能会导致问题. 但是直接添加Hbase0.96的依赖,由于官方并没有发布Hbase 0.96 ...
hadoop2.2.0 + hbase 0.94 + hive 0.12 配置记录
一开始用hadoop2.2.0 + hbase 0.96 + hive 0.12 ,基本全部都配好了.只有在hive中查询hbase的表出错.以直报如下错误: java.io.IOException: ...
Hbase 0.98集群搭建的详细步骤
准备工作 Hbase的搭建是依赖于Hadoop的,Hbase的数据文件实际上存储在HDFS文件系统中,所以我们需要先搭建hadoop环境,之前的博文中已经搭建过了(详见http://www.cnblo ...
Hbase 0.95.2介绍及下载地址
HBase是一个分布式的.面向列的开源数据库,该技术来源于Google论文“Bigtable:一个结构化数据的分布式存储系统”.就像Bigtable利用了Google文件系统(File System) ...
hbase 0.98.1集群安装
本文将基于hbase 0.98.1解说其在linux集群上的安装方法,并对一些重要的设置项进行解释,本文原文链接:http://blog.csdn.net/bluishglc/article/deta ...
Hbase 0.92.1集群数据迁移到新集群
老集群 hbase(main):001:0> status 4 servers, 0 dead, 0.0000 average load hbase(main):002:0> list T ...

随机推荐

51Nod - 1050
题目链接:http://www.51nod.com/onlineJudge/questionCode.html#!problemId=1050 解题思路: It's so beautiful ! 循环 ...
J2EE项目中，servlet跳转到相应的JSP页面后，JSP页面丢失了样式效果
原因: js和css的引用路径是相对路径.跳转后路径改变. 解决方法: 先在head标签中加入一下代码 <% String path = request.getContextPath(); St ...
hibernate 异常分析：java.lang.NoClassDefFoundError: org/hibernate/Session
原因: NoClassDefFoundError的含义就是说编译器找不到org/hibernate/Session这个类的定义解决方法: 1.检查java中是否导入hibernate 包 impor ...
当 RocketMQ 遇上 Serverless，会碰撞出怎样的火花？
作者 | 元毅阿里巴巴高级开发工程师阿里巴巴云原生公众号后台回复 Knative,免费下载<Knative 云原生应用开发指南>电子书! 想必大家都比较了解 RocketMQ 消息服 ...
软链接 vs. 硬链接
链接大家都用过,比如 Windows 中的快捷方式就是一种链接,可是 Linux 里又分硬链接和软链接,它们表示什么意思,又有什么区别呢,本文来给大家做一个解释. Inode 索引节点要想理解硬链 ...
如何在Teamcenter中使用PMI？
1 .什么是PMI 在设计制造领域,PMI指的是产品制造信息(Productand Manufacturing Information),其目的在于在三维环境下,将制造信息从设计部门传递到制造部门.其 ...
如何为Form表单的多个提交按钮指定不同的Action地址？
这是我很久以前看到的一个技巧,但我忘记在哪里了,当时遇到这样的需求,做了笔记,现在整理成文章分享出来,因为我感觉这个小技巧还是挺有用的,这种应用场景也算比较常见,比如一个表单有"保存&quo ...
.NET Core 反射获取所有控制器及方法上特定标签
.NET Core 反射获取所有控制器及方法上特定标签有个需求,就是在. NET Core中,我们想在项目启动时,获取LinCmsAuthorizeAttribute这个特性标签所有出现的地方,把 ...
图解MySQL索引(二)—为什么使用B+Tree
失踪人口回归,近期换工作一波三折,耽误了不少时间,从今开始每周更新~ 索引是一种支持快速查询的数据结构,同时索引优化也是后端工程师的必会知识点.各个公司都有所谓的MySQL"军规" ...
团队作业第五次——Alpha冲刺
这个作业属于哪个课程软件工程这个作业要求在哪里团队作业第五次--Alpha冲刺这个作业的目标 Alpha冲刺作业正文正文 github链接项目地址其他参考文献无一.代码规范与计划 ...

Flume-0.9.4和Hbase-0.96整合

Flume-0.9.4和Hbase-0.96整合的更多相关文章

随机推荐

热门专题