Hadoop 2.x(YARN)安装配置LZO

今天尝试在Hadoop 2.x(YARN)上安装和配置LZO，遇到了很多坑，网上的资料都是基于Hadoop 1.x的，基本没有对于Hadoop 2.x上应用LZO，我在这边记录整个安装配置过程

1. 安装LZO

下载lzo 2.06版本，编译64位版本，同步到集群中

wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz

export CFLAGS=-m64

./configure -enable-shared -prefix=/usr/local/hadoop/lzo/

make && make test && make install

同步 /usr/local/hadoop/lzo/到整个集群上

2. 安装Hadoop-LZO

注意，Hadoop 1.x的时候我们是直接按照cloudera的文档clone https://github.com/kevinweil/hadoop-lzo.git上编译的，它是fork自https://github.com/twitter/hadoop-lzo。

但是kevinweil这个版本已经很久没有更新了，而且它是基于Hadoop 1.x去编译的，不能用于Hadoop 2.x。而twitter/hadoop-lzo三个月将Ant的编译方式切换为Maven，默认的dependency中Hadoop jar包就是2.x的，所以要clone twitter的hadoop-lzo，用Maven编译jar包和native library。

编译前先想pom中的hadoop-common和hadoop-mapreduce-client-core版本号改成2.1.0-beta

git clone https://github.com/twitter/hadoop-lzo.git

export CFLAGS=-m64

export CXXFLAGS=-m64

export C_INCLUDE_PATH=/usr/local/hadoop/lzo/include

export LIBRARY_PATH=/usr/local/hadoop/lzo/lib

mvn clean package -Dmaven.test.skip=true

tar -cBf - -C target/native/Linux-amd64-64/lib . | tar -xBvf - -C /usr/local/hadoop/hadoop-2.1.0-beta/lib/native/

cp target/hadoop-lzo-0.4.18-SNAPSHOT.jar /usr/local/hadoop/hadoop-2.1.0-beta/share/hadoop/common/

lib/native下的文件，包含native libraries和native compression

-rw-r--r-- 1 hadoop hadoop  104206 Sep  2 10:44 libgplcompression.a

-rw-rw-r-- 1 hadoop hadoop    1121 Sep  2 10:44 libgplcompression.la

lrwxrwxrwx 1 hadoop hadoop      26 Sep  2 10:47 libgplcompression.so -> libgplcompression.so.0.0.0

lrwxrwxrwx 1 hadoop hadoop      26 Sep  2 10:47 libgplcompression.so.0 -> libgplcompression.so.0.0.0

-rwxrwxr-x 1 hadoop hadoop   67833 Sep  2 10:44 libgplcompression.so.0.0.0

-rw-rw-r-- 1 hadoop hadoop  835968 Aug 29 17:12 libhadoop.a

-rw-rw-r-- 1 hadoop hadoop 1482132 Aug 29 17:12 libhadooppipes.a

lrwxrwxrwx 1 hadoop hadoop      18 Aug 29 17:12 libhadoop.so -> libhadoop.so.1.0.0

-rwxrwxr-x 1 hadoop hadoop  465801 Aug 29 17:12 libhadoop.so.1.0.0

-rw-rw-r-- 1 hadoop hadoop  580384 Aug 29 17:12 libhadooputils.a

-rw-rw-r-- 1 hadoop hadoop  273642 Aug 29 17:12 libhdfs.a

lrwxrwxrwx 1 hadoop hadoop      16 Aug 29 17:12 libhdfs.so -> libhdfs.so.0.0.0

-rwxrwxr-x 1 hadoop hadoop  181171 Aug 29 17:12 libhdfs.so.0.0.0

将 hadoop-lzo-0.4.18-SNAPSHOT.jar和/usr/local/hadoop/hadoop-2.1.0-beta/lib/native/ 同步到整个集群中

3. 设置环境变量

在hadoop-env.sh中加入

export LD_LIBRARY_PATH=/usr/local/hadoop/lzo/lib

core-site加入

<property>

	<name>io.compression.codecs</name>	<value>org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec,com.hadoop.compression.lzo.LzoCodec,com.hadoop.compression.lzo.LzopCodec,org.apache.hadoop.io.compress.BZip2Codec</value>

</property>

<property>

	<name>io.compression.codec.lzo.class</name>

	<value>com.hadoop.compression.lzo.LzoCodec</value>

</property>

mapred-site.xml加入

<property>

	<name>mapred.compress.map.output</name>

	<value>true</value>

</property>

<property>

	<name>mapred.map.output.compression.codec</name>

	<value>com.hadoop.compression.lzo.LzoCodec</value>

</property>

<property>

	<name>mapred.child.env</name>

	<value>LD_LIBRARY_PATH=/usr/local/hadoop/lzo/lib</value>

</property>

其中mapred-site中设置mapred.child.env的 LD_LIBRARY_PATH很重要，因为hadoop-lzo通过JNI调用(java.library.path) libgplcompression.so，然后libgplcompression.so 再通过dlopen这个系统调用（其实是查找系统环境变量LD_LIBRARY_PATH ）来加载liblzo2.so 。container在启动的时候，需要设置LD_LIBRARY_PATH 环境变量，来让LzoCodec加载 native-lzo library，如果不设置的话，会在container的syslog中报下面的错误

2013-09-02 11:20:12,004 INFO [main] com.hadoop.compression.lzo.GPLNativeCodeLoader: Loaded native gpl library

2013-09-02 11:20:12,006 WARN [main] com.hadoop.compression.lzo.LzoCompressor: java.lang.UnsatisfiedLinkError: Cannot load liblzo2.so.2 (liblzo2.so.2: cannot open shared object file: No such file or directory)!

2013-09-02 11:20:12,006 ERROR [main] com.hadoop.compression.lzo.LzoCodec: Failed to load/initialize native-lzo library

同步hadoop-env.sh, core-site.xml, mapred-site.xml到集群

LzoCodec加载gplcompression和lzo native library

  static {

    if (GPLNativeCodeLoader.isNativeCodeLoaded()) {

      nativeLzoLoaded = LzoCompressor.isNativeLzoLoaded() &&

      LzoDecompressor.isNativeLzoLoaded();

      if (nativeLzoLoaded) {

        LOG.info("Successfully loaded & initialized native-lzo library [hadoop-lzo rev " + getRevisionHash() + "]");

      } else {

        LOG.error("Failed to load/initialize native-lzo library");

      }

    } else {

      LOG.error("Cannot load native-lzo without native-hadoop");

    }

  }

LzoCompressor和LzoDecompressor会调用本地方法initIDs

在impl/lzo/LzoCompressor.c中加载liblzo2.so

Java_com_hadoop_compression_lzo_LzoCompressor_initIDs(

  JNIEnv *env, jclass class

  ) {

  // Load liblzo2.so

  liblzo2 = dlopen(HADOOP_LZO_LIBRARY, RTLD_LAZY | RTLD_GLOBAL);

  if (!liblzo2) {

    char* msg = (char*)malloc(1000);

    snprintf(msg, 1000, "%s (%s)!", "Cannot load " HADOOP_LZO_LIBRARY, dlerror());

    THROW(env, "java/lang/UnsatisfiedLinkError", msg);

    return;

  }

  LzoCompressor_clazz = (*env)->GetStaticFieldID(env, class, "clazz",

                                                 "Ljava/lang/Class;");

  LzoCompressor_finish = (*env)->GetFieldID(env, class, "finish", "Z");

  LzoCompressor_finished = (*env)->GetFieldID(env, class, "finished", "Z");

  LzoCompressor_uncompressedDirectBuf = (*env)->GetFieldID(env, class,

                                                    "uncompressedDirectBuf",

                                                    "Ljava/nio/ByteBuffer;");

  LzoCompressor_uncompressedDirectBufLen = (*env)->GetFieldID(env, class,

                                            "uncompressedDirectBufLen", "I");

  LzoCompressor_compressedDirectBuf = (*env)->GetFieldID(env, class,

                                                        "compressedDirectBuf",

                                                        "Ljava/nio/ByteBuffer;");

  LzoCompressor_directBufferSize = (*env)->GetFieldID(env, class,

                                            "directBufferSize", "I");

  LzoCompressor_lzoCompressor = (*env)->GetFieldID(env, class,

                                          "lzoCompressor", "J");

  LzoCompressor_lzoCompressionLevel = (*env)->GetFieldID(env, class,

                                                "lzoCompressionLevel", "I");

  LzoCompressor_workingMemoryBufLen = (*env)->GetFieldID(env, class,

                                                "workingMemoryBufLen", "I");

  LzoCompressor_workingMemoryBuf = (*env)->GetFieldID(env, class,

                                              "workingMemoryBuf",

                                              "Ljava/nio/ByteBuffer;");

  // record lzo library version

  void* lzo_version_ptr = NULL;

  LOAD_DYNAMIC_SYMBOL(lzo_version_ptr, env, liblzo2, "lzo_version");

  liblzo2_version = (NULL == lzo_version_ptr) ? 0

    : (jint) ((unsigned (__LZO_CDECL *)())lzo_version_ptr)();

}

创建container上下文信息的时候，会读取mapred.child.env作为子进程环境变量的一部分

4. 测试mapreduce读lzo

hive新建一张表lzo_test

CREATE TABLE lzo_test(

 col String

)

STORED AS INPUTFORMAT "com.hadoop.mapred.DeprecatedLzoTextInputFormat"

OUTPUTFORMAT "org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat";

下载lzop工具，load一个lzo文件进lzo_test表中，执行“select * from lzo_test"和"select count(1) from lzo_test"正确

同时用户可以通过单机作业或者分布式程序生成lzo.index文件

hadoop jar /usr/local/hadoop/hadoop-2.1.0-beta/share/hadoop/common/hadoop-lzo-0.4.18-SNAPSHOT.jar com.hadoop.compression.lzo.DistributedLzoIndexer /user/hive/warehouse/lzo_test/

hadoop jar /usr/local/hadoop/hadoop-2.1.0-beta/share/hadoop/common/hadoop-lzo-0.4.18-SNAPSHOT.jar com.hadoop.compression.lzo.LzoIndexer /user/hive/warehouse/lzo_test/

本文链接http://blog.csdn.net/lalaguozhe/article/details/10912527，转载请注明

Hadoop 2.x(YARN)安装配置LZO的更多相关文章

每天收获一点点------Hadoop基本介绍与安装配置
一.Hadoop的发展历史说到Hadoop的起源,不得不说到一个传奇的IT公司—全球IT技术的引领者Google.Google(自称)为云计算概念的提出者,在自身多年的搜索引擎业务中构建了突破性的G ...
Hadoop集群_Hadoop安装配置
1.集群部署介绍 1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台.以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesy ...
三、hadoop、yarn安装配置
本文hadoop的安装版本为hadoop-2.6.5 关闭防火墙 systemctl stop firewalld 一.安装JDK 1.下载java jdk1.8版本,放在/mnt/sata1目录下, ...
Hadoop学习笔记：安装配置Hadoop
安装前的一些环境配置: 1. 给用户添加sudo权限,输入su - 进入root账号,然后输入visudo,进入编辑模式,找到这一行:"root ALL=(ALL) ALL"在下面 ...
Storm on Yarn 安装配置
1.背景知识在不修改Storm任何源代码的情况下,让Storm运行在YARN上,最简单的实现方法是将Storm的各个服务组件(包括Nimbus和Supervisor),作为单独的任务运行在YARN上 ...
Hadoop 2.7.3 安装配置及测试
1.概述 Hadoop是一个由Apache基金会所开发的分布式系统基础架构.用户可以在不了解分布式底层细节的情况下,开发分布式程序.hadoop三种安装模式:单机模式,伪分布式,真正分布式.因在实际生 ...
[Hadoop]Hive-1.2.x安装配置+Mysql安装
HIve的元数据存储在mysql中,需要配置与MySQL建立连接,除了安装MySQL外还要安装连接的jar包:mysql-connector-java-5.1.47.tar.gz 安装环境:Cen ...
Hadoop学习笔记：安装配置Hive
1. 在官网http://hive.apache.org/下载所需要版本的Hive,以下我们就以hive 2.1.0版为例. 2. 将下载好的压缩包放到指定文件夹解压,tar -zxvf apache ...
Hadoop集群_VSFTP安装配置
原作者写的太好了,我这个菜鸟不自觉就转载了,原文链接:http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503864.html 如果,您认为阅读这 ...

随机推荐

25_Downloading An Image
一个App,从网上下载一张图片(给出图片地址),重新命名,然后保存到手机中,再从手机中取出显示在屏幕上. 难度不大,就是找图片很蛋疼,百度搜索出来的过一会儿会失效,Google搜索出来的有些需要FQ, ...
模拟美萍加密狗--Rockey2虚拟狗(四)
目录(?)[+] 首先,抱怨一下.学校个破网,似乎把我端口封了,死活分不上IP,也许是是我MAC改的太频繁了,有盗号嫌疑…… 然后,正文开始…… 其实虚拟狗几天前就写完了,可这几天上不了网 ...
HDU 1267 下沙的沙子有几粒？
题解:利用卡特兰数的几何意义,题目就可以转化为一个棋盘格,可以向下走或是向右走,但是不可以逾越对角线,就可以了. #include <cstdio> #include <iostre ...
_WSAStartup@8，该符号在函数 _main 中被引用
int WSAStartup( __in WORD wVersionRequested, __out LPWSADATA lpWSAData ); WSAStartup 格式: int PASCA ...
CentOS，高速设置ssh无password登录
首先.保证能够ping通然后运行例如以下命令, master登录slave master上面运行例如以下指令: 2.4 确认本机sshd的配置文件(root) $ vi/etc/ssh/sshd_c ...
uva 1561 - Cycle Game(推理)
option=com_onlinejudge&Itemid=8&page=show_problem&problem=4336" style=""& ...
Bitmap recycle()
Bitmap调用recycle? When? Bitmap有一个recycle方法,意思非常easy,回收Bitmap的空间. Q 1: Bitmap是否有调用recycle方法的必要性? A: 嵌入 ...
CSS3线性渐变linear-gradient
转自 http://www.w3cplus.com/content/css3-gradient CSS3的线性渐变一.线性渐变在Mozilla下的应用 -moz-linear-gradient( [ ...
使用约束给tableview添加暂无数据的提示
在tableview没有数据的时候,我们经常需要在tableview的正中间插入一张图片,来提示用户暂无数据 /** * 添加一个view,提示暂无数据 */ - (void)addPromptVie ...
Python:爬取乌云厂商列表，使用BeautifulSoup解析
在SSS论坛看到有人写的Python爬取乌云厂商,想练一下手,就照着重新写了一遍原帖:http://bbs.sssie.com/thread-965-1-1.html #coding:utf- im ...

Hadoop 2.x(YARN)安装配置LZO

Hadoop 2.x(YARN)安装配置LZO的更多相关文章

随机推荐

热门专题