Hadoop 2.x(YARN)安装配置LZO

今天尝试在Hadoop 2.x(YARN)上安装和配置LZO，遇到了很多坑，网上的资料都是基于Hadoop 1.x的，基本没有对于Hadoop 2.x上应用LZO，我在这边记录整个安装配置过程

1. 安装LZO

下载lzo 2.06版本，编译64位版本，同步到集群中

wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz

export CFLAGS=-m64

./configure -enable-shared -prefix=/usr/local/hadoop/lzo/

make && make test && make install

同步 /usr/local/hadoop/lzo/到整个集群上

2. 安装Hadoop-LZO

注意，Hadoop 1.x的时候我们是直接按照cloudera的文档clone https://github.com/kevinweil/hadoop-lzo.git上编译的，它是fork自https://github.com/twitter/hadoop-lzo。

但是kevinweil这个版本已经很久没有更新了，而且它是基于Hadoop 1.x去编译的，不能用于Hadoop 2.x。而twitter/hadoop-lzo三个月将Ant的编译方式切换为Maven，默认的dependency中Hadoop jar包就是2.x的，所以要clone twitter的hadoop-lzo，用Maven编译jar包和native library。

编译前先想pom中的hadoop-common和hadoop-mapreduce-client-core版本号改成2.1.0-beta

git clone https://github.com/twitter/hadoop-lzo.git

export CFLAGS=-m64

export CXXFLAGS=-m64

export C_INCLUDE_PATH=/usr/local/hadoop/lzo/include

export LIBRARY_PATH=/usr/local/hadoop/lzo/lib

mvn clean package -Dmaven.test.skip=true

tar -cBf - -C target/native/Linux-amd64-64/lib . | tar -xBvf - -C /usr/local/hadoop/hadoop-2.1.0-beta/lib/native/

cp target/hadoop-lzo-0.4.18-SNAPSHOT.jar /usr/local/hadoop/hadoop-2.1.0-beta/share/hadoop/common/

lib/native下的文件，包含native libraries和native compression

-rw-r--r-- 1 hadoop hadoop  104206 Sep  2 10:44 libgplcompression.a

-rw-rw-r-- 1 hadoop hadoop    1121 Sep  2 10:44 libgplcompression.la

lrwxrwxrwx 1 hadoop hadoop      26 Sep  2 10:47 libgplcompression.so -> libgplcompression.so.0.0.0

lrwxrwxrwx 1 hadoop hadoop      26 Sep  2 10:47 libgplcompression.so.0 -> libgplcompression.so.0.0.0

-rwxrwxr-x 1 hadoop hadoop   67833 Sep  2 10:44 libgplcompression.so.0.0.0

-rw-rw-r-- 1 hadoop hadoop  835968 Aug 29 17:12 libhadoop.a

-rw-rw-r-- 1 hadoop hadoop 1482132 Aug 29 17:12 libhadooppipes.a

lrwxrwxrwx 1 hadoop hadoop      18 Aug 29 17:12 libhadoop.so -> libhadoop.so.1.0.0

-rwxrwxr-x 1 hadoop hadoop  465801 Aug 29 17:12 libhadoop.so.1.0.0

-rw-rw-r-- 1 hadoop hadoop  580384 Aug 29 17:12 libhadooputils.a

-rw-rw-r-- 1 hadoop hadoop  273642 Aug 29 17:12 libhdfs.a

lrwxrwxrwx 1 hadoop hadoop      16 Aug 29 17:12 libhdfs.so -> libhdfs.so.0.0.0

-rwxrwxr-x 1 hadoop hadoop  181171 Aug 29 17:12 libhdfs.so.0.0.0

将 hadoop-lzo-0.4.18-SNAPSHOT.jar和/usr/local/hadoop/hadoop-2.1.0-beta/lib/native/ 同步到整个集群中

3. 设置环境变量

在hadoop-env.sh中加入

export LD_LIBRARY_PATH=/usr/local/hadoop/lzo/lib

core-site加入

<property>

	<name>io.compression.codecs</name>	<value>org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec,com.hadoop.compression.lzo.LzoCodec,com.hadoop.compression.lzo.LzopCodec,org.apache.hadoop.io.compress.BZip2Codec</value>

</property>

<property>

	<name>io.compression.codec.lzo.class</name>

	<value>com.hadoop.compression.lzo.LzoCodec</value>

</property>

mapred-site.xml加入

<property>

	<name>mapred.compress.map.output</name>

	<value>true</value>

</property>

<property>

	<name>mapred.map.output.compression.codec</name>

	<value>com.hadoop.compression.lzo.LzoCodec</value>

</property>

<property>

	<name>mapred.child.env</name>

	<value>LD_LIBRARY_PATH=/usr/local/hadoop/lzo/lib</value>

</property>

其中mapred-site中设置mapred.child.env的 LD_LIBRARY_PATH很重要，因为hadoop-lzo通过JNI调用(java.library.path) libgplcompression.so，然后libgplcompression.so 再通过dlopen这个系统调用（其实是查找系统环境变量LD_LIBRARY_PATH ）来加载liblzo2.so 。container在启动的时候，需要设置LD_LIBRARY_PATH 环境变量，来让LzoCodec加载 native-lzo library，如果不设置的话，会在container的syslog中报下面的错误

2013-09-02 11:20:12,004 INFO [main] com.hadoop.compression.lzo.GPLNativeCodeLoader: Loaded native gpl library

2013-09-02 11:20:12,006 WARN [main] com.hadoop.compression.lzo.LzoCompressor: java.lang.UnsatisfiedLinkError: Cannot load liblzo2.so.2 (liblzo2.so.2: cannot open shared object file: No such file or directory)!

2013-09-02 11:20:12,006 ERROR [main] com.hadoop.compression.lzo.LzoCodec: Failed to load/initialize native-lzo library

同步hadoop-env.sh, core-site.xml, mapred-site.xml到集群

LzoCodec加载gplcompression和lzo native library

  static {

    if (GPLNativeCodeLoader.isNativeCodeLoaded()) {

      nativeLzoLoaded = LzoCompressor.isNativeLzoLoaded() &&

      LzoDecompressor.isNativeLzoLoaded();

      if (nativeLzoLoaded) {

        LOG.info("Successfully loaded & initialized native-lzo library [hadoop-lzo rev " + getRevisionHash() + "]");

      } else {

        LOG.error("Failed to load/initialize native-lzo library");

      }

    } else {

      LOG.error("Cannot load native-lzo without native-hadoop");

    }

  }

LzoCompressor和LzoDecompressor会调用本地方法initIDs

在impl/lzo/LzoCompressor.c中加载liblzo2.so

Java_com_hadoop_compression_lzo_LzoCompressor_initIDs(

  JNIEnv *env, jclass class

  ) {

  // Load liblzo2.so

  liblzo2 = dlopen(HADOOP_LZO_LIBRARY, RTLD_LAZY | RTLD_GLOBAL);

  if (!liblzo2) {

    char* msg = (char*)malloc(1000);

    snprintf(msg, 1000, "%s (%s)!", "Cannot load " HADOOP_LZO_LIBRARY, dlerror());

    THROW(env, "java/lang/UnsatisfiedLinkError", msg);

    return;

  }

  LzoCompressor_clazz = (*env)->GetStaticFieldID(env, class, "clazz",

                                                 "Ljava/lang/Class;");

  LzoCompressor_finish = (*env)->GetFieldID(env, class, "finish", "Z");

  LzoCompressor_finished = (*env)->GetFieldID(env, class, "finished", "Z");

  LzoCompressor_uncompressedDirectBuf = (*env)->GetFieldID(env, class,

                                                    "uncompressedDirectBuf",

                                                    "Ljava/nio/ByteBuffer;");

  LzoCompressor_uncompressedDirectBufLen = (*env)->GetFieldID(env, class,

                                            "uncompressedDirectBufLen", "I");

  LzoCompressor_compressedDirectBuf = (*env)->GetFieldID(env, class,

                                                        "compressedDirectBuf",

                                                        "Ljava/nio/ByteBuffer;");

  LzoCompressor_directBufferSize = (*env)->GetFieldID(env, class,

                                            "directBufferSize", "I");

  LzoCompressor_lzoCompressor = (*env)->GetFieldID(env, class,

                                          "lzoCompressor", "J");

  LzoCompressor_lzoCompressionLevel = (*env)->GetFieldID(env, class,

                                                "lzoCompressionLevel", "I");

  LzoCompressor_workingMemoryBufLen = (*env)->GetFieldID(env, class,

                                                "workingMemoryBufLen", "I");

  LzoCompressor_workingMemoryBuf = (*env)->GetFieldID(env, class,

                                              "workingMemoryBuf",

                                              "Ljava/nio/ByteBuffer;");

  // record lzo library version

  void* lzo_version_ptr = NULL;

  LOAD_DYNAMIC_SYMBOL(lzo_version_ptr, env, liblzo2, "lzo_version");

  liblzo2_version = (NULL == lzo_version_ptr) ? 0

    : (jint) ((unsigned (__LZO_CDECL *)())lzo_version_ptr)();

}

创建container上下文信息的时候，会读取mapred.child.env作为子进程环境变量的一部分

4. 测试mapreduce读lzo

hive新建一张表lzo_test

CREATE TABLE lzo_test(

 col String

)

STORED AS INPUTFORMAT "com.hadoop.mapred.DeprecatedLzoTextInputFormat"

OUTPUTFORMAT "org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat";

下载lzop工具，load一个lzo文件进lzo_test表中，执行“select * from lzo_test"和"select count(1) from lzo_test"正确

同时用户可以通过单机作业或者分布式程序生成lzo.index文件

hadoop jar /usr/local/hadoop/hadoop-2.1.0-beta/share/hadoop/common/hadoop-lzo-0.4.18-SNAPSHOT.jar com.hadoop.compression.lzo.DistributedLzoIndexer /user/hive/warehouse/lzo_test/

hadoop jar /usr/local/hadoop/hadoop-2.1.0-beta/share/hadoop/common/hadoop-lzo-0.4.18-SNAPSHOT.jar com.hadoop.compression.lzo.LzoIndexer /user/hive/warehouse/lzo_test/

本文链接http://blog.csdn.net/lalaguozhe/article/details/10912527，转载请注明

Hadoop 2.x(YARN)安装配置LZO的更多相关文章

每天收获一点点------Hadoop基本介绍与安装配置
一.Hadoop的发展历史说到Hadoop的起源,不得不说到一个传奇的IT公司—全球IT技术的引领者Google.Google(自称)为云计算概念的提出者,在自身多年的搜索引擎业务中构建了突破性的G ...
Hadoop集群_Hadoop安装配置
1.集群部署介绍 1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台.以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesy ...
三、hadoop、yarn安装配置
本文hadoop的安装版本为hadoop-2.6.5 关闭防火墙 systemctl stop firewalld 一.安装JDK 1.下载java jdk1.8版本,放在/mnt/sata1目录下, ...
Hadoop学习笔记：安装配置Hadoop
安装前的一些环境配置: 1. 给用户添加sudo权限,输入su - 进入root账号,然后输入visudo,进入编辑模式,找到这一行:"root ALL=(ALL) ALL"在下面 ...
Storm on Yarn 安装配置
1.背景知识在不修改Storm任何源代码的情况下,让Storm运行在YARN上,最简单的实现方法是将Storm的各个服务组件(包括Nimbus和Supervisor),作为单独的任务运行在YARN上 ...
Hadoop 2.7.3 安装配置及测试
1.概述 Hadoop是一个由Apache基金会所开发的分布式系统基础架构.用户可以在不了解分布式底层细节的情况下,开发分布式程序.hadoop三种安装模式:单机模式,伪分布式,真正分布式.因在实际生 ...
[Hadoop]Hive-1.2.x安装配置+Mysql安装
HIve的元数据存储在mysql中,需要配置与MySQL建立连接,除了安装MySQL外还要安装连接的jar包:mysql-connector-java-5.1.47.tar.gz 安装环境:Cen ...
Hadoop学习笔记：安装配置Hive
1. 在官网http://hive.apache.org/下载所需要版本的Hive,以下我们就以hive 2.1.0版为例. 2. 将下载好的压缩包放到指定文件夹解压,tar -zxvf apache ...
Hadoop集群_VSFTP安装配置
原作者写的太好了,我这个菜鸟不自觉就转载了,原文链接:http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503864.html 如果,您认为阅读这 ...

随机推荐

在windows下配置对github的操作--基本操作
一.下载安装 git for widows软件 git for widows 是专门用来在windows下操作 github的软件,提供bash(命令行) 和 gui两种方式. 在bash下,其实就是 ...
CentOS 6.4下Squid代理服务器的安装与配置,反向代理
CentOS 6.4下Squid代理服务器的安装与配置一.简介代理服务器英文全称是Proxy Server,其功能就是代理网络用户去取得网络信息. Squid是一个缓存Internet 数据的软件 ...
Convert Sorted List to Binary Search Tree ------C++ 递归创建平衡二叉查找树
有序链表 0->1->2->3->4->5 转换为一个二叉排序树.我们在此创建一个平衡二叉排序树 1.先找链表到中间的节点 2.中间节点的val创建一个新的树节点Tree ...
Flex控件初始化问题
有个对话框mx:TitleWindow->mx:TabNavigator->里有两个mx:Tile,每个Tile里都有个datagrid.测试如下:1.对话框显示后,马上动态监测第二个ti ...
python字符串操作总结
python中有各种字符串操作,一开始python有个专门的string模块,要使用需先import string.后来从python2.0开始,string方法改用str.method()形式调用, ...
junit学习笔记（二）：hamcrest和TestSuit
1. hamcrest hamcrest可以有效增加junit的测试能力,用一些对通俗语言来进行测试. Hamcrest 是一个测试的框架,它提供了一套通用的匹配符 Matcher,灵活使用这些匹配符 ...
Android目录结构介绍&Android学习之hello world
分类: 嵌入式一个android项目有如下目录: src:这里放的是我们编写的源代码 gen:这里的是eclipse自动生成的文件,不用管它 asssts:放置文件 res:也是放置文件,不同的是r ...
「OC」继承
一.基本用法 1.设计两个类Bird.Dog 1 // Bird的声明 2 @interface Bird : NSObject 3 { 4 @public 5 int weight; 6 } 7 - ...
python2.5_1.5_通过指定的端口和协议找到服务名
代码如下: # -*- coding: utf-8 -*- import socket def find_service_name(): protocolname = 'tcp' for port i ...
推荐font-size的单位 % em单位
在如今这个提倡可用性设计以及用户体验设计的网络时代,CSS也是要一同参与其中的.大部分人在CSS代码编写中总是先对整体定义字体尺寸,中文情况下一般为12px,而其实这样以来在通过IE顶部菜单中的“察看 ...

Hadoop 2.x(YARN)安装配置LZO

Hadoop 2.x(YARN)安装配置LZO的更多相关文章

随机推荐

热门专题