开启hadoop和Hbase集群的lzo压缩功能（转）

原文链接：开启hadoop和Hbase集群的lzo压缩功能

问题导读：
1.如何启动hadoop、hbase集群的压缩功能？
2.lzo的作用是什么？
3.hadoop配置文件需要做哪些修改？

首先我们明白一个概念：

LZO 是致力于解压速度的一种数据压缩算法，LZO 是 Lempel-Ziv-Oberhumer 的缩写。

安装前：
# yum -y install lzo-devel zlib-devel gcc autoconf automakelibtool

lzo-2.06.tar.gz下载地址：Index of /opensource/lzo/download

1.(all) 在集群的所有节点上安装Lzo库，

tar -zxvf lzo-2.06.tar.gz
cd lzo-2.06
# export CFLAGS=-m64 注：如果为32位系统改为export CFLAGS=-m32
#./configure --enable-shared
# make
# make install

库文件被默认安装到了/usr/local/lib,我们需要进一步指定lzo库文件的路径，两个方法都可以：
1) 拷贝/usr/local/lib目录下的lzo库文件到/usr/lib（32位平台），或/usr/lib64（64位平台）

#cp /usr/local/lib/liblzo2.* /usr/lib64

复制代码

2)在/etc/ld.so.conf.d/目录下新建lzo.conf文件，写入lzo库文件的路径，然后运行/sbin/ldconfig -v，使配置生效

#vi /etc/ld.so.conf.d/lzo.conf
/usr/local/lib
# /sbin/ldconfig -v

复制代码

2. 编译安装Hadoop Lzo本地库以及Jar包，这里采用twitter维护的，从这里下载
https://github.com/twitter/hadoop-lzo
修改pom.xml：

<properties>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
<hadoop.current.version>2.1.0-beta</hadoop.current.version>
<hadoop.old.version>1.0.4</hadoop.old.version>
</properties>

复制代码

修改为

<properties>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
<hadoop.current.version>2.2.0</hadoop.current.version>
<hadoop.old.version>1.0.4</hadoop.old.version>
</properties>

复制代码

hadoop-lzo-master.zip

cd hadoop-lzo-master
export CFLAGS=-m64 注：如果为32位系统改为export CFLAGS=-m32
export CXXFLAGS=-m64 注：如果为32位系统改为export CXXFLAGS=-m32
export C_INCLUDE_PATH=/usr/local/include/lzo
export LIBRARY_PATH=/usr/local/lib
mvn clean package -Dmaven.test.skip=true

复制代码

接着把target/native/Linux-amd64-64/lib下的全部文件拷贝到${HADOOP_HOME}/lib/native,或者

cp /build/native/Linux-amd64-64/lib/* $HADOOP_HOME/lib/native/
cp target/hadoop-lzo-0.4.20-SNAPSHOT.jar /opt/hadoop-2.2.0/share/hadoop/common/lib

复制代码

对于Hbase启用LZO

cp $HADOOP_HOME/lib/native/Linux-amd64-64/* $HBASE_HOME/lib/native/Linux-amd64-64

复制代码

修改：

hbase-env.sh

export HBASE_LIBRARY_PATH=$HBASE_LIBRARY_PATH:$HBASE_HOME/lib/native/Linux-amd64-64/:/usr/local/lib/

复制代码

同步hadoop 和hbase集群

3.配置文件修改
在hadoop-env.sh中加入

export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native

复制代码

core-site.xml

<property>
<name>io.compression.codecs</name><value>org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.BZip2Codec,com.hadoop.compression.lzo.LzoCodec,com.hadoop.compression.lzo.LzopCodec</value>
</property>
<property>
<name>io.compression.codec.lzo.class</name>
<value>com.hadoop.compression.lzo.LzoCodec</value>
</property>

复制代码

mapred-site.xml

<property>
<name>mapred.compress.map.output</name>
<value>true</value>
</property>
<property>
<name>mapred.map.output.compression.codec</name>
<value>com.hadoop.compression.lzo.LzoCodec</value>
</property>
<property>
<name>mapred.child.env</name>
<value>LD_LIBRARY_PATH=/usr/local/lib</value>
</property>

复制代码

同步hadoop-env.sh,core-site.xml, mapred-site.xml到集群
4. 安装lzop

下载地址：http://www.lzop.org/download/
LZOP是使用lzo库写的一个程序，通过shell命令直接可以压缩、解压缩文件。

tar zxvf lzop-1.03.tar.gz
cd
# exportLD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/lib
# ./configure
# make
# makeinstall

复制代码

用一下lzop的压缩解压功能,成功安装后可直接使用lzop命令对文件进行解压缩操作了。
# 压缩

[hadoop@master1 ~]$ lzop -v test1.txt
compressing test1.txt into test1.txt.lzo

复制代码

#上传到hdfs

[hadoop@master1 ~]$ hadoop fs -put *.lzo /in

复制代码

#给Lzo文件建立Index

hadoop
jar/opt/hadoop-2.2.0/share/hadoop/common/lib/hadoop-lzo-0.4.20-SNAPSHOT.jarcom.hadoop.compression.lzo.LzoIndexer
/in

复制代码

#运行一个wordcount程序

hadoop jar /home/hadoop/wordcount.jar org.apache.hadoop.examples.WordCount /input1 /out1

复制代码

正常：
14/02/23 18:53:14 INFOlzo.GPLNativeCodeLoader: Loaded native gpl library from the embedded binaries
14/02/23 18:53:14 INFO lzo.LzoCodec:Successfully loaded &
initialized native-lzo library [hadoop-lzo
rev478aa845e11bbbeeb9b8326e733cd20a06d2cb3a]

开启hadoop和Hbase集群的lzo压缩功能（转）的更多相关文章

hadoop(八) - hbase集群环境搭建
1. 上传hbase安装包hbase-0.96.2-hadoop2-bin.tar.gz 2. 解压 tar -zxvf hbase-0.96.2-hadoop2-bin.tar.gz -C /clo ...
配置hadoop集群的lzo压缩
MR-Job中使用lzop详见MR案例:Job中使用Lzo压缩 1). 配置前的环境准备 # yum -y install lzo-devel zlib-devel gcc autoconf auto ...
使用ganglia监控hadoop及hbase集群
一.Ganglia简介 Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测量数以千计的节点.每台计算机都运行一个收集和发送度量数据(如处理器速度.内存使用量等)的名为 gm ...
docker应用-3（搭建hadoop以及hbase集群）
要用docker搭建集群,首先需要构造集群所需的docker镜像.构建镜像的一种方式是,利用一个已有的镜像比如简单的linux系统,运行一个容器,在容器中手动的安装集群所需要的软件并进行配置,然后co ...
第十二章 Ganglia监控Hadoop及Hbase集群性能(安装配置)
1 Ganglia简介 Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测量数以千计的节点.每台计算机都运行一个收集和发送度量数据(如处理器速度.内存使用量等)的名为 gm ...
使用ganglia监控hadoop及hbase集群分类： B3_LINUX 2015-03-06 20:53 646人阅读评论(0) 收藏
介绍性内容来自:http://www.uml.org.cn/sjjm/201305171.asp 一.Ganglia简介 Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测 ...
设置Hadoop+Hbase集群pid文件存储位置
有时候,我们对运行几天或者几个月的hadoop或者hbase集群做停止操作,会发现,停止命令不管用了,为什么呢? 因为基于java开发的程序,想要停止程序,必须通过进程pid来确定,而hadoop和h ...
Phoenix连接安全模式下的HBase集群
Phoenix连接安全模式下的HBase集群 HBase集群开启安全模式(即启用kerberos认证)之后,用户无论是用HBase shell还是Phoenix去连接HBase都先需要通过kerber ...
HBase 集群监控系统构建
HBase 集群监控系统构建标签(空格分隔): Hbase 一, 集群为什么需要监控系统总的来说是为了保证系统的稳定性,可靠性,可运维性.具体来说我认为有以下几点: 掌控集群的核心性能指标,了解集 ...

随机推荐

Codeforces Round #213 (Div. 1) B - Free Market 思维+背包好题
B - Free Market 思路:这个题怎么说呢,迷惑性很大,题目里说了交换了两个集合的时候如果有相同元素不能交换,感觉如果没这句话能很快写出来, 其实当交换的两个集合有重复元素的时候只要交换那 ...
bzoj 1232 [Usaco2008Nov]安慰奶牛cheer
思路:看出跟dfs的顺序有关就很好写了, 对于一棵树来说确定了起点那么访问点的顺序就是dfs序,每个点经过其度数遍,每条边经过2边, 那么我们将边的权值×2加上两端点的权值跑最小生成树,最后加上一个 ...
CentOS 升级Python3.X和pip3
目的:实现python3 and python2 共存,pip2 and pip3共存一.安装依赖 yum install openssl-devel -y yum install zlib-dev ...
实现Ecshop注册页面手机号唯一的验证
如果Ecshop实现了用手机号码来登陆,那么就需要在注册时保证会员所填写的手机号是唯一的,也就是说手机号还未被注册,那么该怎么来检测填写的手机号是否注册过了呢? 一.参考ecshop检测邮箱因为注册 ...
PIL 学习
参考资料:Python图像处理库:pillow Image 类 Pillow 中最重要的类就是 Image,该类存在于同名的模块中.可以通过以下几种方式实例化:从文件中读取图片,处理其他图片得到,或者 ...
Codeforces Round #441 (Div. 2, by Moscow Team Olympiad) F. High Cry（思维统计）
F. High Cry time limit per test 1 second memory limit per test 512 megabytes input standard input ou ...
Sockets CF732E set map
题目:http://codeforces.com/problemset/problem/732/E 题目大意: 有n台电脑(computer)和m个插座(socket),两者均有一个power值,分别 ...
Framework类库（FCL）简介
Framework类库(Framework Class Library,FCL)是一组DLL程序集的统称,其中含有数千个类型定义,每个类型都公开了一些功能部分常规的FCL命名空间命名空间内容说明 ...
[leetcode tree]104. Maximum Depth of Binary Tree
求树的最大深度 class Solution(object): def maxDepth(self, root): if not root: return 0 left = self.maxDepth ...
softmax为什么使用指数函数？（最大熵模型的理解）
解释1: 他的假设服从指数分布族解释2: 最大熵模型,即softmax分类是最大熵模型的结果. 关于最大熵模型,网上很多介绍: 在已知部分知识的前提下,关于未知分布最合理的推断就是符合已知知识最不确 ...

开启hadoop和Hbase集群的lzo压缩功能（转）

原文链接：开启hadoop和Hbase集群的lzo压缩功能

开启hadoop和Hbase集群的lzo压缩功能（转）的更多相关文章

随机推荐

热门专题