hadoop的lzo支持

1、下载相关文件：
2、Configure LZO to build a shared library (required) and use a package-specific prefix (optional but recommended):
3、Build and install LZO:
4、安装 hadoop-lzo
5、配置 Hadoop 属性
6、测试
7、LZO 创建索引

环境为伪分布。

1、下载相关文件：

lzo-2.10.tar.gz：https://www.oberhumer.com/opensource/lzo/

hadoop-lzo-master.zip：https://github.com/twitter/hadoop-lzo/archive/master.zip

2、Configure LZO to build a shared library (required) and use a package-specific prefix (optional but recommended):

[root@zgg opt]# tar -zxvf lzo-2.10.tar.gz

....

[root@zgg opt]# cd lzo-2.10

[root@zgg lzo-2.10]# ./configure --enable-shared --prefix /usr/local/lzo-2.10

3、Build and install LZO:

[root@zgg lzo-2.10]# make && sudo make install

如果是集群环境，编译完 lzo 包之后，将 /usr/local/lzo-2.10目录下生成的所有文件打包，并同步到集群其他节点。

4、安装 hadoop-lzo

[root@zgg opt]# unzip hadoop-lzo-master.zip

....

[root@zgg opt]# vi /etc/profile

....

export C_INCLUDE_PATH=/usr/local/lzo-2.10/include

export LIBRARY_PATH=/usr/local/lzo-2.10/lib

....

[root@zgg opt]# source /etc/profile

[root@zgg opt]# cd hadoop-lzo-master

[root@zgg hadoop-lzo-master]# mvn clean package

....

[INFO] ------------------------------------------------------------------------

[INFO] BUILD SUCCESS

[INFO] ------------------------------------------------------------------------

[INFO] Total time:  16:46 min

[INFO] Finished at: 2021-01-10T14:08:16+08:00

[INFO] ------------------------------------------------------------------------

[root@zgg hadoop-lzo-master]# cd target/

[root@zgg target]# ls

antrun   generated-sources                       hadoop-lzo-0.4.21-SNAPSHOT-sources.jar  native

apidocs  hadoop-lzo-0.4.21-SNAPSHOT.jar          javadoc-bundle-options                  test-classes

classes  hadoop-lzo-0.4.21-SNAPSHOT-javadoc.jar  maven-archiver

# 将`hadoop-lzo-0.4.21-SNAPSHOT.jar`复制到 .../common 目录下

[root@zgg hadoop-lzo-master]# cp target/hadoop-lzo-0.4.21-SNAPSHOT.jar /opt/hadoop-3.2.1/share/hadoop/common

如果是集群环境，需要将hadoop-lzo-0.4.21-SNAPSHOT.jar同步到集群其他节点。

5、配置 Hadoop 属性

hadoop-env.sh：

export LD_LIBRARY_PATH=/usr/local/lzo-2.10/lib

core-site.xml

<property>

	<!-- 配置支持 LZO 压缩 -->

	<name>io.compression.codecs</name>

	<value>

		com.hadoop.compression.lzo.LzoCodec,

		com.hadoop.compression.lzo.LzopCodec

	</value>

</property>

<property>

 	<name>io.compression.codec.lzo.class</name>

 	<value>com.hadoop.compression.lzo.LzoCodec</value>

</property>

mapred-site.xml

<property>

	<!-- 启用map任务输出的压缩 -->

    <name>mapreduce.map.output.compress</name>

    <value>true</value>

</property>

<property>

	<!-- map任务输出的压缩类型 -->

    <name>mapred.map.output.compression.codec</name>

    <value>com.hadoop.compression.lzo.LzopCodec</value>

</property>

<property>

	<!-- 启用job输出的压缩 -->

    <name>mapreduce.output.fileoutputformat.compress</name>

    <value>true</value>

</property>

<property>

	<!-- job输出的压缩类型，这里是LzopCodec -->

    <name>mapreduce.output.fileoutputformat.compress.codec</name>

    <value>com.hadoop.compression.lzo.LzopCodec</value>

</property>

<property>

    <name>mapred.child.env</name>

    <value>LD_LIBRARY_PATH=/usr/local/lzo-2.10/lib</value>

</property>

如果是集群环境，需要将这些配置同步到集群其他节点。

6、测试

# 安装lzop

yum install lzop

# 压缩文件

lzop  wc.txt

# 测试wordcount

[root@zgg target]# hadoop jar /opt/hadoop-3.2.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar wordcount /in/wc.txt.lzo /out/wc

....

【一个分片，未切片】

2021-01-10 15:54:36,249 INFO mapreduce.JobSubmitter: number of splits:1

[root@zgg target]# hadoop fs -ls /out/wc

Found 2 items

-rw-r--r--   1 root supergroup          0 2021-01-10 16:36 /out/wc/_SUCCESS

-rw-r--r--   1 root supergroup         91 2021-01-10 16:36 /out/wc/part-r-00000.lzo

7、LZO 创建索引

LZO 压缩文件的可切片特性依赖于其索引，故我们需要手动为 LZO 压缩文件创建索引。若无索引，则 LZO 文件的切片只有一个。

# 数据文件的目录是hdfs上的目录

# 【com.hadoop.compression.lzo.DistributedLzoIndexer】

[root@zgg target]# hadoop jar /opt/hadoop-lzo-master/target/hadoop-lzo-0.4.21-SNAPSHOT.jar com.hadoop.compression.lzo.LzoIndexer /in/wc.txt.lzo

2021-01-10 16:41:23,817 INFO lzo.GPLNativeCodeLoader: Loaded native gpl library from the embedded binaries

2021-01-10 16:41:23,820 INFO lzo.LzoCodec: Successfully loaded & initialized native-lzo library [hadoop-lzo rev 5dbdddb8cfb544e58b4e0b9664b9d1b66657faf5]

2021-01-10 16:41:24,573 INFO lzo.LzoIndexer: [INDEX] LZO Indexing file /in/wc.txt.lzo, size 0.00 GB...

2021-01-10 16:41:24,659 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false

2021-01-10 16:41:24,736 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false

2021-01-10 16:41:24,802 INFO lzo.LzoIndexer: Completed LZO Indexing in 0.23 seconds (0.00 MB/s).  Index size is 0.01 KB.

# 查看

[root@zgg data]# hadoop fs -ls /in

Found 2 items

-rw-r--r--   1 root supergroup        124 2021-01-10 16:13 /in/lzo/wc.txt.lzo

-rw-r--r--   1 root supergroup          8 2021-01-10 16:13 /in/lzo/wc.txt.lzo.index

# 测试

# 【输入路径也必须包含索引文件】

[root@zgg target]# hadoop jar /opt/hadoop-3.2.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar wordcount /in/lzo /out/wc

....

2021-01-10 16:43:41,854 INFO mapreduce.JobSubmitter: number of splits:2

....

[root@zgg target]# hadoop fs -ls /out/wc

Found 2 items

-rw-r--r--   1 root supergroup          0 2021-01-10 16:44 /out/wc/_SUCCESS

-rw-r--r--   1 root supergroup        102 2021-01-10 16:44 /out/wc/part-r-00000.lzo

[root@zgg target]# hadoop fs -text /out/wc/part-r-00000.lzo

2021-01-10 16:44:47,453 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false

2021-01-10 16:44:47,521 INFO lzo.GPLNativeCodeLoader: Loaded native gpl library from the embedded binaries

2021-01-10 16:44:47,557 INFO lzo.LzoCodec: Successfully loaded & initialized native-lzo library [hadoop-lzo rev 5dbdddb8cfb544e58b4e0b9664b9d1b66657faf5]

2021-01-10 16:44:47,562 INFO compress.CodecPool: Got brand-new decompressor [.lzo]

,       1

flink   170

hadoop  510

hello   340

spark   170

参考地址：

https://www.cnblogs.com/caoshouling/p/14091113.html

https://github.com/twitter/hadoop-lzo

hadoop的lzo支持的更多相关文章

Hadoop添加LZO压缩支持
启用lzo的压缩方式对于小规模集群是很有用处,压缩比率大概能降到原始日志大小的1/3.同时解压缩的速度也比较快. 安装准备jar包 1)先下载lzo的jar项目https://github.com/ ...
Kettle 添加对应hadoop版本的支持
在hdp的官网上有一个ETL工具叫做Talend Open Studio,然后我就下了,并且在群里询问了一下,突然间冒出来一群ETL高手,经高人指点认识了一款叫做Kettle的软件,经过这两天的试用, ...
hadoop输出lzo文件并添加索引
public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); ...
Hadoop配置lzo
编译: 0. 环境准备 maven(下载安装,配置环境变量,修改sitting.xml加阿里云镜像) gcc-c++ zlib-devel autoconf automake libtool 通过yu ...
Spark on Yarn出现hadoop.compression.lzo.LzoCodec not found问题发现及解决
问题描述: spark.SparkContext: Created broadcast 0 from textFile at WordCount.scala:37 Exception in threa ...
Hadoop安装lzo实验
参考http://blog.csdn.net/lalaguozhe/article/details/10912527 环境:hadoop2.3cdh5.0.2 hive 1.2.1 目标:安装lzo ...
Hadoop使用lzo压缩格式
在hadoop中搭建lzo环境: wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz export CFLAGS ...
HBase各版本对Hadoop版本的支持情况
转载自:http://blog.csdn.net/sunny05296/article/details/54089194 安装HBase时,要考虑选择正确的Hadoop版本,否则可能出现不兼容的情况. ...
hadoop版本与支持的hbase版本对照…
hadoop版本与支持的hbase版本对照表分类: hbase2013-05-20 17:19 701人阅读评论(2) 收藏举报 HbaseHadoop As of Hive 0.9.0 the ...

随机推荐

kubenetes 相关命令(转载)
版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/xingwangc2014/article/details/51204224好久没写博客了,前段时间公 ...
hbase远程api调用, 远程连接开发，环境构建相关问题总结
平时在开发的过程中,都是将hbase的环境装在虚拟机或者双系统上的,开发是直接在unix或者linux上进行的,这样对于使用上,有些繁琐. 下面我将介绍我在使用windows远程开发过程中的一些总结: ...
8. Linux重要的环境变量
1.Linux 系统执行命令的4个步骤第 1 步:判断用户是否以绝对路径或相对路径的方式输入命令(如/bin/ls),如果是的话则直接执行. 第 2 步:Linux 系统检查用户输入的命令是否为& ...
CSS奇思妙想 -- 使用 background 创造各种美妙的背景
本文属于 CSS 绘图技巧其中一篇,系列文章: 在 CSS 中使用三角函数绘制曲线图形及展示动画 CSS奇思妙想 -- 使用 CSS 创造艺术将介绍一些利用 CSS 中的 background.mi ...
B - How Many Tables (多少桌)
题目大致意思: 有n个人在一起吃饭,有些人互相认识.认识的人想坐在一起,不想跟陌生人坐.例如A认识B,B认识C,那么A.B.C会坐在一张桌子上. 给出认识的人,问需要多少张桌子 Today is Ig ...
删括号(dp)
题目链接:https://ac.nowcoder.com/acm/problem/21303 思路:删括号的时候一定要时刻保证左括号数量比右括号多,我们可以定义dp[i][j][k]表示考虑AA前i个 ...
Codeforces Global Round 11 C. The Hard Work of Paparazzi（dp/最长上升子序列）
题目链接:https://codeforces.com/contest/1427/problem/C 题意 \(r\) 行与 \(r\) 列相交形成了 \(r \times r\) 个点,初始时刻记者 ...
Codeforces Round #582 (Div. 3) C. Book Reading
传送门题意: 给你n,k.表示在[1,n]这个区间内,在这个区间内找出来所有x满足x%k==0,然后让所有x的个位加到一起(即x%10),输出. 例如:输入10 2 那么满足要求的数是2 4 6 8 ...
hdu5375 Gray code
Problem Description The reflected binary code, also known as Gray code after Frank Gray, is a binary ...
poj2362 Square
Description Given a set of sticks of various lengths, is it possible to join them end-to-end to form ...