1简介

codec其实就是coder和decoder两个单词的词头组成的缩略词。CompressionCodec定义了压缩和解压接口，我们这里讲的codec就是实现了CompressionCodec接口的一些压缩格式的类，下面是这些类的列表：

2使用CompressionCodes解压缩

CompressionCodec有两个方法可以方便的压缩和解压。

压缩：通过createOutputStream(OutputStream out)方法获得CompressionOutputStream对象

解压：通过createInputStream(InputStream in)方法获得CompressionInputStream对象

压缩的示例代码

package com.sweetop.styhadoop;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.compress.CompressionCodec;
import org.apache.hadoop.io.compress.CompressionOutputStream;
import org.apache.hadoop.util.ReflectionUtils;
/**
* Created with IntelliJ IDEA.
* User: lastsweetop
* Date: 13-6-25
* Time: 下午10:09
* To change this template use File | Settings | File Templates.
*/
public class StreamCompressor {
public static void main(String[] args) throws Exception {
String codecClassName = args[0];
Class<?> codecClass = Class.forName(codecClassName);
Configuration conf = new Configuration();
CompressionCodec codec = (CompressionCodec) ReflectionUtils.newInstance(codecClass, conf);
CompressionOutputStream out = codec.createOutputStream(System.out);
IOUtils.copyBytes(System.in, out, 4096, false);
out.finish();
}
}

从命令行接受一个CompressionCodec实现类的参数，然后通过ReflectionUtils把实例化这个类，调用CompressionCodec的接口方法对标准输出流进行封装，封装成一个压缩流，通过IOUtils类的copyBytes方法把标准输入流拷贝到压缩流中，最后调用CompressionCodec的finish方法，完成压缩。

再来看下命令行：

echo "Hello lastsweetop" | ~/hadoop/bin/hadoop com.sweetop.styhadoop.StreamCompressor org.apache.hadoop.io.compress.GzipCodec | gunzip -

使用GzipCodec类来压缩“Hello lastsweetop”,然后再通过gunzip工具解压。

我们来看一下输出：

[exec] 13/06/26 20:01:53 INFO util.NativeCodeLoader: Loaded the native-hadoop library
[exec] 13/06/26 20:01:53 INFO zlib.ZlibFactory: Successfully loaded & initialized native-zlib library
[exec] Hello lastsweetop

3使用CompressionCodecFactory解压缩

如果你想读取一个被压缩的文件的话，首先你得先通过扩展名判断该用哪种codec，可以看下【hadoop】——压缩工具比较中得对应关系。

当然有更简便得办法，CompressionCodecFactory已经帮你把这件事做了，通过传入一个Path调用它得getCodec方法,即可获得相应得codec。我们来看下代码

package com.sweetop.styhadoop;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.compress.CompressionCodec;
import org.apache.hadoop.io.compress.CompressionCodecFactory;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import java.net.URI;
/**
* Created with IntelliJ IDEA.
* User: lastsweetop
* Date: 13-6-26
* Time: 下午10:03
* To change this template use File | Settings | File Templates.
*/
public class FileDecompressor {
public static void main(String[] args) throws Exception {
String uri = args[0];
Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(URI.create(uri), conf);
Path inputPath = new Path(uri);
CompressionCodecFactory factory = new CompressionCodecFactory(conf);
CompressionCodec codec = factory.getCodec(inputPath);
if (codec == null) {
System.out.println("No codec found for " + uri);
System.exit(1);
}
String outputUri = CompressionCodecFactory.removeSuffix(uri, codec.getDefaultExtension());
InputStream in = null;
OutputStream out = null;
try {
in = codec.createInputStream(fs.open(inputPath));
out = fs.create(new Path(outputUri));
IOUtils.copyBytes(in,out,conf);
} finally {
IOUtils.closeStream(in);
IOUtils.closeStream(out);
}
}
}

注意看下removeSuffix方法，这是一个静态方法，它可以将文件的后缀去掉，然后我们将这个路径做为解压的输出路径。CompressionCodecFactory能找到的codec也是有限的，默认只有三种org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.BZip2Codec,org.apache.hadoop.io.compress.DefaultCodec,如果想添加其他的codec你需要更改io.compression.codecs属性，并注册codec。

4原生库

现在越来越多原生库的概念，hdfs的codec也不例外，原生库可以极大的提升性能比如gzip的原生库解压提高50%，压缩提高10%，但不是所有codec都有原生库的，而一些codec只有原生库。我们来看下列表：

linux下，hadoop以前提前编译好了32位的原生库和64位的原生库，我们看下：

[hadoop@namenode native]$pwd
/home/hadoop/hadoop/lib/native
[hadoop@namenode native]$ls -ls
total 8
4 drwxrwxrwx 2 root root 4096 Nov 14 2012 Linux-amd64-64
4 drwxrwxrwx 2 root root 4096 Nov 14 2012 Linux-i386-32

如果是其他平台的话，你就需要自己编译了，详细步骤请看这里http://wiki.apache.org/hadoop/NativeHadoop

java原生库的路径可以通过java.library.path指定，在bin目录下，hadoop的启动脚本已经指定，如果你不用这个脚本，那么你就需要在你的程序中指定了，hadoop脚本中指定原生库路径的片段：

if [ -d "${HADOOP_HOME}/build/native" -o -d "${HADOOP_HOME}/lib/native" -o -e "${HADOOP_PREFIX}/lib/libhadoop.a" ]; then
if [ -d "$HADOOP_HOME/build/native" ]; then
JAVA_LIBRARY_PATH=${HADOOP_HOME}/build/native/${JAVA_PLATFORM}/lib
fi
if [ -d "${HADOOP_HOME}/lib/native" ]; then
if [ "x$JAVA_LIBRARY_PATH" != "x" ]; then
JAVA_LIBRARY_PATH=${JAVA_LIBRARY_PATH}:${HADOOP_HOME}/lib/native/${JAVA_PLATFORM}
else
JAVA_LIBRARY_PATH=${HADOOP_HOME}/lib/native/${JAVA_PLATFORM}
fi
fi
if [ -e "${HADOOP_PREFIX}/lib/libhadoop.a" ]; then
JAVA_LIBRARY_PATH=${HADOOP_PREFIX}/lib
fi
fi

hadoop会去查找对应的原生库，并且自动加载，你不需要关心这些设置。但某些时候你不想使用原生库，比如调试一些bug的时候，那么可以通过hadoop.native.lib设置为false来实现。

如果你用原生库做大量的压缩和解压的话可以考虑用CodecPool,有点像连接池，这样你就无需频繁的去创建codec对象。

package com.sweetop.styhadoop;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.compress.CodecPool;
import org.apache.hadoop.io.compress.CompressionCodec;
import org.apache.hadoop.io.compress.CompressionOutputStream;
import org.apache.hadoop.io.compress.Compressor;
import org.apache.hadoop.util.ReflectionUtils;
/**
* Created with IntelliJ IDEA.
* User: lastsweetop
* Date: 13-6-27
* Time: 上午11:53
* To change this template use File | Settings | File Templates.
*/
public class PooledStreamCompressor {
public static void main(String[] args) throws Exception {
String codecClassName = args[0];
Class<?> codecClass = Class.forName(codecClassName);
Configuration conf = new Configuration();
CompressionCodec codec = (CompressionCodec) ReflectionUtils.newInstance(codecClass, conf);
Compressor compressor = null;
try {
compressor = CodecPool.getCompressor(codec);
CompressionOutputStream out = codec.createOutputStream(System.out, compressor);
IOUtils.copyBytes(System.in, out, 4096, false);
out.finish();
} finally {
CodecPool.returnCompressor(compressor);
}
}
}

代码比较容易理解，通过CodecPool的getCompressor方法获得Compressor对象，该方法需要传入一个codec，然后Compressor对象在createOutputStream中使用，使用完毕后再通过returnCompressor放回去。

输出结果如下：

[exec] 13/06/27 12:00:06 INFO util.NativeCodeLoader: Loaded the native-hadoop library
[exec] 13/06/27 12:00:06 INFO zlib.ZlibFactory: Successfully loaded & initialized native-zlib library
[exec] 13/06/27 12:00:06 INFO compress.CodecPool: Got brand-new compressor
[exec] Hello lastsweetop 　　
转载请注明出处：http://blog.csdn.net/lastsweetop/article/details/9173061

【hadoop】——HDFS解压缩实现的更多相关文章

[转]hadoop hdfs常用命令
FROM : http://www.2cto.com/database/201303/198460.html hadoop hdfs常用命令 hadoop常用命令: hadoop fs 查看H ...
Hadoop HDFS安装、环境配置
hadoop安装进入Xftp将hadoop-2.7.3.tar.gz 复制到自己的虚拟机系统下的放软件的地方,我的是/soft/software 在虚拟机系统装软件文件里,进行解压缩并重命名进入p ...
Hadoop HDFS常用操作命令
hadoop常用命令:hadoop fs查看Hadoop HDFS支持的所有命令 hadoop fs –ls列出目录及文件信息 hadoop fs –lsr循环列出目录.子目录及文件信息 hadoop ...
基于key/value+Hadoop HDFS 设计的存储系统的shell命令接口
对于hadoop HDFS 中的全部命令进行解析(当中操作流程是自己的想法有不允许见欢迎大家指正) 接口名称功能操作流程 get 将文件拷贝到本地文件系统 . 假设指定了多个源文件,本地目的端必须 ...
Hadoop HDFS 用户指南
This document is a starting point for users working with Hadoop Distributed File System (HDFS) eithe ...
Hadoop HDFS负载均衡
Hadoop HDFS负载均衡转载请注明出处:http://www.cnblogs.com/BYRans/ Hadoop HDFS Hadoop 分布式文件系统(Hadoop Distributed ...
Hive:org.apache.hadoop.hdfs.protocol.NSQuotaExceededException: The NameSpace quota (directories and files) of directory /mydir is exceeded: quota=100000 file count=100001
集群中遇到了文件个数超出限制的错误: 0)昨天晚上spark 任务突然抛出了异常:org.apache.hadoop.hdfs.protocol.NSQuotaExceededException: T ...
Hadoop程序运行中的Error(1)-Error: org.apache.hadoop.hdfs.BlockMissingException
15/03/18 09:59:21 INFO mapreduce.Job: Task Id : attempt_1426641074924_0002_m_000000_2, Status : FAIL ...
Hadoop HDFS编程 API入门系列之HDFS_HA（五）
不多说,直接上代码. 代码 package zhouls.bigdata.myWholeHadoop.HDFS.hdfs3; import java.io.FileInputStream;import ...
Hadoop HDFS编程 API入门系列之简单综合版本1（四）
不多说,直接上代码. 代码 package zhouls.bigdata.myWholeHadoop.HDFS.hdfs4; import java.io.IOException; import ja ...

随机推荐

【Linux_Fedora_应用系列】_4_安装chrome浏览器
在前面一篇文章中,我们讨论了在Linux Fedora 14下安装WMV解码器:[Linux_Fedora_应用系列]_3_如何利用Smplayer播放WMV格式的文件在文章中介绍的方法同样适合FC ...
sso demo mysql ( cas )
基本配置参考之前得随笔 http://www.cnblogs.com/rocky-fang/p/5354947.html 1. tomcat-cas 修改配置 1.1 在D:\test\sso\t ...
SoapUI 使用笔记
1. 构建项目安装完成后右键Project --> New SOAP Project 在弹出的 New SOAP Project框中输入名字和 webservice服务地址(example ...
ahjesus自定义隐式转换和显示转换
implicit 关键字用于声明隐式的用户定义类型转换运算符. 如果可以确保转换过程不会造成数据丢失,则可使用该关键字在用户定义类型和其他类型之间进行隐式转换. 参考戳此 explicit ...
Guava学习笔记：Guava新集合-Table等
Table 当我们需要多个索引的数据结构的时候,通常情况下,我们只能用这种丑陋的Map<FirstName, Map<LastName, Person>>来实现.为此Guava ...
IClient for js开发之地图的加载
进行web开发之前首先需要安装IServer以及iClient for JavaScript的开发包.在这两中都具备的前提下进行第一步,如何调用IServer中发布的服务调用iServer 中发布的 ...
Hexo - 快速，轻量，强大的 Node.js 博客框架
Hexo 是一个快速,轻量,强大的 Node.js 博客框架.带给你难以置信的编译速度,瞬间生成静态文件:支持 Markdown,甚至可以在 Hexo 中集合 Octopress 插件:只需要一个命令 ...
[js开源组件开发]query组件,获取url参数和form表单json格式
query组件,获取url参数和form表单json格式距离上次的组件[js开源组件开发]ajax分页组件一转眼过去了近二十天,或许我一周一组件的承诺有了质疑声,但其实我一直在做,只是没人看到……, ...
javascript 奇淫巧技44招
1.首次为变量赋值时务必使用var关键字变量没有声明而直接赋值得话,默认会作为一个新的全局变量,要尽量避免使用全局变量. 2.使用===取代== ==和!=操作符会在需要的情况下自动转换数据类型.但 ...
Atitit。Web server Jetty9 使用 attilax 总结
Atitit.Web server Jetty9 使用 attilax 总结 1.1. 静态文件的资源1 1.2. Servlet使用1 1.3. code1 1.1. 静态文件的资源 WebAppC ...

【hadoop】——HDFS解压缩实现

1简介

2使用CompressionCodes解压缩

3使用CompressionCodecFactory解压缩

4原生库

【hadoop】——HDFS解压缩实现的更多相关文章

随机推荐

热门专题