前言

　　前面一篇介绍了Java怎么去查看数据块的相关信息和怎么去查看文件系统。我们只要知道怎么去查看就行了！接下来我分享的是Hadoop的I/O操作。

　　在Hadoop中为什么要去使用压缩（Compression）呢？接下来我们就知道了。

一、压缩（Compression）概述

1.1、压缩的好处

　　减少储存文件所需要的磁盘空间，并加速数据在网络和磁盘上的传输。这两个在大数据处理大龄数据时相当重要！

1.2、压缩格式总结

　　Hadoop对前面三种有默认集成，有就是说Hadoop支持DEFLATE、Gzip、bzip2三种压缩格式。而后面三种Hadoop没有支持，要用的话要自己去官网

　　下载相应的源码去编译加入到Hadoop才能用。

　　注意：

　　1）这里我要说的是“是否分割”，当我们一个文件去压缩即使有非常好的压缩算法，但是它的大小还是超过了一个数据块的大小，这时就涉及到分割了。

　　　　所以说在以后的压缩我们大多数情况下会使用bzip2。

　　2）Gzip和bzip2比较时，bzip2的压缩率（压缩之后的大小除以源文件的大小）要小，所以说bzip2的压缩效果好。而这里就会压缩和解压缩的时候浪费更多的时间。

　　　　就是我们常说的“用时间换取空间”。

二、编解码器（Codec）概述

　　codec实现了一种压缩-加压缩算法（意思就是codec使用相关的算法对数据进行编解码）。在Hadoop中，一个对CompressionCodec接口的实现代表一个codec。

　　对于不同的压缩算法有不同的编解码器

　　我们要对一个文件进行压缩需要编码器，对一个压缩文件进行解压需要解码器。那我们怎么样去获取编解码器呢？

　　　　有两种方式：

　　　　　　一是：根据扩展名让程序自己去选择相应的编解码器。比如说：我在本地有一个文件是 user.txt我们通过-Dinput=user.txt去上传这个文件到集群，

　　　　　　　　在集群中我们把它指定到-Doutput=/user.txt.gz.。这是我们程序的相关的类会根据你的扩展名（这里是.gz）获取相应的压缩编解码器。

　　　　　　　　在Hadoop中有一个CompressionCodecFactory会根据扩展名获取相应的编解码器对象。

　　　　　　二是：我们自己去指定编解码器。为什么要去指定呢？比如说，我在本地有一个文件是user.txt.gz，其实这个压缩文件是使用的是bzip2的压缩算法压缩的。

　　　　　　　　（因为我自己去更改了它的扩展名），所以这时候就要自己去指定编解码器。

三、Java编程实现文件的压缩与解压缩

3.1、原理分析

　　在我们把本地的文件上传的集群的时候，到底是哪里需要压缩，哪里需要解压缩，在哪里压缩？这都是需要明白，下面画一张图给大家理解：

3.2、相关类和方法

　　在Hadoop中关于压缩和解压缩的包、接口和类：

　　1）CompressionCodec接口中

　　2）CompressionCodecFactory类

　　　　第一个是：根据文件的文件名后缀找到相应的压缩编解码器
　　　　第二个是：为编解码器的标准类名找到相关的压缩编解码器。
　　　　第三个是：为编解码器的标准类名或通过编解码器别名找到相关的压缩编解码器。

3.3、Java将本地文件压缩上传到集群当中

　　1）核心代码

import java.net.URI;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.FSDataInputStream;

import org.apache.hadoop.fs.FSDataOutputStream;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.LocalFileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IOUtils;

import org.apache.hadoop.io.compress.BZip2Codec;

import org.apache.hadoop.io.compress.CompressionCodec;

import org.apache.hadoop.io.compress.CompressionCodecFactory;

import org.apache.hadoop.io.compress.CompressionOutputStream;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

public class WriteDemo_0010

    extends Configured implements Tool{

    @Override

    public int run(String[] args) throws Exception{

        Configuration conf=getConf();

        String input=conf.get("input");

        String output=conf.get("output");

        LocalFileSystem lfs=

            FileSystem.getLocal(conf);

        FileSystem rfs=

            FileSystem.get(

                URI.create(output),conf);

        FSDataInputStream is=

            lfs.open(new Path(input));

        FSDataOutputStream os=

            rfs.create(new Path(output));

        CompressionCodecFactory ccf=

            new CompressionCodecFactory(conf);
　　　　//把路径传进去，根据指定的后缀名获取编解码器

        CompressionCodec codec=

            ccf.getCodec(new Path(output));

        CompressionOutputStream cos=

            codec.createOutputStream(os);

        System.out.println(

            codec.getClass().getName());

        IOUtils.copyBytes(is,cos,,true);

        //close

        return ;

    }

    public static void main(String[] args) throws Exception{

        System.exit(

            ToolRunner.run(

                new WriteDemo_0010(),args));

    }

}

　　2）测试

　　　　将IEDA中打好的jar包上传到Linux中（安装了HDFS集群的客户端的服务器中）执行：

　　　　结果：

　　　　　　我们可以从前面的那种表中可以看的出来，获取到了相应的编解码器。

　　　　再次测试：

　　　　结果：

3.4、Java将集群文件解压缩到本地

　　1）核心代码

import java.net.URI;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.FSDataInputStream;

import org.apache.hadoop.fs.FSDataOutputStream;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.LocalFileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IOUtils;

import org.apache.hadoop.io.compress.CompressionCodec;

import org.apache.hadoop.io.compress.CompressionCodecFactory;

import org.apache.hadoop.io.compress.CompressionInputStream;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

public class ReadDemo_0010

    extends Configured

    implements Tool{

    @Override

    public int run(String[] args) throws Exception{

        Configuration conf=getConf();

        String input=conf.get("input");

        String output=conf.get("output");

        FileSystem rfs=

            FileSystem.get(

                URI.create(input),conf);

        LocalFileSystem lfs=

            FileSystem.getLocal(conf);

        FSDataInputStream is=

            rfs.open(new Path(input));

        FSDataOutputStream os=

            lfs.create(new Path(output));

        CompressionCodecFactory factory=

            new CompressionCodecFactory(conf);

        CompressionCodec codec=

            factory.getCodec(new Path(input));

        CompressionInputStream cis=

            codec.createInputStream(is);

        IOUtils.copyBytes(cis,os,1024,true);

        return ;

    }

    public static void main(String[] args) throws Exception{

        System.exit(

            ToolRunner.run(

                new ReadDemo_0010(),args));

    }

}

　　2）测试

　　结果：

　　查看结果：

喜欢就点个“推荐”哦！

Hadoop（九）Hadoop IO之Compression和Codecs的更多相关文章

【原创】大叔问题定位分享（16）spark写数据到hive外部表报错ClassCastException: org.apache.hadoop.hive.hbase.HiveHBaseTableOutputFormat cannot be cast to org.apache.hadoop.hive.ql.io.HiveOutputFormat
spark 2.1.1 spark在写数据到hive外部表(底层数据在hbase中)时会报错 Caused by: java.lang.ClassCastException: org.apache.h ...
Hadoop基础-通过IO流操作HDFS
Hadoop基础-通过IO流操作HDFS 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.上传文件 /* @author :yinzhengjie Blog:http://www ...
hive orc压缩数据异常java.lang.ClassCastException: org.apache.hadoop.io.Text cannot be cast to org.apache.hadoop.hive.ql.io.orc.OrcSerde$OrcSerdeRow
hive表在创建时候指定存储格式 STORED AS ORC tblproperties ('orc.compress'='SNAPPY'); 当insert数据到表时抛出异常 Caused by: ...
hadoop基础----hadoop实战(九)-----hadoop管理工具---CDH的错误排查(持续更新)
在CDH安装完成后或者CDH使用过程中经常会有错误或者警报,需要我们去解决,积累如下: 解决红色警报时钟偏差这是因为我们的NTP服务不起作用导致的,几台机子之间有几秒钟的时间偏差. 这种情况下一是 ...
五十九.大数据、Hadoop 、 Hadoop安装与配置、 HDFS
1.安装Hadoop 单机模式安装Hadoop 安装JAVA环境设置环境变量,启动运行 1.1 环境准备 1)配置主机名为nn01,ip为192.168.1.21,配置yum源(系统源) 备 ...
hadoop记录-Hadoop参数汇总
Hadoop参数汇总 linux参数以下参数最好优化一下: 文件描述符ulimit -n 用户最大进程 nproc (hbase需要 hbse book) 关闭swap分区设置合理的预读取缓冲区 ...
[Hadoop 周边] Hadoop和大数据：60款顶级大数据开源工具（2015-10-27）【转】
说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱.弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,“100%的大公司”会采用Hado ...
hadoop之 hadoop 2.2.X 弃用的配置属性名称及其替换名称对照表
Deprecated Properties 弃用属性 The following table lists the configuration property names that are depr ...
Hadoop： Hadoop Cluster配置文件
Hadoop配置文件 Hadoop的配置文件: 只读的默认配置文件:core-default.xml, hdfs-default.xml, yarn-default.xml 和 mapred-defa ...

随机推荐

团队作业八—第二次团队冲刺（Beta版本）第 2 天
一.每个人的工作 (1) 昨天已完成的工作昨天的工作主要是一些界面的设计,我们顺利完成了复杂模式题目数目界面.复杂模式做题界面.结果统计界面的具体代码编写,和一些细节的完善.还有日常冲刺博客的编辑. ...
201521123031《Java程序设计》第2周学习总结
1. 本周学习总结 (1)能够更加熟练地使用码云 (2)学习了Arrys和String的用法和一些运用 (3)懂得如何查询函数的源代码,通过查看源代码,能够更深入的了解函数适用情况以及利弊 2. 书面 ...
Python[小甲鱼007了不起的分支和循环]
加载背景音乐播放背景音乐(设置单曲循环)我方飞机诞生interval = 0while True:if 用户是否点击关闭按钮退出程序breakinterval += 1if interval = 50 ...
201521123111《Java程序设计》第9周学习总结
1. 本章学习总结以你喜欢的方式(思维导图或其他)归纳总结异常相关内容. 附上一个链接 2. 书面作业本次PTA作业题集异常 1.常用异常题目5-1 1.1 截图你的提交结果(出现学号) 1.2 ...
201521123013 《Java程序设计》第14周学习总结
1. 本周学习总结 2. 书面作业 Q1. MySQL数据库基本操作 1.1 建立数据库,将自己的姓名.学号作为一条记录插入.(截图,需出现自己的学号.姓名) 1.2 在自己建立的数据库上执行常见SQ ...
201521123122 《java程序设计》第十二周学习总结
## 201521123122 <java程序设计>第十二周实验总结 ## 1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多流与文件相关内容. 2. 书面作业将St ...
201521123108 《Java程序设计》第九周学习总结
1. 本周学习总结 2. 书面作业 Q1.常用异常题目5-1 1.1 截图你的提交结果(出现学号) 答: 1.2 自己以前编写的代码中经常出现什么异常.需要捕获吗(为什么)?应如何避免? 答:经常出 ...
单例模式（Singleton）看了就懂
单例,故名思议,一个只能创建一个实例的类. 单例被广泛应用于Spring的bean(默认).线程池.数据库连接池.缓存,还有其他一些无状态的类如servlet. 一个没必要多例的类实现了单例可以节约空 ...
WebUtils复用代码【request2Bean、UUID】
request封装到Bean对象 public static <T> T request2Bean(HttpServletRequest httpServletRequest, Class ...
JPA关系映射之one-to-many和many-to-one
one-to-many(一对多)和many-to-one(多对一)双向关联假设部门与员工是一对多关系,反过来员工与部门就是多对一关系. Dept.java类 public class Dept im ...

Hadoop（九）Hadoop IO之Compression和Codecs