[Compression] Hadoop 压缩

0. 说明

　　Hadoop 压缩介绍 && 压缩格式总结 && 压缩编解码器测试

1. 介绍

　　【文件压缩的好处】

　　文件压缩的好处如下：

减少存储文件所需要的磁盘空间
加速数据在网络和磁盘上的传输

2. 压缩编解码器

　　【2.1 压缩格式总结】

压缩比高	压缩速度快
DEFLATE	LZ4
gzip	LZO
bzip2	Snappy

3. 测试压缩编解码器

　　【3.1 使用 LZO 编解码器】

　　使用 LZO 编解码器需要在 pom.xml 中添加依赖

        <!-- LZO 依赖 -->

        <dependency>

            <groupId>org.anarres.lzo</groupId>

            <artifactId>lzo-hadoop</artifactId>

            <version>1.0.0</version>

        </dependency>

　　【3.2 编写测试代码】

package hadoop.compression;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.io.IOUtils;

import org.apache.hadoop.io.compress.*;

import org.apache.hadoop.util.ReflectionUtils;

import java.io.File;

import java.io.FileInputStream;

import java.io.FileOutputStream;

/**

 * 测试压缩 && 解压缩

 */

public class TestCodec {

    public static void main(String[] args) {

        // SnappyCodec.class 需要配置 Hadoop，然后进行相关操作

        Class[] clazzes = {

                DeflateCodec.class,

                GzipCodec.class,

                BZip2Codec.class,

                Lz4Codec.class,

                LzopCodec.class,

                SnappyCodec.class

        };

        for (Class clazz : clazzes) {

            // 调用压缩方法

            testCompress(clazz);

            // 调用解压缩方法

            testDecompress(clazz);

        }

    }

    /**

     * 测试压缩

     */

    public static void testCompress(Class clazz) {

        try {

            // 获得当前时间

            long start = System.currentTimeMillis();

            Configuration conf = new Configuration();

            // 通过反射获取 CompressionCodec 对象

            CompressionCodec codec = (CompressionCodec) ReflectionUtils.newInstance(clazz, conf);

            // 获得文件扩展名

            String ext = codec.getDefaultExtension();

            // 通过 codec 获取输出流，将文件进行压缩

            CompressionOutputStream cos = codec.createOutputStream(new FileOutputStream("E:/test/codec/sdata.txt" + ext));

            // 获取输入流

            FileInputStream fis = new FileInputStream("E:/test/codec/sdata.txt");

            IOUtils.copyBytes(fis, cos, 1024);

            fis.close();

            cos.close();

            // 计算总时长

            System.out.print("压缩编解码器: " + ext + "压缩时间" + (System.currentTimeMillis() - start));

            File f = new File("E:/test/codec/sdata.txt" + ext);

            System.out.println("       文件大小: " + f.length());

        } catch (Exception e) {

            e.printStackTrace();

        }

    }

    /**

     * 测试解压缩

     *

     * @param clazz

     */

    public static void testDecompress(Class clazz) {

        try {

            // 获得当前时间

            long start = System.currentTimeMillis();

            Configuration conf = new Configuration();

            // 通过反射获取 CompressionCodec 对象

            CompressionCodec codec = (CompressionCodec) ReflectionUtils.newInstance(clazz, conf);

            // 获得文件扩展名

            String ext = codec.getDefaultExtension();

            // 通过 codec 获取输入流，将文件进行解压缩

            CompressionInputStream cis = codec.createInputStream(new FileInputStream("E:/test/codec/sdata.txt" + ext));

            // 获取输出流

            FileOutputStream fos = new FileOutputStream("E:/test/codec/sdata2.txt");

            IOUtils.copyBytes(cis, fos, 1024);

            IOUtils.closeStream(fos);

            cis.close();

            // 计算总时长

            System.out.print("解压缩时间" + (System.currentTimeMillis() - start));

        } catch (Exception e) {

            e.printStackTrace();

        }

    }

}

　　【3.3 测试结果】

　　压缩编解码器    压缩时间    文件大小    解压缩时间

　　.deflate

　　.gz

　　.bz2

　　.lz4

　　.lzo                       

　　压缩时长    lz4 < lzo < gz < deflate < bz2

　　压缩比      lz4 < lzo < gz < deflate < bz2
　　解压时长　　 lz4 < lzo < deflate < gz < bz2

　　【3.4 解决 LZO 和 Snappy 的压缩编解码器】

　　1. LZO：通过添加 Maven 依赖导入相关 Jar 包

　　2. Snappy：替换 Hadoop 安装包(在 CentOS 中)

　　3. 将 lzo-hadoop.jar 和 lzo-core.jar 放在 /soft/hadoop/share/hadoop/common/lib 目录中

　　4. 运行打包好的 Jar 包
　　hadoop jar myhadoop-1.0-SNAPSHOT.jar com.hadoop.Compression.TestCodec

　　并未进行 Snappy 操作，所以测试结果不包含 Snappy

[Compression] Hadoop 压缩的更多相关文章

hadoop压缩配置
为何要使用压缩,压缩可以是文件的大小减小很多,节省空间:另外压缩后的文件在传输时更节省带宽. 所需软件: 1)lzo 2)hadoop-lzo 3)maven 安装编译: 1)lzo wget htt ...
hadoop压缩框架
一般来说,计算机处理的数据都存在一些冗余度,同时数据中间,尤其是相邻数据间存在着相关性,所以可以通过一些有别于原始编码的特殊编码方式来保存数据,使数据占用的存储空间比较小,这个过程一般叫压缩.和压缩对 ...
Hadoop压缩之CompressionCodecFactory
1.CompressionCodecFactory简介当在读取一个压缩文件的时候,可能并不知道压缩文件用的是哪种压缩算法,那么无法完成解压任务.在Hadoop中,CompressionCodecFa ...
Hadoop压缩的图文教程
近期由于Hadoop集群机器硬盘资源紧张,有需求让把 Hadoop 集群上的历史数据进行下压缩,开始从网上查找的都是关于各种压缩机制的对比,很少有关于怎么压缩的教程(我没找到..),再此特记录下本次压 ...
Hadoop压缩之MapReduce中使用压缩
1.压缩和输入分片 Hadoop中文件是以块的形式存储在各个DataNode节点中,假如有一个文件A要做为输入数据,给MapReduce处理,系统要做的,首先从NameNode中找到文件A存储在哪些D ...
hadoop压缩和解压
最近有一个hadoop集群上的备份需求.源文件有几百G,如果直接复制太占用磁盘空间.将文件从hadoop集群下载到本地,压缩之后再上传到hadoop则太耗时间.于是想到能否直接在HDFS文件系统上进行 ...
Hadoop压缩
为什幺要压缩? 压缩会提高计算速度?这是因为mapreduce计算会将数据文件分散拷贝到所有datanode上,压缩可以减少数据浪费在带宽上的时间,当这些时间大于压缩/解压缩本身的时间时,计算速度就会 ...
[LeetCode] String Compression 字符串压缩
Given an array of characters, compress it in-place. The length after compression must always be smal ...
解读：hadoop压缩格式
Hadoop中用得比较多的4种压缩格式:lzo,gzip,snappy,bzip2.它们的优缺点和应用场景如下: 1). gzip压缩优点:压缩率比较高,而且压缩/解压速度也比较快:hadoop本身 ...

随机推荐

(转)内核模块操作命令-lsmod+rmmod+modinfo+modprobe
原文:http://watchmen.xin/2018/07/13/IT%E7%A7%91%E5%AD%A6%E6%8A%80%E6%9C%AF%E7%9F%A5%E8%AF%86%E4%BD%93% ...
Linux内核源码分析之调度、内核线程模型 And Centos7.2's Kernel Resource Analysis
本文分为概述.历史.el7.2代码架构图解三部分. 解决的问题: a.Kernel调度发展过程: b.以架构图的方式,详解el7.2具体调度实现.内核线程模型.调度时间片计算,以及探究整个Kernel ...
sql server 备份与恢复系列八系统数据库备份与恢复分析
一.概述在前面讲过"sql server 备份与恢复系列"都是集中在用户数据库上.sql server还维护着一组系统数据库,这些系统数据库对于服务器实例的运行至关重要.在每次进 ...
Java工程师学习指南入门篇
Java工程师学习指南入门篇最近有很多小伙伴来问我,Java小白如何入门,如何安排学习路线,每一步应该怎么走比较好.原本我以为之前的几篇文章已经可以解决大家的问题了,其实不然,因为我之前写的文章都 ...
120分钟React快速扫盲教程
在教程开端先说些题外话,我喜欢在学习一门新技术或读过一本书后,写一篇教程或总结,既能帮助消化,也能加深印象和发现自己未注意的细节,写的过程其实仍然是一个学习的过程.有个记录的话,在未来需要用到相关知识 ...
前端回顾：2016年 JavaScript 之星
JavasScript社区在创新的道路上开足了马力,曾经流行过的也许一个月之后就过时了.2016已经结束了.你可能会想你是否错过一些重要的东西?不用担心,让我们来回顾2016年前端有哪些主流.通过比较 ...
使用Pabot并行运行RF案例
一.问题引入在做接口自动化时随着案例增多,特别是流程类案例增多,特别是asp.net的webform类型的项目,再加上数据库校验也比较耗时,导致RF执行案例时间越来越长,就遇到这样一个问题,705个 ...
MySQL基准测试(二)--方法
MySQL基准测试(二)--方法目的: 方法不是越高级越好.而应该善于做减法.至简是一种智慧,首先要做的是收集MySQL的各状态数据.收集到了,不管各个时间段出现的问题,至少你手上有第一时间的状态数 ...
关于EF实体类的一点思考
在EF中修改一条记录时,一般是先查出该条记录,然后再通过TryUpdateModel或其他方式更新对应的属性.但我很讨厌这种要更新一条记录时,还要先去把记录查询出来的做法.我喜欢像sql语句那样的直接 ...
css中的float属性以及清除方法 (2011-09-03 17:36:26)
CSS里面的浮动属性是布局的常用工具,只有真正了解它并熟练使用才能将它的优点发挥到极致. 许多页面中都有文字绕图效果,并且各区块分布得错落有置,很多朋友在自学CSS布局时为了做出这些效果往往会被div ...

[Compression] Hadoop 压缩

0. 说明

1. 介绍

【文件压缩的好处】

2. 压缩编解码器

【2.1 压缩格式总结】

3. 测试压缩编解码器

【3.1 使用 LZO 编解码器】

【3.2 编写测试代码】

【3.3 测试结果】

【3.4 解决 LZO 和 Snappy 的压缩编解码器】

[Compression] Hadoop 压缩的更多相关文章

随机推荐

热门专题

　　【文件压缩的好处】

　　【2.1 压缩格式总结】

　　【3.1 使用 LZO 编解码器】

　　【3.2 编写测试代码】

　　【3.3 测试结果】

　　【3.4 解决 LZO 和 Snappy 的压缩编解码器】