使用Hadoop API 压缩HDFS文件

下篇解压缩：使用Hadoop API 解压缩 HDFS文件

　　起因：集群磁盘剩余空间不足。

　　删除了存储在HDFS上的，一定时间之前的中间结果，发现并不能释放太多空间，查看计算业务，发现，每天的日志存在数量竟然是10份。/惊恐

　　/a/log=20180101 #每日原始日志

　　/b/log=20180101 #每日原始日志，做了清洗

　　/c/log=20180101 #清洗后的日志移到这里使用

　　/opt/backup/log=20180101 每日原始日志压缩　　

　　四个地方存储了原始日志（每天30G左右），由于所有目录都是3个副本，导致HDFS上几乎相同的文件存了9份（270G），一份本地压缩（5G）

　　由于都是文本文件，压缩率比较高，就想把其中不常用的目录下的文件拉下了，压缩，放回去。

　　------------------正文---------------------

　　第一版操作如下：　　　　

、获取文件

     hadoop fs -get /aa/test/xxxx.log

、压缩

     tar -zcvf xxxx.log.tar.gz xxxx.log

、上传

     hadoop fs -put xxxx.log.tar.gz /aa/test/

、删除本地临时文件

     rm *

、删除hdfs上文件

     hadoop fs -rm /aa/test/xxxx.log

　　可以执行，但是很慢。

　　反思一下：　　

一个文件30G需要如下这么多时间：

    从hdfs拉到本地：  m

    压缩 : + m

    上传到hdfs:  m

　　时间太长，花很长的时间把文件来下来压缩了，下次突然要用，可能来不及解压缩。。。

---------第一版失败------------------------

　　在网上看到这篇博客：HDFS中的压缩与解压缩机制

　　使用Hadoop的API 压缩本地文件，不知道压缩完放到HDFS上，MapReduce能不能读。。

　　不过，不影响借鉴一下，编写压缩HDFS上文件的代码。

　　主要代码如下：　　

private static void getFile(String filePath) throws IOException, ClassNotFoundException {

        FileSystem fs = FileSystem.get(URI.create(filePath), HDFSConf.getConf());

        Path path = new Path(filePath);

        if (fs.exists(path)) {

            FSDataInputStream in;

            FSDataOutputStream out;

//            Class codecClass = Class.forName("BZip2Codec");

            // 通过名称找到对应的编码/解码器

            CompressionCodec codec = (CompressionCodec)

                    ReflectionUtils.newInstance(org.apache.hadoop.io.compress.GzipCodec.class, HDFSConf.getConf());

            FileStatus file = fs.getFileStatus(path);

            in = fs.open(file.getPath());

            // 该压缩方法对应的文件扩展名

            Path outPath = new Path(file.getPath().toString() + codec.getDefaultExtension());

            logger.info("out put path is : " + outPath.toString());

            if (fs.createNewFile(outPath)) {

                logger.info("create file  : " + outPath.toString());

                out = fs.append(outPath);

                CompressionOutputStream cout = codec.createOutputStream(out);

                // 缓冲区设为5MB

                IOUtils.copyBytes(in, cout, 1024 * 1024 * 5, true);

                // 刷新缓存，不刷会导致文件结尾部分漏点数据

                cout.flush();

                out.flush();

                in.close();

                cout.close();

                out.close();

                logger.info("compress file successful");

            } else {

                logger.error("create file erroe");

            }

        } else {

            logger.info("There is no file :" + filePath);

        }

    }

打包放到服务器上执行：　　

[hadoop@venn05 venn]$ ls
compressHdfsFile-1.0-SNAPSHOT.jar hdfs.properties log4j2.xml test

[hadoop@venn05 venn]$ java -cp compressHdfsFile-1.0-SNAPSHOT.jar com.utstarcom.hdfs.CompressFile /aaa/test/viewlog_20180402.log
2018-06-10 04:23:16.631 [Common.java] [main]
INFO : start init :
2018-06-10 04:23:16.636 [Common.java] [main]
INFO : properties path : /opt/hadoop/tmp/venn/
/opt/hadoop/tmp/venn/hdfs.properties
default.compress.format
hdfs.uri
2018-06-10 04:23:16.639 [Common.java] [main]
INFO : get System enviroment : 46
2018-06-10 04:23:16.639 [Common.java] [main]
INFO : properties path : {hdfs.uri=hdfs://venn06:8020, default.compress.format=bz2}
hdfs://venn06:8020/aaa/test/viewlog_20180402.log
log4j:WARN No appenders could be found for logger (org.apache.hadoop.util.Shell).
log4j:WARN Please initialize the log4j system properly.
log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.
2018-06-10 04:23:18.272 [CompressFile.java] [main]
INFO : out put path is : hdfs://venn06:8020/aaa/test/viewlog_20180402.log.gz
2018-06-10 04:23:18.356 [CompressFile.java] [main]
INFO : create file : hdfs://venn06:8020/aaa/test/viewlog_20180402.log.gz
2018-06-10 04:24:44.052 [CompressFile.java] [main]
INFO : compress file successful
cost :
87 s

文件大小：1.4G，压缩后打小：249.4M，6倍的压缩率，耗时 87s，很不错。

文件大小：

[hadoop@ut01 venn]$ hadoop fs -ls /aaa/test/
18/06/10 04:26:29 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found 3 items
-rw-r--r-- 3 hadoop supergroup 1515343101 2018-06-03 17:07 /aaa/test/viewlog_20180402.log
-rw-r--r-- 3 hadoop supergroup 261506977 2018-06-09 15:46 /aaa/test/viewlog_20180402.log.gz
-rw-r--r-- 3 hadoop supergroup 1515343101 2018-06-09 15:43 /aaa/test/viewlog_20180402.new
[hadoop@ut01 venn]$ hadoop fs -ls -h /aaa/test/
18/06/10 04:26:38 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found 3 items
-rw-r--r-- 3 hadoop supergroup 1.4 G 2018-06-03 17:07 /aaa/test/viewlog_20180402.log
-rw-r--r-- 3 hadoop supergroup 249.4 M 2018-06-09 15:46 /aaa/test/viewlog_20180402.log.gz
-rw-r--r-- 3 hadoop supergroup 1.4 G 2018-06-09 15:43 /aaa/test/viewlog_20180402.new

项目目录：码云

下篇解压缩：使用Hadoop API 解压缩 HDFS文件

使用Hadoop API 压缩HDFS文件的更多相关文章

使用Hadoop API 解压缩 HDFS文件
接上篇:使用Hadoop API 压缩HDFS文件压缩完了,当然需要解压缩了. 直接上代码: private static void getFile(String filePath) throws ...
JAVA API 实现hdfs文件操作
java api 实现hdfs 文件操作会出现错误提示: Permission denied: user=hp, access=WRITE, inode="/":hdfs:supe ...
Hadoop API：遍历文件分区目录，并根据目录下的数据进行并行提交spark任务
hadoop api提供了一些遍历文件的api,通过该api可以实现遍历文件目录: import java.io.FileNotFoundException; import java.io.IOExc ...
java Api 读取HDFS文件内容
package dao; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import java ...
Hadoop如何修改HDFS文件存储块大小
一. 临时修改可以在执行上传文件命令时,显示地指定存储的块大小.1. 查看当前 HDFS文件块大小我这里查看HDFS上的TEST目录下的jdk-7u25-linux-x64.gz 文件存储块大小.1 ...
如何读取Hadoop中压缩的文件
最近在处理离线数据导入HBase的问题,涉及从Hdfs中读取gz压缩文件,把思路记录下来,以作备用.具体代码如下: package org.dba.util; import java.io.Buffe ...
使用java api操作HDFS文件
实现的代码如下: import java.io.IOException; import java.net.URI; import java.net.URISyntaxException; import ...
hadoop学习记录--hdfs文件上传过程源码解析
本节并不大算为大家讲接什么是hadoop,或者hadoop的基础知识因为这些知识在网上有很多详细的介绍,在这里想说的是关于hdfs的相关内容.或许大家都知道hdfs是hadoop底层存储模块,专门用于 ...
Structure Streaming和spark streaming原生API访问HDFS文件数据对比
此文已由作者岳猛授权网易云社区发布. 欢迎访问网易云社区,了解更多网易技术产品运营经验. Structure Stream访问方式 code examples import org.apache.sp ...

随机推荐

java 测试开发基础知识（类加载，JVM等）
写在开头: 面试的时候别人很可能会问你的java原理,.class load 原理, jvm机制,这些都是Java的底层知识,特整理如下: 1. 首先,编写一个java程序,大家会用ide编写一个例如 ...
Date 时间日期常用方法函数
转载自https://www.cnblogs.com/lcngu/p/5154834.html 一.java.util.Date对象用来表示时间,基本方法如下: Date mDate = new Da ...
JQuery|jstl判断是否为空
//有如下三种判断 var A=$("#**).val(); if(A==null||A==undefined||A==""){ //处理 } //参考文章1说下面方法效 ...
css背景图充满屏幕
代码: body { /* 加载背景图 */ background: url(resource/inv_bg.png); /* 背景图不平铺 */background-repeat: no-repea ...
java传统web项目添加maven管理jar包,log4j无法正常输出日志
本文适合1年以上编程基础的开发人员阅读,非技术创新,可作为故障排除实录参考/收藏. 背景笔者最近在给公司一个老的web项目改造升级,项目使用springmvc+mybatis,由于项目比较久远,没有 ...
shell 脚本编写基础
在进行Linux测试时编写脚本是必不可少的,Shell脚本的名称可以随便定义,也不要什么后缀名,例如可以写abc,smartzip这类名称,运行时只要键入 ./smartzip就能运行脚本了.. 每行 ...
c#task list waitall task waitany
上边的主线程会被卡住: 7个同时开发,谁先完成之后, 需要完成某个工作,可以用waitany 2: 不卡界面的做法加上以上命令就不卡,是子线程做的事 //Task task = taskFactor ...
(转)OOP(面向对象编程)的几大原则
文章转载自:http://blog.csdn.net/anders_zhuo/article/details/8949566 设计模式遵循的一般原则: 1.开-闭原则(Open-Closed Prin ...
PAT 1087 有多少不同的值（20）(STL-set代码)
1087 有多少不同的值(20 分) 当自然数 n 依次取 1.2.3.--.N 时,算式 ⌊n/2⌋+⌊n/3⌋+⌊n/5⌋ 有多少个不同的值?(注:⌊x⌋ 为取整函数,表示不超过 x 的最大自然数 ...
TCP窗口扩大选项
TCP窗口扩大选项(TCP Window Scale Option) TCP窗口扩大选项 TCP Window Scale Option (WSopt) 窗口扩大选项用于扩大TCP通告窗口,使TCP的 ...

使用Hadoop API 压缩HDFS文件

使用Hadoop API 压缩HDFS文件的更多相关文章

随机推荐

热门专题