hadoop小文件合并

1、背景

　　在实际项目中，输入数据往往是由许多小文件组成，这里的小文件是指小于HDFS系统Block大小的文件（默认128M），然而每一个存储在HDFS中的文件、目录和块都映射为一个对象，存储在NameNode服务器内存中，通常占用150个字节。如果有1千万个文件，就需要消耗大约3G的内存空间。如果是10亿个文件呢，简直不可想象。所以在项目开始前，我们选择一种适合的方案来解决本项目的小文件问题

2、介绍

　　本地 D:\data目录下有 2012-09-17 至 2012-09-23 一共7天的数据集，我们需要将这7天的数据集按日期合并为7个大文件上传至 HDFS

3、数据

　　本地 D:\data目录下的所有数据，如下图所示

4、分析

　　基于项目的需求，我们通过下面几个步骤完成

　　1、获取 D:\data目录下的所有日期路径，循环所有日期路径，通过globStatus()方法获取所有txt格式文件路径。

　　2、最后通过IOUtils.copyBytes(in, out, 4096, false)方法将数据集合并为大文件，并上传至 HDFS

5、实现

　　自定义RegexAcceptPathFilter类实现 PathFilter，比如只接受D:\data\2012-09-17日期目录下txt格式的文件

 /**

 * @ProjectName FileMerge

 * @PackageName com.buaa

 * @ClassName RegexAcceptPathFilter

 * @Description 接受 regex 格式的文件

 * @Author 刘吉超

 * @Date 2016-04-18 21:58:07

 */

 public static class RegexAcceptPathFilter implements PathFilter {

     private final String regex;

     public RegexAcceptPathFilter(String regex) {

         this.regex = regex;

     }

     @Override

     public boolean accept(Path path) {

         boolean flag = path.toString().matches(regex);

         return flag;

     }

 }

　　实现主程序 merge 方法，完成数据集的合并，并上传至 HDFS

 /**

  * 合并

  *

  * @param srcPath 源目录

  * @param destPath 目标目录

  */

 public static void merge(String srcPath,String destPath) {

     try{

         // 读取hadoop文件系统的配置

         Configuration conf = new Configuration();

         // 获取远端文件系统

         URI uri = new URI(HDFSUri);

         FileSystem remote = FileSystem.get(uri, conf);

         // 获得本地文件系统

         FileSystem local = FileSystem.getLocal(conf);

         // 获取data目录下的所有文件路径

         Path[] dirs = FileUtil.stat2Paths(local.globStatus(new Path(srcPath)));

         FSDataOutputStream out = null;

         FSDataInputStream in = null;

         for (Path dir : dirs) {

             // 文件名称

             String fileName = dir.getName().replace("-", "");

             // 只接受目录下的.txt文件

             FileStatus[] localStatus = local.globStatus(new Path(dir + "/*"), new RegexAcceptPathFilter("^.*.txt$"));

             // 获得目录下的所有文件

             Path[] listedPaths = FileUtil.stat2Paths(localStatus);

             // 输出路径

             Path block = new Path(destPath + "/" + fileName + ".txt");

             // 打开输出流

             out = remote.create(block);

             for (Path p : listedPaths) {

                 // 打开输入流

                 in = local.open(p);

                 // 复制数据

                 IOUtils.copyBytes(in, out, 4096, false);

                 // 关闭输入流

                 in.close();

             }

             if (out != null) {

                 // 关闭输出流

                 out.close();

             }

         }

     }catch(Exception e){

         logger.error("", e);

     }

 }

6、一些运行代码

 /**

  * main方法

  *

  * @param args

  */

 public static void main(String[] args) {

     merge("D:\\data\\*","/buaa/tv");

 }

7、结果

如果，您认为阅读这篇博客让您有些收获，不妨点击一下右下角的【推荐】。
如果，您希望更容易地发现我的新博客，不妨点击一下左下角的【关注我】。
如果，您对我的博客所讲述的内容有兴趣，请继续关注我的后续博客，我是【刘超★ljc】。

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。

地址：下载

hadoop小文件合并的更多相关文章

Hadoop MapReduce编程 API入门系列之小文件合并（二十九）
不多说,直接上代码. Hadoop 自身提供了几种机制来解决相关的问题,包括HAR,SequeueFile和CombineFileInputFormat. Hadoop 自身提供的几种小文件合并机制 ...
Hadoop经典案例（排序&Join&topk&小文件合并）
①自定义按某列排序,二次排序 writablecomparable中的compareto方法 ②topk a利用treemap,缺点:map中的key不允许重复:https://blog.csdn.n ...
hive小文件合并设置参数
Hive的后端存储是HDFS,它对大文件的处理是非常高效的,如果合理配置文件系统的块大小,NameNode可以支持很大的数据量.但是在数据仓库中,越是上层的表其汇总程度就越高,数据量也就越小.而且这些 ...
HDFS操作及小文件合并
小文件合并是针对文件上传到HDFS之前这些文件夹里面都是小文件参考代码 package com.gong.hadoop2; import java.io.IOException; import j ...
MR案例：小文件合并SequeceFile
SequeceFile是Hadoop API提供的一种二进制文件支持.这种二进制文件直接将<key, value>对序列化到文件中.可以使用这种文件对小文件合并,即将文件名作为key,文件 ...
Hive merge（小文件合并）
当Hive的输入由非常多个小文件组成时.假设不涉及文件合并的话.那么每一个小文件都会启动一个map task. 假设文件过小.以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费.甚至 ...
hive优化之小文件合并
文件数目过多,会给HDFS带来压力,并且会影响处理效率,可以通过合并Map和Reduce的结果文件来消除这样的影响: set hive.merge.mapfiles = true ##在 map on ...
<Hadoop><SequenceFile><Hadoop小文件>
Origin 我们首先理解一下SequenceFile试图解决什么问题,然后看SeqFile怎么解决这些问题. In HDFS 序列文件是解决Hadoop小文件问题的一个方法: 小文件是显著小于HDF ...
第3节 mapreduce高级：5、6、通过inputformat实现小文件合并成为sequenceFile格式
1.1 需求无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案 1.2 分析小文件的优化无非以下几种方式: 1. 在数据 ...

随机推荐

Administration Commands
Commands useful for administrators of a hadoop cluster. balancer Runs a cluster balancing utility. A ...
sql数据库优化技巧汇总
(转)SQL 优化原则一.问题的提出在应用系统开发初期,由于开发数据库数据比较少,对于查询SQL语句,复杂视图的的编写等体会不出SQL语句各种写法的性能优劣,但是如果将应用系统提交实际应用后,随着 ...
jquery 滑动动画
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <head> ...
BZOJ 2242 计算器
Description 你被要求设计一个计算器完成以下三项任务: \(1.\)给定\(y,z,p\),计算\(y^{z}\;mod\;P\)的值: \(2.\)给定\(y,z,p\),计算满足\(xy ...
Palindrome
poj3974:http://poj.org/problem?id=3974 题意:求给定长度最长回文串的长度. 题解:直接套manacher,搞定. #include<iostream> ...
JavaService wrapper
http://my.oschina.net/yjwxh/blog/260835 http://blog.chinaunix.net/uid-664509-id-3398193.html http:// ...
Delphi消息的广播方式（先RegisterWindowMessage，后SendMessage HWND_BROADCAST，最后改写接收窗口的WndProc）
///////消息广播只能将消息传递到接收消息的主程序中,MDIChild窗体不能接收到广播消息:///////// unit Unit1; interface uses Windows, Messa ...
POJ1218
Problem C Time Limit : 2000/1000ms (Java/Other) Memory Limit : 20000/10000K (Java/Other) Total Su ...
cocos2d的ARC开启
ARC,官方解释是Automatic Reference Counting,是Apple公司从iOS5开始为开发者新添加的一个功能. 相信很多写移动开发,可能不只是移动开发的人都深有体会,创建一个对象 ...
[LeetCode] Palindrome Partitioning II 解题笔记
Given a string s, partition s such that every substring of the partition is a palindrome. Return the ...

hadoop小文件合并

hadoop小文件合并的更多相关文章

随机推荐

热门专题