HDFS操作及小文件合并

小文件合并是针对文件上传到HDFS之前

这些文件夹里面都是小文件

参考代码

package com.gong.hadoop2;

import java.io.IOException;

import java.net.URI;

import java.net.URISyntaxException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FSDataInputStream;

import org.apache.hadoop.fs.FSDataOutputStream;

import org.apache.hadoop.fs.FileStatus;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.FileUtil;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.fs.PathFilter;

import org.apache.hadoop.io.IOUtils;

/**

 * function 合并小文件至 HDFS

 * @author 小讲

 *

 */

public class MergeSmallFilesToHDFS {

    private static FileSystem fs = null;

    private static FileSystem local = null;

    /**

     * @function main

     * @param args

     * @throws IOException

     * @throws URISyntaxException

     */

    public static void main(String[] args) throws IOException,

            URISyntaxException {

        list();

    }

    /**

     *

     * @throws IOException

     * @throws URISyntaxException

     */

    public static void list() throws IOException, URISyntaxException {

        // 读取hadoop文件系统的配置

        Configuration conf = new Configuration();

        //文件系统访问接口

        URI uri = new URI("hdfs://dajiangtai:9000");

        //创建FileSystem对象

        fs = FileSystem.get(uri, conf);

        // 获得本地文件系统

        local = FileSystem.getLocal(conf);

        //过滤目录下的 svn 文件，globStatus从第一个参数通配符合到文件，剔除满足第二个参数到结果，因为PathFilter中accept是return!

        FileStatus[] dirstatus = local.globStatus(new Path("D://data/73/*"),new RegexExcludePathFilter("^.*svn$"));

        //获取73目录下的所有文件路径，注意FIleUtil中stat2Paths()的使用，它将一个FileStatus对象数组转换为Path对象数组。

        Path[] dirs = FileUtil.stat2Paths(dirstatus);

        FSDataOutputStream out = null;

        FSDataInputStream in = null;

        for (Path dir : dirs) {

            String fileName = dir.getName().replace("-", "");//文件名称

            //只接受日期目录下的.txt文件，^匹配输入字符串的开始位置,$匹配输入字符串的结束位置,*匹配0个或多个字符。

            FileStatus[] localStatus = local.globStatus(new Path(dir+"/*"),new RegexAcceptPathFilter("^.*txt$"));

            // 获得日期目录下的所有文件

            Path[] listedPaths = FileUtil.stat2Paths(localStatus);

            //输出路径

            Path block = new Path("hdfs://dajiangtai:9000/middle/tv/"+ fileName + ".txt");

            // 打开输出流

            out = fs.create(block);

            for (Path p : listedPaths) {

                in = local.open(p);// 打开输入流

                IOUtils.copyBytes(in, out, , false); // 复制数据，IOUtils.copyBytes可以方便地将数据写入到文件，不需要自己去控制缓冲区，也不用自己去循环读取输入源。false表示不自动关闭数据流，那么就手动关闭。

                // 关闭输入流

                in.close();

            }

            if (out != null) {

                // 关闭输出流

                out.close();

            }

        }

    }

    /**

     *

     * @function 过滤 regex 格式的文件

     *

     */

    public static class RegexExcludePathFilter implements PathFilter {

        private final String regex;

        public RegexExcludePathFilter(String regex) {

            this.regex = regex;

        }

        @Override

        public boolean accept(Path path) {

            // TODO Auto-generated method stub

            boolean flag = path.toString().matches(regex);

            return !flag;

        }

    }

    /**

     *

     * @function 接受 regex 格式的文件

     *

     */

    public static class RegexAcceptPathFilter implements PathFilter {

        private final String regex;

        public RegexAcceptPathFilter(String regex) {

            this.regex = regex;

        }

        @Override

        public boolean accept(Path path) {

            // TODO Auto-generated method stub

            boolean flag = path.toString().matches(regex);

            return flag;

        }

    }

}

最后一点，分清楚hadoop fs 和dfs的区别

hadoop fs <args>

FS涉及可以指向任何文件系统（如本地，HDFS等）的通用文件系统。因此，当您处理不同的文件系统（如本地FS，HFTP FS，S3 FS等）时，可以使用它

hadoop dfs <args>

dfs非常具体到HDFS。将工作与HDFS有关。这已被弃用，我们应该使用hdfs dfs。


 hdfs   dfs <args>
与第二个相同，即适用于与HDFS相关的所有操作，并且是推荐的命令，而不是hadoop dfs

HDFS操作及小文件合并的更多相关文章

Hdfs增量导入小文件合并的思路
1.使用mr进行合并 2.使用getmerge 将文件拉取到本地,再上传到hdfs,注意nl参数 3.使用appendToFile 4.使用hadoop提供的打包压缩技术 Usage: hadoop ...
Hadoop MapReduce编程 API入门系列之小文件合并（二十九）
不多说,直接上代码. Hadoop 自身提供了几种机制来解决相关的问题,包括HAR,SequeueFile和CombineFileInputFormat. Hadoop 自身提供的几种小文件合并机制 ...
hive小文件合并设置参数
Hive的后端存储是HDFS,它对大文件的处理是非常高效的,如果合理配置文件系统的块大小,NameNode可以支持很大的数据量.但是在数据仓库中,越是上层的表其汇总程度就越高,数据量也就越小.而且这些 ...
Hadoop经典案例（排序&Join&topk&小文件合并）
①自定义按某列排序,二次排序 writablecomparable中的compareto方法 ②topk a利用treemap,缺点:map中的key不允许重复:https://blog.csdn.n ...
MR案例：小文件合并SequeceFile
SequeceFile是Hadoop API提供的一种二进制文件支持.这种二进制文件直接将<key, value>对序列化到文件中.可以使用这种文件对小文件合并,即将文件名作为key,文件 ...
Hive merge（小文件合并）
当Hive的输入由非常多个小文件组成时.假设不涉及文件合并的话.那么每一个小文件都会启动一个map task. 假设文件过小.以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费.甚至 ...
第3节 mapreduce高级：5、6、通过inputformat实现小文件合并成为sequenceFile格式
1.1 需求无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案 1.2 分析小文件的优化无非以下几种方式: 1. 在数据 ...
hive优化之小文件合并
文件数目过多,会给HDFS带来压力,并且会影响处理效率,可以通过合并Map和Reduce的结果文件来消除这样的影响: set hive.merge.mapfiles = true ##在 map on ...
hadoop 将HDFS上多个小文件合并到SequenceFile里
背景:hdfs上的文件最好和hdfs的块大小的N倍.如果文件太小,浪费namnode的元数据存储空间以及内存,如果文件分块不合理也会影响mapreduce中map的效率. 本例中将小文件的文件名作为k ...

随机推荐

随机重拍与抽样(random_shuffle,random_sample,random_sample_n)
//版本一:使用内部的随机数生成器 template<class RandomAccessIterator> void random_shuffle( RandomAccessIterat ...
HI3518EV200 mpp分析
. Sample Program File Structure sample # MPP sample program |-- common # Common function used by the ...
docker nginx 运行后无法访问
## 1 最近在学docker部署,一开始打算将nginx先docker化的. 对照官方的docker镜像介绍说明,进行自定义配置将官方的nginx.conf复制出来后,修改添加了一些自定义,主要是 ...
egg-init 知识点
Create a simple type application $ egg-init --type simple [dest]
workerman的使用实践--并与solaris通信
Workerman与solarisTCP通信测试 1. 笔记本win7,tcp_test.php 2. solaris,test.c 编译命令: gcc test.c –o test –lsoc ...
xml.sax 笔记
from xml.sax import saxutils html_str = """<!DOCTYPE html> <html> <hea ...
Hbase 简介+环境安装配置教程
HBase介绍 HBase是参考google的bigtable的一个开源产品,建立在hdfs之上的一个提供高可靠性.高性能.列存储.可伸缩.实时读写的数据库系统.是一种介于nosql和RDBMs之间的 ...
Zookeeper 三台主机 Ha集群的搭建
前期准备1.修改Linux主机名 2.修改IP 3.修改主机名和IP的映射关系 /etc/hosts ######注意######如果你们公司是租用的服务器或是使用的云主机(如华为用主机.阿里云主机等 ...
Linux/Centos下安装部署phantomjs 及使用
PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API.它全面支持web而不需浏览器支持,其快速,原生支持各种Web标准: DOM 处理, CSS 选择器, JSON, ...
kali 安装flash
下载 flash_player_npapi_linux.x86_64.tar.gz 解压: tar -zxvf flash_player_npapi_linux.x86_64.tar.gz 将解压后的 ...

HDFS操作及小文件合并

HDFS操作及小文件合并的更多相关文章

随机推荐

热门专题