HDFS 小文件处理——应用程序实现

　　在真实环境中，处理日志的时候，会有很多小的碎文件，但是文件总量又是很大。普通的应用程序用来处理已经很麻烦了，或者说处理不了，这个时候需要对小文件进行一些特殊的处理——合并。

　　在这通过编写java应用程序实现文件的合并并上传到HDFS。整体的处理思路是，从本地加载琐碎的小文件并写到HDFS中。

package study.smallfile.javaapp;

import java.io.File;

import java.io.FileInputStream;

import java.io.IOException;

import java.io.InputStreamReader;

import java.util.List;

import org.apache.commons.io.IOUtils;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FSDataOutputStream;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

public class AppDemo {

    private static final String OUT_PATH = "hdfs://cluster1/smallfile/combined/app";

    private static final String LOCAL_PATH = "/root/logs";

    public void CombinedLocalFile() {

        FSDataOutputStream out = null;

        InputStreamReader reader = null;

        try {

            Configuration conf = new Configuration();

            Path local = new Path(OUT_PATH);

            out = FileSystem.get(conf).create(local);

            File dir = new File(LOCAL_PATH);

            for (File file : dir.listFiles()) {

                reader = new InputStreamReader(new FileInputStream(file),

                        "UTF-8");

                List<String> readLines = IOUtils.readLines(reader);

                for (String line : readLines) {

                    out.write(line.getBytes());

                    out.write("\n".getBytes());

                }

            }

            System.out.println("合并成功");

        } catch (Exception e) {

            e.printStackTrace();

        } finally {

            try {

                if (out != null)

                    out.close();

                if (reader != null)

                    reader.close();

            } catch (IOException e) {

                // TODO Auto-generated catch block

                e.printStackTrace();

            }

        }

    }

}

这个方法有个缺点：

　　1、从代码实现可以看出，是对小文件先完全加载到内存中，然后进行单行处理，写入HDFS。如果某个小文件过大，会占用大量的内存，影响本机的其他应用正常运行。

　　2、这种方法传到HDFS的时候，文件是未压缩的

HDFS 小文件处理——应用程序实现的更多相关文章

HDFS小文件处理——Mapper处理
处理小文件的时候,可以通过org.apache.hadoop.io.SequenceFile.Writer类将所有文件写出到一个seq文件中. 大致流程如下: 实现代码: package study. ...
合并hive/hdfs小文件
磁盘: heads/sectors/cylinders,分别就是磁头/扇区/柱面,每个扇区512byte(现在新的硬盘每个扇区有4K) 文件系统: 文件系统不是一个扇区一个扇区的来读数据,太慢了,所以 ...
hadoop 小文件挂载小文件对NameNode的内存消耗 HDFS小文件解决方案客户端自身机制 HDFS把块默认复制3次至3个不同节点。
hadoop不支持传统文件系统的挂载,使得流式数据装进hadoop变得复杂. hadoo中,文件只是目录项存在:在文件关闭前,其长度一直显示为0:如果在一段时间内将数据写到文件却没有将其关闭,则若网络 ...
解决HDFS小文件带来的计算问题
hive优化一.小文件简述 1.1. HDFS上什么是小文件? HDFS存储文件时的最小单元叫做Block,Hadoop1.x时期Block大小为64MB,Hadoop2.x时期Block大小为12 ...
Hadoop小文件存储方案
原文地址:https://www.cnblogs.com/ballwql/p/8944025.html HDFS总体架构在介绍文件存储方案之前,我觉得有必要先介绍下关于HDFS存储架构方面的一些知识 ...
MR案例：小文件处理方案
HDFS被设计来存储大文件,而有时候会有大量的小文件生成,造成NameNode资源的浪费,同时也影响MapReduce的处理效率.有哪些方案可以合并这些小文件,或者提高处理小文件的效率呢? 1). 所 ...
Spark SQL 小文件问题处理
在生产中,无论是通过SQL语句或者Scala/Java等代码的方式使用Spark SQL处理数据,在Spark SQL写数据时,往往会遇到生成的小文件过多的问题,而管理这些大量的小文件,是一件非常头疼 ...
Hadoop HDFS编程 API入门系列之合并小文件到HDFS（三）
不多说,直接上代码. 代码 package zhouls.bigdata.myWholeHadoop.HDFS.hdfs7; import java.io.IOException;import ja ...
客户端程序通过TCP通信传送"小文件"到服务器
客户端程序通过TCP通信传送"小文件"到服务器 [c#源码分享]客户端程序通过TCP通信传送"小文件"到服务器源码 (不包含通信框架源码,通信框架源码请另行 ...

随机推荐

命令行插入含有中文的sql文件，报错ERROR 1366 (HY000): Incorrect stringvalue:
--以下是插入语句: insert into sms_inbox values('123456','123456', 'cd', sysdate(), '今天天气很好', 1, sysdate(), ...
什么是Hadoop，怎样学习Hadoop
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上:而且它 ...
20145120 《Java程序设计》实验一实验报告
20145120 <Java程序设计>实验一实验报告实验名称:Java开发环境的熟悉实验目的与要求: 1.使用JDK编译.运行简单的Java程序:(第1周学习总结) 2.编辑.编译.运 ...
android 开发自建wifi热点的默认ip
android 开发自建wifi热点的默认ip是:192.168.43.1 (小米3测试)
动态更新Toolbar Menu以及Menu中同时显示文字和图标
动态更新Toolbar Menu以及Menu中同时显示文字和图标我们经常会有这样的需求,在切换Fragment或者点击某个按钮后动态更新Toolbar上Menu项.但是onCreateOptions ...
2208: [Jsoi2010]连通数 - BZOJ
Description Input 输入数据第一行是图顶点的数量,一个正整数N. 接下来N行,每行N个字符.第i行第j列的1表示顶点i到j有边,0则表示无边. Output 输出一行一个整数,表示该图 ...
2140: 稳定婚姻 - BZOJ
Description 我国的离婚率连续7年上升,今年的头两季,平均每天有近5000对夫妇离婚,大城市的离婚率上升最快,有研究婚姻问题的专家认为,是与简化离婚手续有关. 25岁的姗姗和男友谈恋爱半年就 ...
3223: Tyvj 1729 文艺平衡树 - BZOJ
Description 您需要写一种数据结构(可参考题目标题),来维护一个有序数列,其中需要提供以下操作:翻转一个区间,例如原有序序列是5 4 3 2 1,翻转区间是[2,4]的话,结果是5 2 3 ...
C#中Json和List/DataSet相互转换
#region List<T> 转 Json /// <summary> /// List<T> 转 Json /// & ...
【转载】C++ inline 函数
(一)inline函数(摘自C++ Primer的第三版) 在函数声明或定义中函数返回类型前加上关键字inline即把min()指定为内联. inline int min(int first, int ...

HDFS 小文件处理——应用程序实现

HDFS 小文件处理——应用程序实现的更多相关文章

随机推荐

热门专题