第3节 mapreduce高级：5、6、通过inputformat实现小文件合并成为sequenceFile格式

mediocrePeople 2024-09-30 15:34:56 原文

1.1 需求

无论hdfs还是mapreduce，对于小文件都有损效率，实践中，又难免面临处理大量小文件的场景，此时，就需要有相应解决方案

1.2 分析

小文件的优化无非以下几种方式：

1、在数据采集的时候，就将小文件或小批数据合成大文件再上传HDFS；

2、在业务处理之前，在HDFS上使用mapreduce程序对小文件进行合并。

　　自定义inputformat，将hdfs上面已经存在的多个小文件合并成一个sequenceFile，
　　sequenceFile也是一种文件格式：里面装的内容就是一个个的小文件的内容的字节数组；

3、在mapreduce处理时，可采用combineInputFormat提高效率。

1.3 实现

本节实现的是上述第二种方式

程序的核心机制：

自定义一个InputFormat

改写RecordReader，实现一次读取一个完整文件封装为KV

在输出时使用SequenceFileOutPutFormat输出合并文件

自定义inputformat实现文件一次性全部读取到BytesWritable里面去

第一步：获取到文件的切片
第二步：通过fileSystem，打开文件的输入流
第三步：通过工具类将我们的输入流拷贝到字节数组当中去
第四步：将我们字节数组的内容全部封装到BytesWritable里面去

详见代码

第3节 mapreduce高级：5、6、通过inputformat实现小文件合并成为sequenceFile格式的更多相关文章

Hadoop MapReduce编程 API入门系列之小文件合并（二十九）
不多说,直接上代码. Hadoop 自身提供了几种机制来解决相关的问题,包括HAR,SequeueFile和CombineFileInputFormat. Hadoop 自身提供的几种小文件合并机制 ...
第3节 mapreduce高级：2、3、课程大纲&共同好友求取步骤一、二
第五天课程大纲:1.社交粉丝的数据分析:求共同好友2.倒排索引的建立3.自定义inputFormat合并小文件 4.自定义outputformat5.分组求topN6.MapReduce的其他补充了 ...
第3节 mapreduce高级：12、mapreduce相关的参数调整
5.1 多job串联一个稍复杂点的处理逻辑往往需要多个mapreduce程序串联处理,多job的串联可以借助mapreduce框架的JobControl实现示例代码: ControlledJob ...
第3节 mapreduce高级：8、9、自定义分区实现分组求取top1
自定义GroupingComparator求取topN GroupingComparator是mapreduce当中reduce端的一个功能组件,主要的作用是决定哪些数据作为一组,调用一次reduce ...
第3节 mapreduce高级：7、自定义outputformat实现输出到不同的文件夹下面
2.1 需求现在有一些订单的评论数据,需求,将订单的好评与差评进行区分开来,将最终的数据分开到不同的文件夹下面去,数据内容参见资料文件夹,其中数据第九个字段表示好评,中评,差评.0:好评,1:中评, ...
第3节 mapreduce高级：10、11、分组求取topN
只要修改OrderReducer.java的reduce方法,修改为: int i = 0;for(NullWritable nullWritable:values){ if(i>=2) bre ...
第3节 mapreduce高级：4、倒排索引的建立
倒排索引建立需求分析需求:有大量的文本(文档.网页),需要建立搜索索引最终实现的结果就是哪个单词在哪个文章当中出现了多少次思路分析: 首选将文档的内容全部读取出来,加上文档的名字作为key,文 ...
第2节 mapreduce深入学习：11、maptask运行机制（多看几遍）
mapTask运行机制详解以及mapTask的并行度在mapTask当中,一个文件的切片大小使用默认值是128M,就是跟我们一个block块对应大小一样 MapTask运行的整个过程背下来1.Tex ...
MapReduce小文件处理之CombineFileInputFormat实现
在MapReduce使用过程中.一般会遇到输入文件特别小(几百KB.几十MB).而Hadoop默认会为每一个文件向yarn申请一个container启动map,container的启动关闭是很耗时的. ...

随机推荐

go语言godep使用命令
godep 看见他的star比govendor,所以我使用它.官方地址 https://github.com/tools/godep install 1 go get github.com/too ...
小程序-demo：天气预报
ylbtech-小程序-demo:天气预报 1.返回顶部 1.app.js //app.js App({ //系统事件 onLaunch: function () {//小程序初始化事件 var th ...
js下传递的时间用strtotime()函数解析差8小时
php 日期转时间戳: $time = $_POST["time"];$time = strtotime($time)-8*3600; php 时间戳转日期: date_defa ...
css设置页面全屏背景
.background { background: url(xxx.png); background-size: 100% 100%; height: 100%; position: fixed; w ...
VI/VIM修改Tab为4个空格
配置方法在当前用户目录下创建或修改~/.vimrc Root用户下修改/etc/virc 和 /etc/vimrc set ts= set softtabstop= set expandtab se ...
C#后台调用Http外网接口（GET, POST）
1.get方法调用接口获取json文件内容 public void GetFunction() { string serviceAddress = ...
购买阿里云ECS+安装宝塔面板+Mac下怎么连接阿里云ECS服务器
1.购买阿里云ECS 2.重置实例密码这个有点对用户不友好,实际意思就是设置服务器的root登录密码 3.配置安全组放行端口因为服务器需要从宝塔网站download安装包,包括一些常用的服务比如S ...
由 var str = 'hello world' str.attr ='666'; 到包装类型
近期有些小伙伴在公司的一道面试题踩了坑, 今天特地跟大家一起分享下: 原题如下: var str = 'hello world'; str.attr = '666'; console.log(str ...
WPF-按钮美化
我们不多哔哔,先放图: 美化按钮背景: 当我们用系统默认的按钮风格似乎太老套,而且不太美观,某些情况下我们需要对按钮进行美化和重绘,只有这样才能满足我们的需要按钮美化思维引导: 图中1 为控件Bor ...
从Oracle9i RMAN全库备份迁移到 Oracle10g
1. 创建以下目录: mkdir -pv $ORACLE_BASE/admin/$ORACLE_SID/{{a,b,c,dp,u}dump,pfile} mkdir -pv $ORACLE_BASE/ ...