Hadoop学习笔记总结

01. InputFormat和OutFormat

1. 整个MapReduce组件

InputFormat类和OutFormat类都是抽象类。

可以实现文件系统的读写，数据库的读写，服务器端的读写。

这样的设计，具有高内聚、低耦合的特点。

2. 提交任务时，获取split切片信息的流程

JobSubmitter初始化submitterJobDir资源提交路径，是提交到HDFS保存文件路径，一些Jar包和配置文件：
接下来，是JobSubmitter中将切片信息写入submitJobDir目录。

int maps = writeSplits(job, submitJobDir);
writeSplits方法中，首先会通过反射拿到用户设置的InputFormat子类的实例（默认为TextInputFormat类），然后调用FileInputFormat的getSplit方法（父类公共方法）再获得切片的信息，封装到InputSplit中，返回List。
```
 InputFormat<?, ?> input =

   ReflectionUtils.newInstance(job.getInputFormatClass(), conf);

 List<InputSplit> splits = input.getSplits(job);
```

最后将切片描述信息写到submitterJobDir资源提交路径中。

 JobSplitWriter.createSplitFiles(jobSubmitDir, conf, jobSubmitDir.getFileSystem(conf), array);

InputSplit包含block块所在位置主机，路径，偏移量等信息。分片数据不包含数据本身，而是指向数据的引用。

input.getSplits()方法解析

由FileInputFormat类中getSplits方法决定。

计算公式：

 //computeSplitSize中

 minSize=max{getFormatMinSplitSize(),mapred.min.split.size} （getFormatMinSplitSize()大小默认为1B）

 maxSize=mapred.max.split.size（不在配置文件中指定时大小为Long.MAX_VALUE）

 //blockSize是默认的配置大小：128MB

 //分片大小的计算公式

 splitSize=max{minSize,min{maxSize,blockSize}}

默认情况下，minSize < blockSize < maxSize

所以，默认不在配置文件配置split最大值和最小值，分片大小就是blockSize，128MB。

公式的含义：取分片大小不大于block，并且不小于在mapred.min.split.size配置中定义的最小Size。

举例说明如何控制分片大小：

3. 为什么Hadoop不擅长小文件

逻辑上，FileInputFormat生成的分块是一个文件或者该文件的一部分，如果是很多小文件，就生成了很多的逻辑block。默认情况下，一个分片就是一个block，因而，会有很多个map任务，每次map操作都有很多额外的开销。

因此，运行大量小文件的任务，会增加运行作业的额外开销；浪费NameNode内存。

解决：CombineFileInputFormat

参考《Hadoop权威指南》

初接触，记下学习笔记，还有很多问题，望指导，谢谢。

Hadoop_FileInputFormat分片的更多相关文章

elasticsearch高级配置一 ---- 分片分布规则设置
cluster.routing.allocation.allow_rebalance 设置根据集群中机器的状态来重新分配分片,可以设置为always, indices_primaries_active ...
redis分片
本文是在window环境下测试什么是分片当数据量大的时候,把数据分散存入多个数据库中,减少单节点的连接压力,实现海量数据存储那么当多个请求来取数据时,如何知道数据在哪个redis呢,redis有 ...
CephRGW 在多个RGW负载均衡场景下，RGW 大文件并发分片上传功能验证
http://docs.ceph.com/docs/master/radosgw/s3/objectops/#initiate-multi-part-upload 根据分片上传的API描述,因为对同一 ...
Ceph RGW服务使用s3 java sdk 分片文件上传API 报‘SignatureDoesNotMatch’ 异常的定位及规避方案
import java.io.File; import com.amazonaws.AmazonClientException; import com.amazonaws.auth.profile ...
IP分片详解
IP分片是网络上传输IP报文的一种技术手段.IP协议在传输数据包时,将数据报文分为若干分片进行传输,并在目标系统中进行重组.不同的链路类型规定有不同最大长度的链路层数据帧,称为链路层MTU(最大传输单 ...
MongoDB的分片（9）
什么是分片分片是指将数据库拆分,将其分散在不同的机器上的过程.将数据分散到不同的机器上,不需要功能强大的服务器就可以存储更多的数据和处理更大的负载.基本思想就是将集合切成小块,这些块分散到若干片里, ...
搭建高可用mongodb集群（四）—— 分片（经典）
转自:http://www.lanceyan.com/tech/arch/mongodb_shard1.html 按照上一节中<搭建高可用mongodb集群(三)-- 深入副本集>搭建后还 ...
用百度webuploader分片上传大文件
一般在做文件上传的时候,都是通过客户端把要上传的文件上传到服务器,此时上传的文件都在服务器内存,如果上传的是视频等大文件,那么服务器内存就很紧张,而且一般我们都是用flash或者html5做异步上传, ...
mongodb分片配置
通过YUM库自动安装Mongodb 手动安装配置mongodb 验证mongodb主从复制过程验证mongodb副本集并实现自动切换实验mongodb使用gridfs存放一个大文件 1.创建数据目 ...

随机推荐

PHP学习笔记：利用gd库给图片打图片水印
<?php $dst_path = '1.jpg';//目标图片 $src_path = 'logo1.png';//水印图片 //创建图片的实例 $dst = imagecreatefroms ...
C#中的索引器原理
朋友们,还记得我们在C#语言开发中用到过索引器吗? 记得在获得DataGridView控件的某列值时:dgvlist.SelectedRows[0].Cells[0].Value; 记得在获得List ...
.Net开源项目之开源论坛
.Net开源项目非常多,但是开源并且直接就能用的BBS项目就很少了,至少最近我在这上面没有找到一个合适的开源论坛.可能是因为我要求比较特殊,不但要开箱即用,还要用MVC+MySql开发. Discuz ...
关于网络上的各种mysql性能测试结论
关于网上的各种性能测试帖子,我想说以下几点: 1.为了使性能测试更加的客观.实际,应该说明针对什么场景进行测试,查询.还是修改,是否包含了主键,包含了几个索引,各自的差别是什么.因为不同的mysql分 ...
移动端H5---页面适配问题详谈（一）
一.前言昨天唠叨了哈没用的,今天说点有用的把.先说一下响应式布局吧,我一直认为响应式布局的分项目,一下布局简单得项目做响应式还是可以可以得.例如博客.后台管理系统等.但是有些会认为响应式很牛逼,尤其 ...
从web移动端布局到react native布局
在web移动端通常会有这样的需求,实现上中下三栏布局(上下导航栏位置固定,中间部分内容超出可滚动),如下图所示: 实现方法如下: HTML结构: <div class='container'&g ...
Atitit.atiInputMethod v2词库清理策略工具 q229
Atitit.atiInputMethod v2词库清理策略工具 q229 1.1. Foreigncode 外码清理1 1.2. 垃圾词澄清1 1.1. Foreigncode 外码清理 On ...
Swing（一）：JFrame框架窗体
Swing窗体是一个组件,也是可视化的窗体,可以将其他组件放在这里.Jfream框架是一个容器,是Swing程序中各个组件的载体,可以将它看做为一个容器,在开发中可以通过java.swing.jfr ...
Android项目实战（十）：自定义倒计时的TextView
项目总结 -------------------------------------------------------------------------------------------- 有这 ...
一个线程加一运算，一个线程做减一运算，多个线程同时交替运行--synchronized
使用synchronized package com.pb.thread.demo5; /**使用synchronized * 一个线程加一运算,一个线程做减法运算,多个线程同时交替运行 * * @a ...