输入格式--InputFormat和InputSplit

1）InputFormat的类图：

InputFormat 直接子类有三个：DBInputFormat、DelegatingInputFormat和FileInputFormat，分别表示输入文件的来源为从数据库、用于多个输入以及基于文件的输入。对于FileInputFormat，即从文件输入的输入方式，又有五个继承子类：CombineFileInputFormat,KeyValueTextInput,NLineInoutFormat,SequenceFileInputFormat,TextInputFormat。

2）InputSplit的类图

输入分片InputSplit 类有三个子类继承：FileSplit (文件输入分片)，CombineFileSplit(多文件输入分片)以及DBInputSplit(数据块输入分片)。

3）InputFormat:

InputFormat有三个作用：

a.验证作业数据的输入形式和格式(要与MR程序中使用的格式相同，比如是TextInputFormat还是DBInputFormat)

b.将输入的数据切分为多个逻辑上的InputSplit，其中每一个InputSplit作为一个MApper的输入。

c.提供一个RecordReader，用于将InputSplit的内容转换为可以作为map输入的<k,v>键值对。

使用代码来指定MR作业数据的输入格式：

job.setInputFormatClass(TextInputFormat.class)

其实，InputFormat是一个抽象类，只是提供了两个抽象方法：

abstract List<InputSplit>getSplits(JobContext context);

abstract RecordReader<K,V> createRecordReader(InputSplit split,TaskAttemptContext context)

只提供两个抽象方法是有原因的，首先不同的格式的文件切片的方法不同(对应于getSplits)，同一份文件可能希望读出不同形式的内容(对应createRecordReader)。

getSplits:

InputFormat的直接派生类需要实现此方法，例如FileInputFormat和DBInputFormat。另外，InputSplit的类型在选择了InputFormat的类型就已经确定了的，因为每个InputFormat的派生类都实现了getSplits，在此方法内部已经生成了对应的InputSplit。

createRecordReader：

FileInputFormat的派生类都实现了这个方法。

4）

InputSplit：

任何数据分块儿的实现都继承自抽象基类InputSplit，它位于org.apache.hadoop.mapreduce.InputSplit。此抽象类中有两个抽象方法：

abstract long getLength()

abstract String[] getLocation()

getLength()返回该块儿的大小，单位是字节。getLocation()返回存储该数据块的数据节点的名称，例如：String[0]="Slave1",String[1]="Slave2".

这两个方法也是需要在InputSplit的派生类中实现的。

5）

InputSplit的大小：

一个数据分片的大小由以下三行代码确定：

goalSize=totalSize/(numSplits==0？1：numSplits)

//totalSize是输入数据文件的大小，numSplits是用户设置的map数量，就是按照用户自己

//的意愿，每个分片的大小应该是goalSize

minSize=Math.max(job.getLong("mapred.min.split.size",1),minSplitSize)

//hadoop1.2.1中mapred-default.xml文件中mapred.min.split.size=0，所以job.getLong("mapred.min.split.size",1)=0，而minSplitSize是InputSplit中的一个数据成员，在File//Split中值为1.所以minSize=1，其目的就是得到配置中的最小值。

splitSize=Math.max(minSize,Math.min(goalSize,blockSize))

//真正的分片大小就是取按照用户设置的map数量计算出的goalSize和块大小blockSize中最小值(这是为了是分片不会大于一个块大小，有利于本地化计算)，并且又比minSize大的值。

输入格式--InputFormat和InputSplit的更多相关文章

hadoop输入格式(InputFormat)
InputFormat接口(package org.apache.hadoop.mapreduce包中)里包括两个方法:getSplits()和createRecordReader(),这两个方法分别 ...
mapreduce的输入格式 --- InputFormat
InputFormat 接口决定了mapreduce如何切分输入文件. InputFormat 由getspilit和createRecordReader组成,getspilit主要是标记分片的初始位 ...
MapReduce输入格式
文件是 MapReduce 任务数据的初始存储地.正常情况下,输入文件一般是存储在 HDFS 里面.这些文件的格式可以是任意的:我们可以使用基于行的日志文件, 也可以使用二进制格式,多行输入记录或者其 ...
InputFormat,OutputFormat,InputSplit,RecordRead(一些常见面试题),使用yum安装64位Mysql
列举出hadoop常用的一些InputFormat InputFormat是用来对我们的输入数据进行格式化的.TextInputFormat是默认的. InputFormat有哪些类型? DBInpu ...
hadoopMR自定义输入格式
输入格式 1.输入分片与记录 2.文件输入 3.文本输入 4.二进制输入 5.多文件输入 6.数据库格式输入详细的介绍:https://blog.csdn.net/py_123456/ar ...
MapReduce实战：自定义输入格式实现成绩管理
1. 项目需求我们取有一份学生五门课程的期末考试成绩数据,现在我们希望统计每个学生的总成绩和平均成绩. 样本数据如下所示,每行数据的数据格式为:学号.姓名.语文成绩.数学成绩.英语成绩.物理成绩.化 ...
MapReduce的输入格式
1. InputFormat接口 InputFormat接口包含了两个抽象方法:getSplits()和creatRecordReader().InputFormat决定了Hadoop如何对文件进行分 ...
Hadoop MapReduce编程 API入门系列之MapReduce多种输入格式（十七）
不多说,直接上代码. 代码 package zhouls.bigdata.myMapReduce.ScoreCount; import java.io.DataInput; import java.i ...
Hadoop MapReduce编程 API入门系列之自定义多种输入格式数据类型和排序多种输出格式（十一）
推荐 MapReduce分析明星微博数据 http://git.oschina.net/ljc520313/codeexample/tree/master/bigdata/hadoop/mapredu ...

随机推荐

S3C2440 LCD驱动(FrameBuffer)实例开发<一>(转)
1. 背景知识在多媒体的推动下,彩色LCD越来越多地应用到嵌入式系统中,PDA和手机等大多都采用LCD作为显示器材,因此学习LCD的应用很有实际意义! LCD工作的硬件需求:要使一块LCD正常的显示 ...
ruby 程序中的文字编码
1,问题在写一个统计代码行数的脚本时遇到一个问题: 代码: file_name = "code.rb"c = 0File.foreach(file_name) do |x| ne ...
C 的一些写法格式交流
好久以前刚开始学习前辈们的代码的时候,发现好多代码感到好奇怪. 1)代码看不懂 2)代码格式看不懂网上也没见同学们分享.当自己代码写多了,也渐渐的理解为什么要这样写了. 说主题之前还是说一些题 ...
debian完整部署 Nginx + uWSGI + Django
手工部署一个Django服务器真心不容易,需要安装很多东西.从头开始搭建服务器,主要是为了梳理一下后续开发中一般为碰到的平台部署.对后续问题的解决有一定帮助. 通常部署有2中方式: 一种是使用现成提供 ...
MySQL 设置允许远程登录
1.修改数据表可能是你的帐号不允许从远程登陆,只能在localhost.这个时候只要在 localhost 的那台电脑,登入MySQL后,更改 "MySQL" 数据库里的 &qu ...
hdu 4027 Can you answer these queries?
题目连接 http://acm.hdu.edu.cn/showproblem.php?pid=4027 Can you answer these queries? Description Proble ...
使用 Bumblebee 控制 NVIDIA 双显卡
简介 Nvidia的双显卡切换技术叫Optimus(擎天柱),可惜只能在win7.vista下实现.Linux下没有对应的技术,当然苹果也没有.这导致独立显卡一直在启用,显卡发热升温,风扇狂转,却没有 ...
基于xmpp openfire smack开发之Android客户端开发[3]
在上两篇文章中,我们依次介绍openfire部署以及smack常用API的使用,这一节中我们着力介绍如何基于asmack开发一个Android的客户端,本篇的重点在实践,讲解和原理环节,大家可以参考前 ...
ExtJS MVC学习手记
开始学习ExtJS的MVC了.这篇文章仅是用来做一个目录,为自己这个阶段的学习内容做个索引. 手记涉及的文章: EXTJS MVC结构(译自ExtJS4.0文档中的<MVC Architectu ...
000 VS2013 c++ 框架
#include <Windows.h> //全局函数声明 LRESULT CALLBACK WndProc(HWND hwnd, UINT message, WPARAM wParam, ...

输入格式--InputFormat和InputSplit

输入格式--InputFormat和InputSplit的更多相关文章

随机推荐

热门专题