hadoop InputFormat 类别

FileInputFormat是所有使用文件作为数据源的InputFormat的积累。它提供两个功能：一个是定义哪些文件包含在一个作业的输入中；一个为输入文件生成分片的实现。自动将作业分块作业分块大小与mapred-site.xml中的mapred.min.split.size和mapred.min.split.size和blocksize有关系。分片大小由如下公式来决定：

分片大小 = max(minimumSize, min(maximumSize, blockSize))

如果想避免文件被切分，可以采用如下两种之一，不过推荐第二种。

1)设置minimum size 大于文件大小即可

2)使用FileInputFormat子类并重载isSplitable方法返回false

import org.apache.hadoop.fs.*;

import org.apache.hadoop.mapred.TextInputFormat;

public class NonSplittableTextInputFormat extends TextInputFormat {

　　@Override

　　protected boolean isSplitable(FileSystem fs, Path file) {

　　　　return false;

　　}

1.TextInputFormat（LongWritable，Text：字节偏移量，每行的内容）

默认的InputFormat。键是改行文件在源文件中的偏移量，值是该行内容（不包括终止符，如换行符或者回车符）。如

On the top of the Crumpetty Tree

The Quangle Wangle sat,

But his face you could not see,

On account of his Beaver Hat.

被表示成键值对如下：

<0, On the top of the Crumpetty Tree>

<33, The Quangle Wangle sat,>

<57, But his face you could not see,>

<89, On account of his Beaver Hat.>

2.DBInputFormat:

DBInputFormat 在读取数据时，产生的键值对是 <LongWritable,DBWritable的实例> LongWritable仍旧是偏移量

3.KeyValueInputFormat:

如果行中有分隔符，那么分隔符前面的作为key，后面的作为value 如果行中没有分隔符，那么整行作为key，value为空默认分隔符为 \t

4.NLineInputFormat:

这种格式下，split的数量就不是由文件对应block块个数决定的，而是由设置处理多少行决定，比如一个文件 100行，设置NlineInputFormat 处理2行，那么会产生50个map任务，每个map任务仍旧一行行的处理会调用2次map函数

5.CombineTextInputFormat:将输入源目录下多个小文件合并成一个文件(split)来交给mapreduce处理这样只会生成一个map任务
比如用户给的文件全都是10K那种的文件，其内部也是用的TextInputFormat 当合并大小大于(64M)128M的时候，
也会产生对应个数的split

hadoop InputFormat 类别的更多相关文章

Hadoop InputFormat浅析
本文转载:http://hi.baidu.com/_kouu/item/dc8d727b530f40346dc37cd1 在执行一个Job的时候,Hadoop会将输入数据划分成N个Split,然后启动 ...
Hadoop InputFormat
Hadoop可以处理不同数据格式(数据源)的数据,从文本文件到(非)关系型数据库,这很大程度上得益于Hadoop InputFormat的可扩展性设计,InputFormat层次结构图如下:
Hadoop InputFormat详解
InputFormat是MapReduce编程模型包括5个可编程组件之一,其余4个是Mapper.Partitioner.Reducer和OutputFormat. 新版Hadoop InputFor ...
Hadoop InputFormat 输入文件分片
1. Mapper 与 Reducer 数量对于一个默认的MapReduce Job 来说,map任务的数量等于输入文件被划分成的分块数,这个取决于输入文件的大小以及文件块的大小(如果此文件在 HD ...
Hadoop InputFormat OutputFormat
InputFormat有两个抽象方法: getSplits createRecordReader InputSplits 将数据按照Split进行切分,一个Split分给一个task执行. ...
hadoop InputFormat getSplits
/** Splits files returned by {@link #listStatus(JobConf)} when * they're too big.*/ public InputSpli ...
Hadoop与Spark比较
先看这篇文章:http://www.huochai.mobi/p/d/3967708/?share_tid=86bc0ba46c64&fmid=0 直接比较Hadoop和Spark有难度,因为 ...
Hadoop与Spark之间的比较
Hadoop与Spark之间的比较 Hadoop框架的主要模块包括如下: Hadoop Common Hadoop分布式文件系统(HDFS) Hadoop YARN Hadoop MapReduce ...
[转帖]Hadoop与Spark比较
Hadoop与Spark比较 https://www.cnblogs.com/charlesblc/p/6206198.html 感觉自己落下好多东西没有学习先看这篇文章:http://www.hu ...

随机推荐

【bzoj1441】Min 扩展裴蜀定理
题目描述给出n个数(A1...An)现求一组整数序列(X1...Xn)使得S=A1*X1+...An*Xn>0,且S的值最小输入第一行给出数字N,代表有N个数下面一行给出N个数输出 S ...
Linq里where出现null的问题
今天遇到一个问题,怎么在where里判断一个字段是否为null,并且这个字段不是字符串string类型,而是int和GUID类型,折腾了半天终于搞明白了.(由于项目是我半路接手的,问题是前期的同事给我 ...
javascript标准对象与包装对象
javascript标准对象与包装对象标准对象在JavaScript的世界里,一切都是对象. 但是某些对象还是和其他对象不太一样.为了区分对象的类型,我们用typeof操作符获取对象的类型,它总是 ...
ARC072 D Alice&Brown 博弈论
---题面--- 题解: 题目大意:有2堆石子数分别为x, y的石子,你每次可以从中间的某一堆中取出2i个石子,扔掉i个,并把剩下的i个放到另一堆,无法操作的人就输了. 现在给定x,y,判断先手必赢还 ...
POJ1006：Biorhythms——题解
http://poj.org/problem?id=1006 题目大意: 人生来就有三个生理周期,分别为体力.感情和智力周期,它们的周期长度为23天.28天和33天.每一个周期中有一天是高峰.在高峰这 ...
UVA.136 Ugly Numbers (优先队列)
UVA.136 Ugly Numbers (优先队列) 题意分析如果一个数字是2,3,5的倍数,那么他就叫做丑数,规定1也是丑数,现在求解第1500个丑数是多少. 既然某数字2,3,5倍均是丑数,且 ...
除了love和hate，还能怎么表达那些年的“爱恨情仇”？
实用英语帮你全面提高英语水平关注童鞋们每次刷美剧的时候,相信都会被CP感满满的男女主角虐得体无完肤吧. 可是,一到我们自己表达爱意或者恨意的时候,却苦于词穷,只会用love, like, hat ...
Codeforces Round #341 (Div. 2)B
B. Wet Shark and Bishops time limit per test 2 seconds memory limit per test 256 megabytes input sta ...
bzoj 4488 [Jsoi2015]最大公约数结论+暴力
[Jsoi2015]最大公约数 Time Limit: 10 Sec Memory Limit: 256 MBSubmit: 302 Solved: 169[Submit][Status][Dis ...
浅谈移动端三大viewport
我们通常在写移动端页面时,往往都会在html页面中加入这样一段话 <meta name="viewport" content="width=device-width ...

hadoop InputFormat 类别

hadoop InputFormat 类别的更多相关文章

随机推荐

热门专题