Hadoop TextInputFormat

1. TextInputFortmat

TextInputFormat是默认的InputFormat。每条记录是一行输入。Key是LongWritable类型，存储该行在整个文件中的字节偏移量（不是行数），值是这行的内容，为一个Text对象。

例如输入文件为：

grunt> cat test2

12,e21,ddwq,dqw,dwqw

sfd,cda,cdsz,cdwq,qwe

12,cds,fwa,feacd,cadfa

21ede,cdsf,ca,fa,dcac

caewf,ea,cdadc,acds,acsd

12e,afs,afesd,caefd,cawc

cax,cafe,caefe,fea,ceaef

在使用默认的 Map处理后输出：

grunt> cat out

0 12,e21,ddwq,dqw,dwqw

21 sfd,cda,cdsz,cdwq,qwe

43 12,cds,fwa,feacd,cadfa

66 21ede,cdsf,ca,fa,dcac

88 caewf,ea,cdadc,acds,acsd

113 12e,afs,afesd,caefd,cawc

138 cax,cafe,caefe,fea,ceaef

可以看到Key的值并不是行数，而是字节在文件中的偏移量。一般情况下，很难获取到文件的行号，因为文件是按字节切分为分片，而不是按行切分。

在按行读文本的情况下，可能会存在超长行的情况。超长行会导致内存溢出，可以通过设置 mapreduce.input.linerecordreader.line.maxlength，指定一个最长行的字节数（在内存范围内），可以确保 recordreader 跳过超长行。

2. KeyValueTextInputFormat

TextInputFormat 将文件中的行作为Key，每行对应的文本作为Value。但是对于某些文件内容已经是 Key-Value 形式的话，使用 TextInputFormat 会显得多次一举。在这种情况下，我们可以使用KeyValueTextInputFormat，它以某个分隔符进行分割（默认为制表符）:

public KeyValueLineRecordReader(Configuration conf) throws IOException {
     String sepStr = conf.get("mapreduce.input.keyvaluelinerecordreader.key.value.separator", "\t");
     this.separator = (byte)sepStr.charAt(0);
 }

一个范例如下，使用逗号为分隔符：

grunt> cat test2

12,e21,ddwq,dqw,dwqw

sfd,cda,cdsz,cdwq,qwe

12,cds,fwa,feacd,cadfa

21ede,cdsf,ca,fa,dcac

输出为：

grunt> cat out

12 cds,fwa,feacd,cadfa

12 e21,ddwq,dqw,dwqw

12e afs,afesd,caefd,cawc

21ede cdsf,ca,fa,dcac

在任务设置中需要做的配置如下：

Configuration conf = new Configuration();
 conf.set("mapreduce.input.keyvaluelinerecordreader.key.value.separator", ",");

job.setInputFormatClass(org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat.class);

3. NLineInputFormat

在使用TextInputFormat和KeyValueInputFormat 时，每个mapper 收到的行数取决于输入的分片大小以及行的长度。如果希望 mapper 收到固定行的输入，则需要使用 NLineInputFormat。与 TextInputFormat一样，key是文件中的字节偏移量，值是行本身。

N是每个mapper收到的输入行数。N设置为1时（默认），每个mapper正好收到一行输入。同样使用之前的一共7行输入，使用NLineInputFormat：

job.setInputFormatClass(org.apache.hadoop.mapreduce.lib.input.NLineInputFormat.class);

grunt> cat out

0 12,e21,ddwq,dqw,dwqw

21 sfd,cda,cdsz,cdwq,qwe

43 12,cds,fwa,feacd,cadfa

…

查看此任务的相关指标，可以看到：

Job Counters

Launched map tasks=7

Launched reduce tasks=1

Other local map tasks=7

Mapper数一共有7个，也就是每行均生成了一个Map。可以通过设置以下参数指定NLine为多少行：

mapreduce.input.lineinputformat.linespermap

References: Hadoop权威指南第四版

Hadoop TextInputFormat的更多相关文章

Hadoop TextInputFormat源码分析
from:http://blog.csdn.net/lzm1340458776/article/details/42707047 InputFormat主要用于描述输入数据的格式(我们只分析新API, ...
hadoop可能遇到的问题
1.hadoop运行的原理? 2.mapreduce的原理? 3.HDFS存储的机制? 4.举一个简单的例子说明mapreduce是怎么来运行的 ? 5.面试的人给你出一些问题,让你用mapreduc ...
hadoop面试时可能遇到的问题
面试hadoop可能被问到的问题,你能回答出几个 ? 1.hadoop运行的原理? 2.mapreduce的原理? 3.HDFS存储的机制? 4.举一个简单的例子说明mapreduce是怎么来运行的 ...
hadoop+海量数据面试题汇总（一）
hadoop面试题 Q1. Name the most common InputFormats defined in Hadoop? Which one is default ? Following ...
Hadoop就业面试题
----------------------------------------------------------------------------- [申明:资料来源于互联网] 本文链接:htt ...
Tachyon在Spark中的作用（Tachyon: Reliable, Memory Speed Storage for Cluster Computing Frameworks 论文阅读翻译）
摘要: Tachyon是一种分布式文件系统,能够借助集群计算框架使得数据以内存的速度进行共享.当今的缓存技术优化了read过程,可是,write过程由于须要容错机制,就须要通过网络或者 ...
Hadoop源码解析之: TextInputFormat如何处理跨split的行
我们知道hadoop将数据给到map进行处理前会使用InputFormat对数据进行两方面的预处理: 对输入数据进行切分,生成一组split,一个split会分发给一个mapper进行处理. 针对每个 ...
Hadoop学习之TextInputFormat分片逻辑探究
期望顺着上一篇文章<Hadoop学习之第一个MapReduce程序>中遗留的分片疑惑,探究TextInputFormat的分片逻辑. 第一步上Apache官网下载实验所使用的Hadoo ...
[Hadoop in Action] 第7章细则手册
向任务传递定制参数获取任务待定的信息生成多个输出与关系数据库交互让输出做全局排序 1.向任务传递作业定制的参数在编写Mapper和Reducer时,通常会想让一些地方可以配 ...

随机推荐

cat基础用法
Linux中的cat命令连接文件并打印到标准输出设备上(通常是shell).cat的最常见用法之一是显示文件,还可以即时创建文件,并可以直接在终端上进行基本编辑. 创建文件使用cat命令创建文件,请 ...
python 队列、栈
队列常规队列双端队列优先级队列栈
Spring BeanDefinitionHolder源码解析
BeanDefinitionHolder源码解析继承关系实现的接口和BeanDefinition一样实现了BeanMetadataElement接口,获得了获取数据源(配置类的class对象)的 ...
STL函数 lower_bound 和 upper_bound 在算法竞赛中的用法
以前比较排斥这两个函数,遇到需要二分的情景都是手写 \(while(left<=right)\). 这次决定洗心革面记录一下这两个函数的在算法竞赛中的用法,毕竟一般不会导致TLE. 其实百度百科 ...
kali的virtualbox镜像账号密码
下载最新版本kali的virtualbox镜像默认账号密码 root 密码 toor
金蝶云星空Python案例地址
https://club.kingdee.com/forum.php?mod=viewthread&tid=1235461
ECMAScript基本语法——⑤运算符赋值运算符
左边的变量等于等号左边的内容移到右边
《深入理解java虚拟机》读书笔记七——第八章
第八章虚拟机字节码执行引擎 1.运行时栈帧结构概述: 栈帧是用于支持虚拟机进行方法调用的和方法执行的数据结构,他是虚拟机运行时数据区中的虚拟机栈的栈元素,栈帧存储了方法的局部变量,操作数栈,动态连 ...
Wannafly Camp 2020 Day 7K 修炼
搞了半天才发现TMD是个模拟 #include <bits/stdc++.h> using namespace std; #define int long long int x,y,p,q ...
[POI2005]KOS-Dicing （最大流+二分）lg3425
题面https://www.luogu.org/problemnew/show/P3425 题面说赢的最多的人最少赢几场,肯定是向二分的方向思考建立源点向每一场比赛连容量为1的边,从每场比赛向参赛两 ...

Hadoop TextInputFormat

Hadoop TextInputFormat的更多相关文章

随机推荐

热门专题