Hadoop MapReduce常用输入输出格式

这里介绍MapReduce常用的几种输入输出格式。

三种常用的输入格式：TextInputFormat , SequenceFileInputFormat , KeyValueInputFormat .

　　 1) TextInputFormat 为默认格式。不特地指明 MapReduce 的输入格式时，默认使用 TextInputFormat 的输入格式。它读取文件的行。　

　　　 “ 键” (LongWritable)为行的字节偏移量（即所在行的字符个数），“值” (Text)为行的内容。

　　2) SequenceFileInputFormat 为Hadoop定义的高性能二进制格式。因此当有多个MapReduce任务在顺序执行时，使用SequenceFileInputFormat 的输入格式可以提高Mapper对其的读取速度。

　 3)KeyValueInputFormat 将文件的行解析为键值对，它的“键”为第一个tab字符前的所有字符（Text）；“值”为行剩下的内容（Text）。

两种常用的输出格式：TextOutputFormat , SequenceFileOutputFormat .

　　1) TextOutputFormat 为默认的输出格式，以“key \t value”的方式输出行。

　　2) SequenceFileOutputFormat 输出的是二进制文件，该二进制文件可以作为子MapReduce作业的输入。

注( ¯(∞)¯ )：钠离子是第一次写博文，希望来记录自己所学。是小菜鸟一只。如有错误，请帮忙指出~谢谢~以后有更多的理解会再添加上去的！

Hadoop MapReduce常用输入输出格式的更多相关文章

Hadoop学习之常用输入输出格式总结
目的总结一下常用的输入输出格式. 输入格式 Hadoop可以处理很多不同种类的输入格式,从一般的文本文件到数据库. 开局一张UML类图,涵盖常用InputFormat类的继承关系与各自的重要方法(已 ...
MapReduce的输入输出格式
默认的mapper是IdentityMapper,默认的reducer是IdentityReducer,它们将输入的键和值原封不动地写到输出中. 默认的partitioner是HashPartitin ...
Hadoop MapReduce编程 API入门系列之自定义多种输入格式数据类型和排序多种输出格式（十一）
推荐 MapReduce分析明星微博数据 http://git.oschina.net/ljc520313/codeexample/tree/master/bigdata/hadoop/mapredu ...
Hadoop（七）：自定义输入输出格式
MR输入格式概述数据输入格式 InputFormat. 用于描述MR作业的数据输入规范. 输入格式在MR框架中的作用: 文件进行分块(split),1个块就是1个Mapper任务. 从输入分块中将数 ...
Hadoop学习之路（二十二）MapReduce的输入和输出
MapReduce的输入作为一个会编写MR程序的人来说,知道map方法的参数是默认的数据读取组件读取到的一行数据 1.是谁在读取? 是谁在调用这个map方法? 查看源码Mapper.java知道是r ...
Hadoop MapReduce编程 API入门系列之MapReduce多种输出格式分析（十九）
不多说,直接上代码. 假如这里有一份邮箱数据文件,我们期望统计邮箱出现次数并按照邮箱的类别,将这些邮箱分别输出到不同文件路径下. 代码版本1 package zhouls.bigdata.myMapR ...
Hadoop MapReduce编程 API入门系列之MapReduce多种输入格式（十七）
不多说,直接上代码. 代码 package zhouls.bigdata.myMapReduce.ScoreCount; import java.io.DataInput; import java.i ...
Hadoop MapReduce编程学习
一直在搞spark,也没时间弄hadoop,不过Hadoop基本的编程我觉得我还是要会吧,看到一篇不错的文章,不过应该应用于hadoop2.0以前,因为代码中有 conf.set("map ...
Hadoop 4、Hadoop MapReduce的工作原理
一.MapReduce的概念 MapReduce是hadoop的核心组件之一,hadoop要分布式包括两部分,一是分布式文件系统hdfs,一部是分布式计算框就是mapreduce,两者缺一不可,也就是 ...

随机推荐

c语言-----劫持原理
1. 劫持原理介绍 (1) 通过劫持技术我们可以实现某些进程的拦截,比如禁止创建文件,禁止打开qq,禁止关机等等一系列的操作 (2) 弹窗拦截就是最常见的一种劫持技术的实现. 2. 使用的工具 (1) ...
去除img下方的空白（vertical-align：middle）——原理
代码如下:一个简单的div装在一个img中, 然而在预览时却发现这种情况也就是说img下方会无缘无故出现一个空隙.然后你发现,只要给img元素加上一个属性 vertical-align:middle ...
< Window10更新后VWwareWorkstationPro无法运行(显示更新至新版本) >
< Window10更新后VWwareWorkstationPro无法运行(显示更新至新版本) > 问题描述我的Win10在国庆节后更新了微软发布的新补丁,由于当前正在上操作系统课,用到 ...
QButtonGroup 的使用
1.3以后尽量手写,因为没有现在的控件了 2. // lyy : 2016/8/26 12:17:41 说明:存放radioButton QButtonGroup *buttonGroup; // l ...
DirectX9：第一章初始化Direct3D
一.Direct3D概述 Direct3D是一套底层图形API,可以被视为应用程序与图形设备交互的中介. 应用程序.Direct3D以及硬件之间的交互关系: 在Direct3D和图形设备之间有一个环节 ...
MySQL、Oracle、SqlServer的区别
鉴于和数据库打交道日益频繁,遂决定写一篇关于Oracle.SqlServer.MySQL区别的个人观点. MySQL是大学时的主要学习对象,但刚参加工作时转到了SqlServer,现在主要接触的是Or ...
ABP WebApi的请求类型
Api对应的请求类型分为以下四种方法: 1.POST 2.PUT 3.DELETE 4.GET 一般abp的请求类型都是根据接口命名来定义的,Create——POST,Delete——DELETE,U ...
Django学习day8——admin后台管理和语言适应
Django最大的优点之一,就是体贴的为你提供了一个基于项目model创建的一个后台管理站点admin.这个界面只给站点管理员使用,并不对大众开放. 1. 创建管理员用户 (django) E:\Dj ...
星空题意转化，差分，状压DP
好题(爆搜和puts("2")一个分(雾)),不得不说思维真的强. 首先发现区间翻转很难受,考虑用差分(异或满足可逆性),注意是从0到n+1 然后就转化题意,操作改为选取距离为L的 ...
js动态显示当前时间+数字大小转换+小于9前面补0
<script type="text/javascript"> function getTime(){ var myDate = new Date(); // 年份 d ...

Hadoop MapReduce常用输入输出格式

Hadoop MapReduce常用输入输出格式的更多相关文章

随机推荐

热门专题