SequenceFileInputFormat区别TextInputFormat


通过InputFormat，Hadoop可以：

l           检查MapReduce输入数据的正确性；

l           将输入数据切分为逻辑块InputSplit，这些块会分配给Mapper；

l           提供一个RecordReader实现，Mapper用该实现从InputSplit中读取输入的<K,V>对。


通过FileInputFormat。下面几个参数可以用于配置FileInputFormat：

l           mapred.input.pathFilter.class：输入文件过滤器，通过过滤器的文件才会加入InputFormat；

l           mapred.min.split.size：最小的划分大小；

l           mapred.max.split.size：最大的划分大小；

l           mapred.input.dir：输入路径，用逗号做分割。

java.lang.Object

  org.apache.hadoop.mapreduce.InputFormat<K,V>

      org.apache.hadoop.mapreduce.lib.input.FileInputFormat<K,V>

          org.apache.hadoop.mapreduce.lib.input.SequenceFileInputFormat<K,V>

java.lang.Object

  org.apache.hadoop.mapreduce.InputFormat<K,V>

      org.apache.hadoop.mapreduce.lib.input.FileInputFormat<LongWritable,Text>

          org.apache.hadoop.mapreduce.lib.input.TextInputFormat

TextInputFormat: 默认的输入格式，行号为Key，文件中该行的内容为value

SequenceFileInputFormat: key-value 对的二进制文件

	通过如下方式进行设置使用：


 	job.setInputFormatClass(SequenceFileInputFormat.class);

   	job.setOutputFormatClass(SequenceFileOutputFormat.class);

SequenceFileInputFormat区别TextInputFormat的更多相关文章

Hadoop集群（第6期）_WordCount运行详解
1.MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然 ...
Hadoop源代码分析
http://wenku.baidu.com/link?url=R-QoZXhc918qoO0BX6eXI9_uPU75whF62vFFUBIR-7c5XAYUVxDRX5Rs6QZR9hrBnUdM ...
hadoop1 和haddop2 mapperreducer的wordcount详解
转 mapreduce中wordcount详细介绍(包括hadoop1和hadoop2版本) 发表于1年前(2014-04-24 10:08) 阅读(1458) | 评论(0) 1人收藏此文章, ...
Hadoop集群WordCount运行详解（转）
原文链接:Hadoop集群(第6期)_WordCount运行详解 1.MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对 ...
WordCount运行详解
1.MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然 ...
Hadoop源代码分析(完整版)
Hadoop源代码分析(一) 关键字: 分布式云计算 Google的核心竞争技术是它的计算平台.Google的大牛们用了下面5篇文章,介绍了它们的计算设施. GoogleCluster:http:// ...
[转] hadoop MapReduce实例解析-非常不错，讲解清晰
来源:http://blog.csdn.net/liuxiaochen123/article/details/8786715?utm_source=tuicool 2013-04-11 10:15 4 ...
hadoop高速扫盲帖，从零了解hadoop
1.MapReduce理论简单介绍 1.1 MapReduce编程模型 MapReduce採用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完毕 ...
Hadoop源码分析（mapreduce.lib.partition/reduce/output）
Map的结果,会通过partition分发到Reducer上.Reducer做完Reduce操作后,通过OutputFormat,进行输出.以下我们就来分析參与这个过程的类. Mapper的结果, ...

随机推荐

jenkins之Tomcat7+jdk1.7+jenkins
目的在开发中,需要经常频繁的对测试服务器进行部署,而且在多人协同中开发经常遇到的问题就是别人更新了他的代码,而你去更新你的代码时并没有更新到别人的代码,导致测试环境的代码不是最新,当然这个问题也好解 ...
ORACLE查询字段中含有空格的数据
SELECT * FROM T_NAME WHERE REGEXP_LIKE(COLNAME, '( )+'); SELECT * FROM T_NAME WHERE length(COLNAME) ...
BZOJ 2038: [2009国家集训队]小Z的袜子(hose) 【莫队算法】
Description 作为一个生活散漫的人,小Z每天早上都要耗费很久从一堆五颜六色的袜子中找出一双来穿.终于有一天,小Z再也无法忍受这恼人的找袜子过程,于是他决定听天由命……具体来说,小Z把这N只袜 ...
刷题总结——道路覆盖（ssoj）
题目: 题目描述 Tar 把一段凹凸不平的路分成了高度不同的 N 段(每一段相同高度),并用 H[i] 表示第 i 段高度.现在 Tar 一共有 n 种泥土可用,它们都能覆盖给定的连续的 k 个部分. ...
farm
farm 时间限制:C/C++ 4秒,其他语言8秒空间限制:C/C++ 262144K,其他语言524288K 64bit IO Format: %lld 题目描述 White Rabbit has ...
N*N数码问题
奇数码问题时间限制: 1 Sec 内存限制: 128 MB 题目描述你一定玩过八数码游戏,它实际上是在一个3*3的网格中进行的,1个空格和1~8这8个数字恰好不重不漏地分布在这3*3的网格中. ...
Mato的文件管理（bzoj 3289）
Description Mato同学从各路神犇以各种方式(你们懂的)收集了许多资料,这些资料一共有n份,每份有一个大小和一个编号.为了防止他人偷拷,这些资料都是加密过的,只能用Mato自己写的程序才能 ...
使用 ftrace 调试 Linux 内核，第 2 部分
ftrace 操作概述使用 ftrace 提供的跟踪器来调试或者分析内核时需要如下操作: 切换到目录 /sys/kernel/debug/tracing/ 下查看 available_tracer ...
go语言学习之路二：变量
说道变量,首先应该提一提关键字,因为不能把关键字当做变量来声明. 关键字: 下面列出GO语言的关键字或保留字: break default func interface select case def ...
（二）《机器学习》（周志华）第4章决策树笔记理论及实现——“西瓜树”——CART决策树
CART决策树 (一)<机器学习>(周志华)第4章决策树笔记理论及实现——“西瓜树” 参照上一篇ID3算法实现的决策树(点击上面链接直达),进一步实现CART决策树. 其实只需要改动 ...

SequenceFileInputFormat区别TextInputFormat

SequenceFileInputFormat区别TextInputFormat的更多相关文章

随机推荐

热门专题