hadoop生态之mapReduce-Yarn

一、inputSplit

　　1.什么是block

　　　块是以 block size 进行划分数据。因此，如果群集中的 block size 为 128 MB，则数据集的每个块将为 128 MB，除非最后一个块小于block size（文件大小不能被 block size 完全整除）。例如下图中文件大小为513MB，513%128=1，最后一个块（e）小于block size，大小为1MB。因此，块是以 block size 的硬切割，并且块甚至可以在逻辑记录结束之前结束（blocks can end even before a logical record ends）。

假设我们的集群中block size 是128 MB，每个逻辑记录大约100 MB（假设为巨大的记录）。所以第一个记录将完全在一个块中，因为记录大小为100 MB小于块大小128 MB。但是，第二个记录不能完全在一个块中，因此第二条记录将出现在两个块中，从块1开始，在块2中结束

　　2.什么是inputSplit

　　如果分配一个Mapper给块1，在这种情况下，Mapper不能处理第二条记录，因为块1中没有完整第二条记录。因为HDFS不知道文件块中的内容，它不知道记录会什么时候可能溢出到另一个块（because HDFS has no conception of what’s inside the file blocks, it can’t gauge when a record might spill over into another block）。InputSplit这是解决这种跨越块边界的那些记录问题，Hadoop使用逻辑表示存储在文件块中的数据，称为输入拆分（InputSplit）。

当MapReduce作业客户端计算InputSplit时，它会计算出块中第一个完整记录的开始位置和最后一个记录的结束位置。在最后一个记录不完整的情况下，InputSplit 包括下一个块的位置信息和完成该记录所需的数据的字节偏移（In cases where the last record in a block is incomplete, the input split includes location information for the next block and the byte offset of the data needed to complete the record）。下图显示了数据块和InputSplit之间的关系：

块是磁盘中的数据存储的物理块，其中InputSplit不是物理数据块。它是一个Java类，指向块中的开始和结束位置。因此，当Mapper尝试读取数据时，它清楚地知道从何处开始读取以及在哪里停止读取。 InputSplit的开始位置可以在块中开始，在另一个块中结束。InputSplit代表了逻辑记录边界，在MapReduce执行期间，Hadoop扫描块并创建InputSplits，并且每个InputSplit将被分配给一个Mapper进行处理。

hadoop生态之mapReduce-Yarn的更多相关文章

Hadoop生态集群YARN详解
一,前言 Hadoop 2.0由三个子系统组成,分别是HDFS.YARN和MapReduce,其中,YARN是一个崭新的资源管理系统,而MapReduce则只是运行在YARN上的一个应用,如果把YAR ...
Hadoop演进与Hadoop生态
1.了解对比Hadoop不同版本的特性,可以用图表的形式呈现. (1)0.20.0~0.20.2: Hadoop的0.20分支非常稳定,虽然看起来有些落后,但是经过生产环境考验,是 Hadoop历史上 ...
hadoop系列三:mapreduce的使用(一)
转载请在页首明显处注明作者与出处 http://www.cnblogs.com/zhuxiaojie/p/7224772.html 一:说明此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的 ...
hadoop系列四:mapreduce的使用(二)
转载请在页首明显处注明作者与出处一:说明此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的一些内容,如hadoop,spark,storm,机器学习等. 当前使用的hadoop版本为2.6 ...
（第4篇）hadoop之魂--mapreduce计算框架，让收集的数据产生价值
摘要: 通过前面的学习,大家已经了解了HDFS文件系统.有了数据,下一步就要分析计算这些数据,产生价值.接下来我们介绍Mapreduce计算框架,学习数据是怎样被利用的. 博主福利给大家赠送一套ha ...
Hadoop生态上几个技术的关系与区别：hive、pig、hbase 关系与区别 Pig
Hadoop生态上几个技术的关系与区别:hive.pig.hbase 关系与区别 Pig 一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了.当初雅虎自己慢慢退出pig的 ...
Hadoop生态常用数据模型
Hadoop生态常用数据模型一.TextFile 二.SequenceFile 1.特性 2.存储结构 3.压缩结构与读取过程 4.读写操作三.Avro 1.特性 2.数据类型 3.avro-to ...
Hadoop 中利用 mapreduce 读写 mysql 数据
Hadoop 中利用 mapreduce 读写 mysql 数据有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如一些 pv.uv 数据,然后为了实时查询的需求,或者一些 OLAP ...
从Hadoop框架与MapReduce模式中谈海量数据处理（含淘宝技术架构） (转)
转自:http://blog.csdn.net/v_july_v/article/details/6704077 从hadoop框架与MapReduce模式中谈海量数据处理前言几周前,当我最初听到 ...
每天收获一点点------Hadoop之初始MapReduce
一.神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算.对于大数据量的计算,通常采用的处理手法就是并行计算.但对许多开发者来 ...

随机推荐

碰到了通过Movie显示gif图片，有部分图片的duration为0导致gif只显示第一帧
解决办法,改为使用android-gif-drawable.jar来显示gif图片(需要配合com.android.support:support-v4:18.0.0使用) GifImageView ...
Delphi 字符串转日期，强大到窒息，VarToDateTime 解决了困扰很久的小问题
procedure THRForm.Button1Click(Sender: TObject); var D:TDateTime; s:string; begin D:=VarToDateTime(' ...
Orchard克死你之刚起步
从去年开始,一直想琢磨一个比较灵活的.Net框架用,经一个月的地毯式搜寻,把目标定位到2009年的微软开源项目Orchard,虽然起步甚晚,但对我们这些菜鸟,仍旧是有可学习之处,所以打算花大半年时间想 ...
python字典结构化数据
https://www.cnblogs.com/evablogs/p/6692947.html dict: 键-值(key-value)对集合{key:value},查找速度极快,但浪费内存. 1 2 ...
git window安装与注册邮箱用户名
1.git window版本下载 https://git-scm.com/downlods 下载完后点击安装包安装,一直下一步就行; 2.验证安装是否成功在开始菜单里找到“Git”->“Git ...
Linux学习历程——Centos 7 账户管理命令（用户篇）useradd usermod userdel
一.命令介绍 useradd 用于创建新的用户 usermod 用于修改用户属性 userdel 用于删除用户 -------------------------------- ...
IdentityServer4实战 - JWT Issuer 详解
一.前言本文为系列补坑之作,拖了许久决定先把坑填完. 下文演示所用代码采用的 IdentityServer4 版本为 2.3.0,由于时间推移可能以后的版本会有一些改动,请参考查看,文末附上Demo ...
记录学习antd design pro dva的过程，主要记错，多图预警，如有理解偏差，忘指出，多谢！
首要问题: 如何增加菜单项答案: 在router.config中添加路由,在locales语言国际化增加选项问题1: 答案1: 问题2: 这个要修改state,正确写法存在的疑惑:为什么不能直接 ...
复习交换代数——Noether正规化
目录简介初等启发证明过程几何意义定理应用参考资料简介在交换代数中有如下定理 Noether正规化引理令$R$是一个有限生成$k$-代数整环,则存在$t_1,\ldots,t_n\in ...
Matrix Completion with Noise
目录引恢复1 核范数与SDP 稳定恢复 Candes E J, Plan Y. Matrix Completion With Noise[J]. arXiv: Information Theory ...

hadoop生态之mapReduce-Yarn

一、inputSplit

hadoop生态之mapReduce-Yarn的更多相关文章

随机推荐

热门专题