一梳理从 HDFS 到 MR。

MapReduce 不仅仅是一个工具，更是一个框架。我们必须拿问题解决方案去适配框架的 map 和 reduce 过程

很多情况下，需要关注 MapReduce 作业所需要的系统资源，尤其是集群内部网络资源的使用情况。这是MapReduce 框架在设计上的取舍，是在需要考虑并发、容错、扩展性以及其他挑战与只关注数据的分布式处理之间的平衡。但是，独特的系统加上独特的问题使解决方案产生了独特的设计模式。

我们不仅要关注代码的简洁和可维护性，同时还要考虑到任务会在数百台机器的共享集群上处理 TB 级甚至 PB 级的数据，任务性能也需要格外地重视。同时，该作业与共享集群的机器上数以百计的任务存在竞争关系。一个好的设计可以带来几个数量级的性能提升，因此选择正确的设计来实现 MapReduce 算法就显得尤为重要。

随着 pig、hive 的发展，他们更将能解决 90% 以上的业务场景。但是那10% 将是他们无法解决的。这种情况编写MR 就是最好的解决方案。就像有些时候依然必须用汇编语言一样。

HDFS 分块 - MapReduce 分析

HDFS 数据划分：文件上传之后，第一件事就是数据划分，是按照配置文件的块大小进行的物理分块。

Hadoop 数据划分：现在版本是 JobClient 去进行划分分析 split.file 写入 HDFS 中，到时候 JobTracker 端读这个文件。计算一个文件有多少个 Block是由 getSplits这个函数计算的单位是Block个数.

MapTask任务分配： map 的个数是由 splits 长度决定。一个 splits 不会包含两个 File 的块，不会跨越 File 边界。 splits 和 Block 关系式一对多关系，默认是一对一。

Reduce 任务： Shuffle, 也是 Copy 阶段，Reduce Task 从各个 MapTask 上远程拷贝数据，并针对某一片数据，如果其大小超过一定阈值，则写到磁盘上，否则直接放在内存中。

很多情况下 Reduce 执行时需要跨节点拉取其他节点的 map task 结果。如果集群正在运行的 job 有很多，那么 task 的正常执行对集群内部的网络资源消耗会很严重。这种网络小号是正常的。不能加以限制，能做的就是最大化的减少不必要的消耗。还有在节点内，相比于内存，磁盘 IO 对 job 完成任务影响是很客观的。

Shuffer ：完整的拉取 map 节点数据。减少对带宽不必要的消耗。减少磁盘IO对 task 的执行影响。（主要是尽量使用内存而非磁盘。）

FileSplit 类：

(1)数据切分：按照某个策略将输入数据切分成若干个split，以便确定MapTask个数以及对应的split；

(2)为Mapper提供输入数据：读取给定的split的数据，解析成一个个的key/value对，供mapper使用。

InputFormat有两个比较重要的方法：(1)List<InputSplit> getSplits(JobContext job)；(2)RecordReader<LongWritable, Text> createRecordReader(InputSplit split,TaskAttemptContext context)。

来自为知笔记(Wiz)

一梳理从 HDFS 到 MR。的更多相关文章

HDFS和MR的配置和使用
一.分布式HDFS的安装和启动 ①在$HADOOP_HOME/etc/hadoop/core-site.xml文件 <configuration> <property> < ...
大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
微信公众号[程序员江湖] 作者黄小斜,斜杠青年,某985硕士,阿里 Java 研发工程师,于 2018 年秋招拿到 BAT 头条.网易.滴滴等 8 个大厂 offer,目前致力于分享这几年的学习经验. ...
Hadoop HDFS 设计随想
目录引言 HDFS 数据块的设计数据块应该设置成多大? 抽象成数据块有哪些好处? 操作块信息的命令 HDFS 中节点的设计有几种节点类型? 用户如何访问 HDFS? 如何对 namenode 容 ...
Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
转自:http://blog.csdn.net/iamdll/article/details/20998035 分类: 分布式 2014-03-11 10:31 156人阅读评论(0) 收藏举报 ...
第十一章： Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
HDFS的体系架构整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持,并通过MR来实现对分布式并行任务处理的程序支持. HDFS采用主从(Master/Slave)结构模型,一 ...
Hadoop体系结构之 HDFS
HDFS采用主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的(在最新的Hadoop2.2版本已经实现多个NameNode的配置-这也是一 ...
Hadoop学习笔记—HDFS
目录搭建安装三个核心组件安装配置环境变量配置各上述三组件守护进程的相关属性启停监控和性能 Hadoop Rack Awareness yarn的NodeManagers监控命令 hdf ...
vivo 万台规模 HDFS 集群升级 HDFS 3.x 实践
vivo 互联网大数据团队-Lv Jia Hadoop 3.x的第一个稳定版本在2017年底就已经发布了,有很多重大的改进. 在HDFS方面,支持了Erasure Coding.More than 2 ...
inteview que2
1.spring的缓存,mybatis缓存a.基于注解的方式三种注解b.mybatis分为一级session和二级缓存mapperc.采用LRU算法(近期最少使用) http://www.iteye ...

随机推荐

UVa 12545 Bits Equalizer【贪心】
题意:给出两个等长的字符串,0可以变成1,?可以变成0和1,可以任意交换s中任意两个字符的位置,问从s变成t至少需要多少次操作先可以画个草图发现需要考虑的就是 1---0 0---1 ?---0 ...
CF 287(div 2) B Amr and Pins
解题思路:一开始自己想的是找出每一次旋转所得到的圆心轨迹,将想要旋转到的点代入该圆心轨迹的方程,如果相等,则跳出循环,如果不相等,则接着进行下一次旋转.后来看了题解,发现,它的旋转可以是任意角度的,所 ...
运维派企业面试题4&5 创建10个用户 ; ping探测主机是否在线
Linux运维必会的实战编程笔试题(19题) 企业面试题4: 批量创建10个系统帐号oldboy01-oldboy10并设置密码(密码为随机8位字符串). #!/bin/bash # ;i<=; ...
luogu P1516 青蛙的约会(线性同余方程扩展欧几里德）
题意题解做了这道题,发现扩欧快忘了. 根据题意可以很快地列出线性同余方程. 设跳了k次 x+mkΞy+nk(mod l) (m-n)kΞ-(x-y)(mod l) 然后化一下 (m-n)k+(x- ...
linux 空间不够了修改 /boot
1> 查看空间多少:df -h2> 查看当期内核: uname -r3> 查找内核 rpm -qa | grep kernel4> 删除多余的内核 yum remo ...
es-for-Laravel: Composer 包安装, Laravel 最简单的方式操作 Elasticsearch
composer 安装:composer require ethansmart/es-for-laravel github 地址:https://github.com/roancsu/es-for-l ...
别了WindowsXP
生命中有太多的迎来送往,今日全世界都在告别它. 虽然自己已经在很久之前没有用XP系统了.告别它不如在一定意义上告别自己的一段时光... 2001年个人第一台电脑...初次安装XP,两张光盘一张安装盘一 ...
Appium - Android 对照 iOS
Appium - Android 对照 iOS 作者: Max.Bai 时间: 2014/10 Appium - Android 对照 iOS Appium 支持Android也支持iOS.可是两者还 ...
bzoj1005: [HNOI2008]明明的烦恼（prufer+高精度）
1005: [HNOI2008]明明的烦恼题目:传送门题解: 毒瘤题啊天~ 其实思考的过程还是比较简单的... 首先当然还是要了解好prufer序列的基本性质啦那么和1211大体一致,主要还是利 ...
Cms WebSite 编译非常慢
第一次编译非常慢如果遇到错误,中途中断的话. 下一次编译的时候,上一次已经编译过的文件,会非常快的略过.很快就会到上一次遇到错误的地方,继续往下进行编译.

一 梳理 从 HDFS 到 MR。

一 梳理 从 HDFS 到 MR。的更多相关文章

随机推荐

热门专题

一梳理从 HDFS 到 MR。

一梳理从 HDFS 到 MR。的更多相关文章