入门大数据---Map/Reduce，Yarn是什么？

简单概括：Map/Reduce是分布式离线处理的一个框架。 Yarn是Map/Reduce中的一个资源管理器。

一.图形说明下Map/Reduce结构：

官方示意图：

另外还可以参考这个：

流程介绍：

HDFS首先会把块进行逻辑上切片处理，然后进行Map映射。一个切片对应一个Map映射。

因为文件内容有可能一个单词被切到两个文件里面，这样计算就会有问题，所以Map映射时除了第一个切片完全映射，其余的映射都会从第二行开始映射，而第一行传递给上一个Map处理。

Map程序初始化会设定一个阈值，比如80%，当超过这个值的时候就会就会进行内存溢出。溢出前会进行一个【快速排序】，排完后写入硬盘分区。（不设置阈值，当内存满后，就会阻塞数据继续写入。设定的阈值根据实际情况设定，太小了会增加读写压力，太大了会产生阻塞。）

程序可以设置合并操作，当分区数超过设定值后就进行合并（combiner）。（比如分区＞3后）（合并后，相同key的数据就压缩了，拉取的时候就会减少IO）

Reduce会检查是否Map完，有一个Map完后就能拉取一次。

Reduce拉取的时候会有一个真迭代器和一个假迭代器进行嵌套，比如一组数据 A 1 A 1 A 1 B 1,假迭代器会进行循环然后取下一条数据进行比较看是否相同，相同的话进行累加值，再取下一条，这样下一条下一条的取，直到key不相同时候，结束本组循环，进行下一组循环。这样A就统计出3，B就统计出1来了。

二.图形说明下Yarn的结构：

流程介绍：首先Client请求ResourceManager，然后ResourceManager分配一个Container启动ApplicationMaster，ApplicatoinMaster向ResourceManager请求分配更多Container。Container一部分执行Map任务，一部分执行Reduce任务。

三.图形说明下Map/Reduce和Yarn在整个Hadoop系统中的位置以及为什么产生Yarn：

由于产生了多种计算框架，所以需要一个资源管理器来对资源进行分配使用。

系列传送门学习官网： http://hadoop.apache.org/

入门大数据---Map/Reduce，Yarn是什么？的更多相关文章

大数据篇：YARN
YARN YARN是什么? YARN是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率.资源统一管理和数据共享等方面带来了巨大 ...
入门大数据---Flink学习总括
第一节初识 Flink 在数据激增的时代,催生出了一批计算框架.最早期比较流行的有MapReduce,然后有Spark,直到现在越来越多的公司采用Flink处理.Flink相对前两个框架真正做到了高 ...
入门大数据---MapReduce-API操作
一.环境 Hadoop部署环境: Centos3.10.0-327.el7.x86_64 Hadoop2.6.5 Java1.8.0_221 代码运行环境: Windows 10 Hadoop 2.6 ...
入门大数据---Hive数据查询详解
一.数据准备为了演示查询操作,这里需要预先创建三张表,并加载测试数据. 数据文件 emp.txt 和 dept.txt 可以从本仓库的resources 目录下载. 1.1 员工表 -- 建表语句 ...
入门大数据---Spark_Streaming整合Flume
一.简介 Apache Flume 是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中.Spark Straming 提供了以下两种方式用于 ...
入门大数据---通过Flume、Sqoop分析日志
一.Flume安装参考:Flume 简介及基本使用二.Sqoop安装参考:Sqoop简介与安装三.Flume和Sqoop结合使用案例日志分析系统整体架构图: 3.1配置nginx环境请参考 ...
入门大数据---安装ClouderaManager,CDH和Impala,Hue，oozie等服务
1.要求和支持的版本 (PS:我使用的环境,都用加粗标识了.) 1.1 支持的操作系统版本操作系统版本 RHEL/CentOS/OL with RHCK kernel 7.6, 7.5, 7.4, ...
入门大数据---SparkSQL外部数据源
一.简介 1.1 多数据源支持 Spark 支持以下六个核心数据源,同时 Spark 社区还提供了多达上百种数据源的读取方式,能够满足绝大部分使用场景. CSV JSON Parquet ORC JD ...
入门大数据---Hadoop是什么？
简单概括:Hadoop是由Apache组织使用Java语言开发的一款应对大数据存储和计算的分布式开源框架. Hadoop的起源 2003-2004年,Google公布了部分GFS和MapReduce思 ...

随机推荐

小谢第7问：js前端如何实现大文件分片上传、上传进度、终止上传以及删除服务器文件？
文件上传一般有两种方式:文件流上传和base64方式上传,毫无疑问,当进行大文件上传时候,转为base64是不现实的,因此用formData方式结合文件流,直接上传到服务器本文主要结合vue的来讲解 ...
Spring boot Sample 0010之spring-boot-web-freemarker
一.环境 1.1.Idea 2020.1 1.2.JDK 1.8 二.目的 spring boot 整合freemarker模板开发web项目三.步骤 3.1.点击File -> New Pr ...
Java实现蓝桥杯历届试题分考场
历届试题分考场时间限制:1.0s 内存限制:256.0MB 提交此题问题描述 n个人参加某项特殊考试. 为了公平,要求任何两个认识的人不能分在同一个考场. 求是少需要分几个考场才能满足条件. 输 ...
Java实现蓝桥杯历届试题格子刷油漆
问题描述 X国的一段古城墙的顶端可以看成 2*N个格子组成的矩形(如下图所示),现需要把这些格子刷上保护漆. 你可以从任意一个格子刷起,刷完一格,可以移动到和它相邻的格子(对角相邻也算数),但不能移动 ...
Java实现基础练习十进制转十六进制
基础练习十进制转十六进制时间限制:1.0s 内存限制:512.0MB 提交此题锦囊1 锦囊2 问题描述十六进制数是在程序设计时经常要使用到的一种整数的表示方式.它有0,1,2,3,4,5,6, ...
Java实现蓝桥杯算法训练数字三角形
算法训练数字三角形时间限制:1.0s 内存限制:256.0MB 问题描述 (图3.1-1)示出了一个数字三角形. 请编一个程序计算从顶至底的某处的一条路径,使该路径所经过的数字的总和最大. ●每 ...
Java实现 LeetCode 117 填充每个节点的下一个右侧节点指针 II（二）
117. 填充每个节点的下一个右侧节点指针 II 给定一个二叉树 struct Node { int val; Node *left; Node *right; Node *next; } 填充它的每 ...
java代码（8） ---guava字符串工具
guava字符串工具一.Joiner 根据指定的分隔符把字符串连接在一起,MapJoiner执行相同的操作,但是针对Map的key和value 分析源码可知:该类构造方法被private修饰,无法直 ...
0.大话Spring Cloud
天天说Spring cloud ,那到底它是什么? 定义它不是云计算解决方案它是一种微服务开发框架它是(快速构建分布式系统的通用模式的)工具集它基于Spring boot 构建开发它是云原生 ...
Centos7下源编译安装Postgresql 并设置开机自动启动postgresql.serivce 服务相关研究
编写开机自动启动服务脚本: # cat >> /usr/lib/systemd/system/postgresql.service >> EOF [Unit] Descript ...

入门大数据---Map/Reduce，Yarn是什么？

二.图形说明下Yarn的结构：

入门大数据---Map/Reduce，Yarn是什么？的更多相关文章

随机推荐

热门专题