hadoop spark 总结

yarn 由,资源管理器rm，应用管理器am appMaster，节点管理器nm 组成！

图侵删

yarn 的设计，是为了代替hadoop 1.x的jobtracker 集中式一对多的资源管理「资源管理，任务监控，任务调度」，而yarn是分而治之，使全局资源管理器减轻压力。

rm 监控每一个applicationmaster就可以了，而每一个applicationmaster则监控自己node节点的所有任务「跟踪作业状态，进度，故障处理」，所以下降了压力。

rm资源管理器由调度器和应用管理者appmanager 功能模块组成。以调度策略分容量调度器和公平调度器。前者是集群吞吐量利用率最大化，后者基于内存公平的调度。

而应用管理者负责接收提交作业，申请，负责作业容器失败时的重启。

hdfs

1 fsimgae,editlog 都是序列化文件，启动时会加载到内存

记录目录结构和crud等操作

2块的概念，让其支持大规模存储，数据备份和管理。

map reduce VS rdd 技术

1 创建rdd对象；

2 sparkContext负责计算rdd之间的依赖关系，构建DAG;

3 DAGScheduler负责把DAG图分解成多个阶段，每个阶段包含多个任务，每个任务会被taskScheduler分发给各个工作节点worknode上的executor去执行。

「在DAG中进行反向解析，遇到宽依赖就断开，遇到窄依赖就把当前的rdd加入到当前的阶段中」

rdd的窄依赖与宽依赖，以父rdd只被一个子rdd依赖一对一，多对一，区分是窄依赖，否则是宽依赖！

因为这是内存块，如果是窄依赖，则可以完全打包分成一个线程并发执行！而如果被其它多个子rdd依赖，即宽依赖，就可能rdd数据会变化，

等等，需要等待之前的阶段完成，才能继续执行！

这就是DAG的设计，比mapreduce快的原因。mapreduce，的reduce业务需要等map 执行完才能开始，而没有并发！这是依赖的！

还有一个原因是，一个是内存，一个是磁盘io。

核心思想：分而治之！把大的数据集分片而小多个小数据集，对应多个map 并行处理。

结束后，以key value 中间结果，让reduce'减少' 整合，即具有相同的key 的结果分到同一个reduce任务！

整个过程，map输入文件，reduce任务处理结果都是保存到分布式文件系统中，而中间结果则保存到本地存储中，如磁盘。

只有当map处理全部结束后，reduce过程才能开始！

shuffle过程：map的结果，进行，分区，排序，合并等处理并交给reduce的过程，即上图。

map的shuffle：每个map把结果首先写入缓存，当满了就溢写到磁盘，并清空缓存。为了让不同的reduce方便拿数据，会分好区，map结果会排序合并等操作处理。

reduce的shuffe: 从多个map中领回属于自己处理那部分数据，然后对数据合并merge后给reduce处理。

从学习hadoop和spark 过程，yarn代替jobstracker，spark代替mapreduce，明白，原来高手们写代码，做产品架构设计一开始的时候，也不是完善完美的，

需要先做出来，在实际环境去调优，修正，发现问题，然后解决问题，不断完善甚至改掉原来的架构或思想。

hadoop spark 总结的更多相关文章

大数据项目实践：基于hadoop+spark+mongodb+mysql+c#开发医院临床知识库系统
一.前言从20世纪90年代数字化医院概念提出到至今的20多年时间,数字化医院(Digital Hospital)在国内各大医院飞速的普及推广发展,并取得骄人成绩.不但有数字化医院管理信息系统(HIS ...
哈，我自己翻译的小书，马上就完成了，是讲用python处理大数据框架hadoop,spark的
花了一些时间, 但感觉很值得. Big Data, MapReduce, Hadoop, and Spark with Python Master Big Data Analytics and Dat ...
Hadoop+Spark:集群环境搭建
环境准备: 在虚拟机下,大家三台Linux ubuntu 14.04 server x64 系统(下载地址:http://releases.ubuntu.com/14.04.2/ubuntu-14.0 ...
大数据平台搭建（hadoop+spark）
大数据平台搭建(hadoop+spark) 一.基本信息 1. 服务器基本信息主机名 ip地址安装服务 spark-master 172.16.200.81 jdk.hadoop.spark.sc ...
java+hadoop+spark+hbase+scala+kafka+zookeeper配置环境变量记录备忘
java+hadoop+spark+hbase+scala 在/etc/profile 下面加上如下环境变量 export JAVA_HOME=/usr/java/jdk1.8.0_102 expor ...
hadoop+spark+mongodb+mysql+c#
一.前言从20世纪90年代数字化医院概念提出到至今的20多年时间,数字化医院(Digital Hospital)在国内各大医院飞速的普及推广发展,并取得骄人成绩.不但有数字化医院管理信息系统(HIS ...
Hadoop Spark 集群简便安装总结
本人实际安装经验,目的是为以后高速安装.仅供自己參考. 一.Hadoop 1.操作系统一如既往:①setup关掉防火墙.②vi /etc/sysconfig/selinux,改SELINUX=disa ...
大数据学习系列之六 ----- Hadoop+Spark环境搭建
引言在上一篇中大数据学习系列之五 ----- Hive整合HBase图文详解 : http://www.panchengming.com/2017/12/18/pancm62/ 中使用Hive整合 ...
大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建图文详解
引言在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...
大数据计算框架Hadoop, Spark和MPI
转自:https://www.cnblogs.com/reed/p/7730338.html 今天做题,其中一道是请简要描述一下Hadoop, Spark, MPI三种计算框架的特点以及分别适用于什 ...

随机推荐

nyoj_102_次方求模_201308221547
次方求模时间限制:1000 ms | 内存限制:65535 KB 难度:3描述求a的b次方对c取余的值输入第一行输入一个整数n表示测试数据的组数(n<100)每组测试只有一行,其中有三 ...
Openfire：通过Servlet群发消息
在Openfire中自带有Broadcase插件,可以让我们群发消息给全部用户或者组.不过如果是我们通过Servlet来实现这一功能,那么是能够增加一定的灵活性的.具体做法直接看Demo代码: pub ...
cocos2d js ClippingNode 制作标题闪亮特效
1.效果图: 之前在<Android 高仿 IOS7 IPhone 解锁 Slide To Unlock>中制作了文字上闪亮移动的效果,这次我们来看下怎样在cocos2d js 中做出类似 ...
3.CCFadeOutTRTiles，部落格效果，跳动的方块特效，3D瓷砖晃动特效，破碎的3D瓷砖特效，瓷砖洗牌特效，分多行消失特效，分多列消失特效
1 TiledGrid3D //TiledGrid3D //CCFadeOutTRTiles * action = CCFadeOutTRTiles::create(2, CCSize(20,2 ...
一步步玩pcDuino3--mmc下的bootloader
pcDuino3下支持mmc启动.官方的Uboot是採用SPL框架实现的,由于内部的SRAM空间达到32K,我们全然能够在这32K空间内编写一个完整可用小巧的bootloader来完毕引导Linux ...
Android入门之文件系统操作（一）简单的文件浏览器
版权声明:本文为博主原创文章,未经博主允许不得转载. import java.io.File; import java.util.*; import android.app.Activit ...
EJB是什么鸟东西？
到底EJB是什么到底EJB是什么?被口口相传的神神秘秘的,百度一番,总觉得没有讲清楚的,仍觉得一头雾水.百度了很久,也从网络的文章的只言片语中,渐渐有了头绪. 用通俗话说,EJB就是:"把 ...
javaweb 课程设计编码和设计文档
企业办公软件设计文档 1引言 1.1编写目的 OA办公自动化系统详细设计是设计的第三个阶段,这个阶段的主要任务是在OA办公自动化系统概要设计书基础上,对概要设计中产生的功能模块进行过程描述,设计功能模 ...
mvc.global.asax事件
1.global.asax文件概述 global.asax这个文件包含全局应用程序事件的事件处理程序.它响应应用程序级别和会话级别事件的代码. 运行时, Global.asax 将被编译成一个动态生成 ...
django-2的路由层（URLconf）
URL配置(URLconf)就像Django 所支撑网站的目录.它的本质是URL与要为该URL调用的视图函数之间的映射表:你就是以这种方式告诉Django,对于客户端发来的某个URL调用哪一段逻辑代码 ...

hadoop spark 总结

hadoop spark 总结的更多相关文章

随机推荐

热门专题