spark简单总结—短小精悍

Spark是基于内存计算的大数据并行计算框架。因为其基于内存计算，较Hadoop中MapReduce计算框架具有更高的实时性，同时保证了高效容错性和可伸缩性。从2009年诞生于AMPLab到现在已经成为Apache顶级开源项目，并成功应用于商业集群中。学习Spark就需要了解其架构及运行机制。

Spark架构Spark架构使用了分布式计算中master-slave模型，master是集群中含有master进程的节点，slave是集群中含有worker进程的节点。
master作为整个集群的控制器，负责整个集群的正常运行。
worker相当于计算节点，接受主节点命令与状态汇报。
executor负责任务的执行。
client作为用户的客户端负责提交应用。
driver负责控制一个应用的执行。

下图为Spark架构图

<ignore_js_op>

Spark集群部署后，需要在主节点和从节点分别启动master进程和worker进程来控制集群。在一个应用执行中，driver是应用逻辑执行的起点，负责作业的调度，即Task任务的分发，而多个worker用来管理计算节点和创建executor并行处理任务。在执行阶段，driver会将task和其依赖的文件传递给worker机器，同时executor对相应数据分区的任务进行处理。

SparkContext：整个应用的上下文，控制应用的生命周期。
RDD： Spark的基本计算单元，一组RDD可执行的有向无环图RDD Graph。
DAGScheduler：根据作业构建基于Stage的DAG，并提交给Stage的TaskScheduler。
TaskScheduler：将任务分给executor执行。

SparkEnv：线程级别的上下文，存储运行时的重要组件的引用。

Spark的运行流程： Client提交应用，master找到一个worker启动driver，driver向master请求资源，之后将应用转化为RDD Graph，再由DAGScheduler将RDD Graph转换为stage的DAG提交给TaskScheduler，由TaskScheduler提交任务给executor。

spark简单总结—短小精悍的更多相关文章

Apache Spark简单介绍、安装及使用
Apache Spark简介 Apache Spark是一个高速的通用型计算引擎,用来实现分布式的大规模数据的处理任务. 分布式的处理方式可以使以前单台计算机面对大规模数据时处理不了的情况成为可能. ...
Spark（二） -- Spark简单介绍
spark是什么? spark开源的类Hadoop MapReduce的通用的并行计算框架 spark基于map reduce算法实现的分布式计算拥有Hadoop MapReduce所具有的优点但 ...
spark简单入门
本文由cmd markdown编辑,原始链接:https://www.zybuluo.com/jewes/note/35032 RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spa ...
Spark简单集群搭建
1．上传spark-2.2.0-bin-hadoop2.7.tgz安装包到/home/dtouding目录下 2．解压安装包到/bigdata/目录下,tar –zxvf spark-2.2.0- ...
spark简单文件配置
cd /usr/local/spark/spark-2.2.1-bin-hadoop2.7/conf cp slaves.template slaves cp spark-env.sh.templat ...
spark简单快速学习及打开UI界面---1
1.远程集群测试 import org.apache.spark.{SparkContext, SparkConf} import scala.math.random /** * 利用spark进行圆 ...
Spark简单介绍，Windows下安装Scala+Hadoop+Spark运行环境，集成到IDEA中
一.前言近几年大数据是异常的火爆,今天小编以java开发的身份来会会大数据,提高一下自己的层面! 大数据技术也是有很多: Hadoop Spark Flink 小编也只知道这些了,由于Hadoop, ...
大数据(13) - Spark的安装部署与简单使用
一 .Spark概述官网:http://spark.apache.org 1. 什么是spark Spark是一种快速.通用.可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校 ...
zhihu spark集群,书籍,论文
spark集群中的节点可以只处理自身独立数据库里的数据,然后汇总吗? 修改我将spark搭建在两台机器上,其中一台既是master又是slave,另一台是slave,两台机器上均装有独立的mongo ...

随机推荐

the difference __str__ and __repr__
First, let me reiterate the main points in Alex’s post: The default implementation is useless (it’s ...
函数和常用模块【day04】：内置函数（八）
一.常用内置函数 1.表格二.内置函数详情(1-10) 1.abs(x) 功能:取数的绝对值 1 2 >>> abs(-1) #取-1的绝对值 1 2.all(iterable) ...
5、JDBC-元信息
DatabaseMetaData:描述数据库的元数据对象获取所有数据库 import org.junit.jupiter.api.AfterEach; import org.junit.jupite ...
javascript 体验定时器
<script> // setInterval():循环定时器,循环执行 // setTimeout():炸弹定时器,只执行一次 //定义方法1:匿名函数 setInterval(func ...
使用paramiko远程执行命令、下发文件
写部署脚本时,难免涉及到一些远程执行命令或者传输文件. 之前一直使用sh库,调用sh.ssh远程执行一些命令,sh.scp传输文件,但是实际使用中还是比较麻烦的,光是模拟用户登陆这一点,还需要单独定义 ...
〖C语言学习笔记〗(一) HelloWorld
前言本文为c基础入门学习笔记正文 HelloWorld #include <stdio.h> //标准输出流 int main() //每种语言都有一个执行入口,main方法就是其一 ...
JS ——document、“或”、event（事件对象）
1.document <document>是所以HTML的最高节点,比<html>的等级还要高. <document>的第一个子节点是“!”——document.c ...
luogu P2516 [HAOI2010]最长公共子序列
传送门首先那个\(O(n^2)\)的dp都会吧,不会自己找博客或者问别人,或是去做模板题(误) 对以下内容不理解的,强势推荐flash的博客我们除了原来记录最长上升子序列的\(f_{i,j}\), ...
Sql server 查询某个时间段，分布有几周，几月和几日
1. 查询:以“周”为单位 --查询以下时间段内分别有几周 --时间段:“2017-09-01”到“2017-10-1” select number as wknum from master..spt ...
Django学习手册 - cookie / session
cookie """ cookie属性: obj.set_cookie(key,value,....) obj.set_signed_cookie(key,value,s ...

spark简单总结—短小精悍

spark简单总结—短小精悍的更多相关文章

随机推荐

热门专题