spark复习总结02

1.spark执行原理图

　spark程序启动后创建sparkContext作为程序的入口，sparkContext可以与不同类的集群资源管理器（Cluster Manager）进行通信，从而获得程序运行所需要的资源，获取到集群中其他工作节点（worker node）上对应的Executors,之后sparkContext将任务分发给executor进行执行。

　　1) 构建Spark Application运行环境

　　　　在Driver Program中新建SparkContext（包含SparkContext的程序称为Driver Program）

　　2) SparkContext向资源管理器申请运行Executor资源，并启动Executor，Executor向SparkContext申请task

　　3）SparkContext获得Executor后，Application代码会被发送到各个executor上

　　4）SparkContext构建RDD DAG图，将RDD DAG图分解为Stage DAG图，将stage提交给TaskScheduler,最后TaskSecheduler将Task发送给Executor执行

　　5） Task在Executor上执行，执行完毕后释放所有资源

2.Driver的运行方式（提交的部署模式）：运行在worker节点上（集群模式）和运行在客户端上（客户端模式）

　　2.1 Driver运行在worker节点上

bin/spark-submit \
--master spark://hadoop-senior.ibeifeng.com:7077 \
--deploy-mode cluster\
/opt/datas/jars/SparkApp.jar

　　　　客户端提交作业给Master，Master让一个worker启动Driver，其余的worker启动Executor，Executor启动后向Driver进行注册；

　　　　Dirver启动后会创建DAGScheduler,Executor启动后会创建TaskScheduler;

　　　　DAGScheduler将作业分解为一到多个Stage，每个Stage根据RDD的partition个数决定了Task的个数（TaskSet），然后将生产的task set 放入到TaskScheduler中,然后TaskScheduler将Task分配的不同的Executor中执行，所有的Stage执行完成作业结束。

　　2.2 Driver运行在client上（此处的client表示提交作业的那台机器）

bin/spark-submit \

--master spark://hadoop-senior.ibeifeng.com:7077 \

--deploy-mode client \

/opt/datas/jars/SparkApp.jar

　　　　客户端之间启动程序，启动Driver相关工作：DAGScheduler和Master，客户端的Driver和worker向Master进行注册；

　　　　Master让worker节点启动Executor，并向Driver进行注册；

　　　　Driver的DAGScheduler将作业分解为相应的Stage，每个Stage包含的Task分配给TaskScheduler,TaskScheduler将task分配到不同的Executor执行，所有的Stage执行完成后作业结束。

2.窄依赖和宽依赖

　　窄依赖：每个父RDD的Partition最多被子RDD的一个Partition所使用。

　　宽依赖：每个父RDD的Partition会被多个子RDD的Partition所使用。

3.Spark四大特性

　　1）快速的：在内存中进行计算以及DAG图

　　2）通用的：包括批处理，流处理，图像计算等

　　3）简单的：Scale，Java、Python

　　4）可以运行在任何地方：hdfs，hive，hbase，yarn等

4.RDD的五大特性

　　1）A list of partition

　　　　一系列的分片

　　2）A function for computing each split

　　　　在每一个分片上都有一个函数去迭代/执行/计算它

　　3）A list of dependences on other RDDS

　　　　一系列的依赖：RDDa转换为RDDb,RDDb转换为RDDc,那么RDDc就依赖于RDDb，RDDb依赖于RDDa

　　4）Optionally,a partitioner for key-value RDDs

　　　　对于key-value的RDD,可指定一个parttitioner(分区函数)，来告诉它如何分区，默认采用的是hash分区，常有：hash,range

　　5) Optionally,a list of preferred locations to compute each split on

　　　　处理RDD split进行计算时，split数据在哪里，我们尽量在那台机器上进行计算（移动计算而不是移动数据）

5.spark历史日志监控配置

　　1）服务端配置（conf/spark-env.sh）

SPARK_HISTORY_OPTS=-Dspark.history.fs.logDirectory=hdfs://hadoop-senior.ibeifeng.com:8020/user/beifeng/spark/eventLogs

　　2 ) 客户端配置（conf/spark-defaults.conf）

spark.eventLog.enabled           true

spark.eventLog.dir               hdfs://hadoop-senior.ibeifeng.com:8020/user/beifeng/spark/eventLogs

　　3 ) 启动历史服务器

sbin/start-history-server.sh

spark复习总结02的更多相关文章

【Spark 深入学习 02】- 我是一个凶残的spark
学一门新鲜的技术,其实过程都是相似的,先学基本的原理和概念,再学怎么使用,最后深究这技术是怎么实现的,所以本章节就带你认识认识spark长什么样的,帅不帅,时髦不时髦(这货的基本概念和原理),接着了解 ...
spark复习笔记(1)
使用spark实现work count ---------------------------------------------------- (1)用sc.textFile(" &quo ...
spark复习笔记(7):sparkstreaming
一.介绍 1.sparkStreaming是核心模块Spark API的扩展,具有可伸缩,高吞吐量以及容错的实时数据流处理等.数据可以从许多来源(如Kafka,Flume,Kinesis或TCP套接字 ...
spark复习笔记(7):sparkSQL
一.saprkSQL模块,使用类sql的方式访问Hadoop,实现mr计算,底层使用的是rdd 1.hive //hadoop mr sql 2.phenoix //hbase上构建sql的交互过 ...
spark复习笔记(6):RDD持久化
在spark中最重要的功能之一是跨操作在内存中持久化数据集.当你持久化一个RDD的时候,每个节点都存放了一个它在内存中计算的一个分区,并在该数据集的其他操作中进行重用,持久化一个RDD的时候,节点上的 ...
spark复习笔记(6):数据倾斜
一.数据倾斜 spark数据倾斜,map阶段对key进行重新划分.大量的数据在经过hash计算之后,进入到相同的分区中,zao
spark复习笔记(4):RDD变换
一.RDD变换 1.返回执行新的rdd的指针,在rdd之间创建依赖关系.每个rdd都有一个计算函数和指向父rdd的指针 Spark是惰性的,因此除非调用某个转换或动作,否则不会执行任何操作,否则将触发 ...
spark复习笔记(5):API分析
0.spark是基于hadoop的mr模型,扩展了MR,高效实用MR模型,内存型集群计算,提高了app处理速度. 1.特点:(1)在内存中存储中间结果 (2)支持多种语言:java scala pyt ...
spark复习笔记(4):spark脚本分析
1.[start-all.sh] #!/usr/bin/env bash # # Licensed to the Apache Software Foundation (ASF) under one ...

随机推荐

jvm学习（1）总体篇
1.1 Java体系构成 JAVA体系包括四个方面: JAVA编程语言,编辑的文件为Java源代码,文件格式为(.java): JAVA类文件格式,编译后文件格式为(.class): JA ...
控制 if 语句 while循环 break continue
if 语句的语法: 1. if 条件 : #引号是将条件与结果分开代码块 # 四个空格,或者一个tab键,这个是告诉程序满足这个条件的说明: 当条件成立的时候(True), 代码块会被执行 ...
Linux系统分辨率设置
linux 设置分辨率如果你需要在linux上设置显示屏的分辨率,分两种情况:分辨率模式存在与分辨率模式不存在,具体如下. 1,分辨率模式已存在 1)如何查询是否存在: 图形界面:在System S ...
基于mybatis拦截器分表实现
1.拦截器简介 MyBatis提供了一种插件(plugin)的功能,但其实这是拦截器功能.基于这个拦截器我们可以选择在这些被拦截的方法执行前后加上某些逻辑或者在执行这些被拦截的方法时执行自己的逻辑. ...
用私有构造器或者枚举类型强化SingleTon（单例）属性
单例(singleton)就是一个只实例化一次的类.使类成为单例可能会使它的测试变得困难,因为除非它实现了作为其类型的接口,否则不可能用模拟实现来代替这个单例.下面是几种实现单例的方法: 1.共有静态 ...
django 在保存数据前进行数据校验
我们想在保存用户进入数据库之前做一些字段的校验,先贴出代码: import re from django.db import models from django.db.models.signals ...
关于python接口测试connect error
接口测试里如果报错出现 socket.gaierror: [Errno 8] nodename nor servname provided, or not known 或者 urllib3.excep ...
Jpa动态多表if多条件联合查询，并对查询结果进行分页
public Page<Map<String, Object>> resourceList(TeachingInfo teachingInfo, Pageable pageab ...
leetcode骚题目列表
114,二叉树原地前序遍历转链表令人不舒服的空间限制 4,O(logn)寻找两个数组的中位数感觉诡异又很其妙的二分 279,判断一个数可拆成最少几个平方数的和有O(n)解法,如果把sqrt视为O ...
html生成pdf
/** * 生成pdf * @param string $html 需要生成的内容 */ function pdf($html='<h1 style="color:red"& ...

spark复习总结02

spark复习总结02的更多相关文章

随机推荐

热门专题