spark基本概念整理

app

 基于spark的用户程序，包含了一个driver program和集群中多个executor

 driver和executor存在心跳机制确保存活
3 --conf spark.executor.instances=5 --conf spark.executor.cores=8 --conf spark.executor.memory=80G

rdd

 弹性分布式数据集

 只读的、分区(partition)记录的集合

 初代rdd处于血统的顶层，记录任务所需的数据的分区信息，每个分区数据的读取方法

 子代rdd不真正的存储信息，只记录血统信息

 真正的数据读取，应该是task具体被执行的时候，触发action操作的时候才发生的

算子

 分为transformation和action

 transformation: map filter flatMap union groupByKey reduceByKey sortByKey join

 action: reduce collect count first saveAsTextFile countByKey foreach

partition

 rdd存储机制类似hdfs，分布式存储

 hdfs被切分成多个block（默认128M）进行存储，rdd被切分为多个partition进行存储

 不同的partition可能在不同的节点上

 再spark读取hdfs的场景下，spark把hdfs的block读到内存就会抽象为spark的partition

 将RDD持久化到hdfs上，RDD的每个partition就会存成一个文件，如果文件小于128M，就可以理解为一个partition对应hdfs的一个block。反之，如果大于128M，就会被且分为多个block，这样，一个partition就会对应多个block。

job

 一个action算子触发一个job

 一个job中有好多的task，task是执行job的逻辑单元（猜测是根据partition划分任务）

 一个job根据是否有shuffle发生可以分为好多的stage

stage

 rdd中的依赖关系（血统）分为宽依赖和窄依赖

 窄依赖：父RDD的一个分区只被一个子RDD的分区使用，不产生shuffle，即父子关系为“一对一”或者“多对一”

 宽依赖：产生shuffle，父子关系为“一对多”或者“多对多”

 spark根据rdd之间的依赖关系形成DAG有向无环图，DAG提交给DAGScheduler，DAGScheduler会把DAG划分相互依赖的多个stage，划分stage的依据就是rdd之间的宽窄依赖

 遇到宽依赖就划分stage

 每个stage包含一个或多个task任务

 这些task以taskSet的形式提交给TaskScheduler运行

 stage是由一组并行的task组成

 stage切割规则：从后往前，遇到宽依赖就切割stage。
10 一个stage以外部文件或者shuffle结果作为开始，以产生shuffle或者生成最终结果时结束
11 猜测stage与TaskSet为一一对应的关系

task

 分为两种：shuffleMapTask和resultTask

2 默认按照partition进行拆分task

 --conf spark.default.parallelism=1000 设置task并行的数量

 个人理解以上各种概念都是抽象概念，即简单的理解为全部发生在driver端，只有task相关的信息会被序列化发送到executor去执行

参考链接：
https://www.cnblogs.com/jechedo/p/5732951.html
https://www.2cto.com/net/201802/719956.html
https://blog.csdn.net/fortuna_i/article/details/81170565
https://www.2cto.com/net/201712/703261.html
https://blog.csdn.net/zhangzeyuan56/article/details/80935034
https://www.jianshu.com/p/3e79db80c43c?from=timeline&isappinstalled=0

spark基本概念整理的更多相关文章

【知识点】业务连接服务（BCS）认证概念整理
业务连接服务(BCS)认证概念整理 I. BDC认证模型 BDC服务支持两种认证模型:信任的子系统,模拟和代理. 在信任的子系统模型中,中间层(通常是Web服务器)通过一个固定的身份来向后端服务器取得 ...
DNS，TCP，IP，HTTP，socket，Servlet概念整理
DNS,TCP,IP,HTTP,socket,Servlet概念整理常见的协议虽然很容易理解,但是看了之后过一段时间不看还是容易忘,笔记如下,比较零碎,勉强供各位复习.如有错误欢迎指正. D ...
【Spark深入学习-11】Spark基本概念和运行模式
----本节内容------- 1.大数据基础 1.1大数据平台基本框架 1.2学习大数据的基础 1.3学习Spark的Hadoop基础 2.Hadoop生态基本介绍 2.1Hadoop生态组件介绍 ...
IIS Web 服务器/ASP.NET 运行原理基本知识概念整理转
转http://www.cnblogs.com/loongsoft/p/7272830.html IIS Web 服务器/ASP.NET 运行原理基本知识概念整理前言: 记录 IIS 相 ...
Spark 基本概念 & 安装
1. Spark 基本概念 1.0 官网传送门 1.1 简介 Spark 是用于大规模数据处理的快如闪电的统一分析引擎. 1.2 速度 Spark 可以获得更高的性能,针对 batch 计算和流计算 ...
AIFramework基本概念整理
AIFramework基本概念整理本文介绍: 对天元 MegEngine 框架中的 Tensor, Operator, GradManager 等基本概念有一定的了解: 对深度学习中的前向传播.反向 ...
spark基本概念
Client:客户端进程,负责提交作业到Master. Application:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序, ...
西瓜书概念整理（chapter 1-2）
括号表示概念出现的其他页码, 如有兴趣协同整理,请到issue中认领章节完整版见我的github:ahangchen 觉得还不错的话可以点个star ^_^ 第一章绪论 Page2: 标记(lab ...
IIS Web 服务器/ASP.NET 运行原理基本知识概念整理
前言: 记录 IIS 相关的笔记还是从公司笔试考核题开始的,问 Application Pool 与 AppDomain 的区别? 促使我对进程池进了知识的学习,所以记录一下学习 ...

随机推荐

jvm内存模型、常见参数及调优
JVM内存结构: 主要分为:方法区.堆.虚拟机栈.本地方法栈.程序计数器,其中方法区和堆是线程共享的,其他的都是线程隔离的. 方法区: 主要存放类的信息.静态变量.常量.编译后的方法代码,永久代Per ...
基于Flask框架搭建视频网站的学习日志（一）
------------恢复内容开始------------ 基于Flask框架搭建视频网站的学习日志(一)2020/02/01 一.Flask环境搭建创建虚拟环境初次搭建虚拟环境搭建完虚拟环境 ...
爬虫之协程，selenium
1.什么是代理?代理和爬虫之间的关联是什么? 2.在requests的get和post方法常用的参数有哪些?分别有什么作用?(四个参数) - url headers parmas/data proxi ...
shiro 基础使用
引言相关内容 : https://blog.csdn.net/superyayaya/article/details/94408805 在web 中, 不同角色的用户, 具有不同的访问权限, 有的 ...
多线程之CountDownLatch的用法及原理笔记
前言-CountDownLatch是什么? CountDownLatch是具有synchronized机制的一个工具,目的是让一个或者多个线程等待,直到其他线程的一系列操作完成. CountDownL ...
react中，路由的使用。import {BrowserRouter,Switch,Route} from "react-router-dom";
import React from "react"; import ReactDom from "react-dom"; import {BrowserR ...
CAD制图系列之如何画内切圆
今天我将记录我们如何画一个大圆,里面均匀内切四个小圆具体步骤如下: 第一步:首先,先画一个十字架,用于作为轴第二步:以十字架交点为圆心,画一个半径为25的圆第三步:以中点为坐标画四十五度斜线,方 ...
web语义化这个坑
什么是wen语义化:https://www.zhihu.com/question/20455165 标签大全:http://www.w3school.com.cn/tags/tag_html.asp ...
最小生成树(二)prim
今天为大家带来最小生成树的第二种实现方式,比起kruskal来说,prim相对要复杂一些,在稠密图的表现中表现较好,最优情况下也是nlogn级别. 描述: 1).输入:一个加权连通图,其中顶点集合为V ...
asp.net core 3.x 身份验证-3cookie身份验证原理
概述上两篇(asp.net core 3.x 身份验证-1涉及到的概念.asp.net core 3.x 身份验证-2启动阶段的配置)介绍了身份验证相关概念以及启动阶段的配置,本篇以cookie身份 ...

spark基本概念整理

spark基本概念整理的更多相关文章

随机推荐

热门专题