[Spark]Spark、Yarn 入门

Spark在集群上的运行模式

链接：

http://spark.apache.org/docs/latest/cluster-overview.html Component章节

总结：

1 Each application gets its own executor processes，所以各application间是独立的。

2 spark可以使用多种 cluster manager，包括 Spark’s own standalone cluster manager, Mesos or YARN。

3 driver program 需要监听和接收its executors，所以driver对于各executers必须是网络可达的。

4 因为driver调度tasks on the cluster, 所以driver节点和worker节点最好在一个局域网中。

Spark重要概念

Driver：这是监督Spark作业或程序端到端执行的主程序。它与集群的资源管理器进行资源的协商，并将程序编排成尽可能小的数据本地并行编程单元。
Executors：在任何Spark任务中，可以有一个或多个executor，即执行由drive委派的较小任务的进程。 executor处理数据，最好是本地节点的，并将结果存储在内存和/或磁盘中。
Job：这是对任何一组数据执行的操作的集合。典型的word count job涉及从任意来源读取文本文件，然后分离(splitting)并聚合(aggregating)这些字。
Task：一个job可以拆分成更小的单位，以被称为task的孤立任务进行操作。每个task由executor在一个数据分区上执行。
DAG：Spark引擎中的任何Spark工作都由DAG的操作代表。 DAG按顺序表示Spark操作的逻辑执行。
Stages：Spark作业可以按逻辑划分为多个stage，每个stage代表一组具有相同的shuffle依赖关系的任务，即发生数据shuffle的任务。注：shuffle 是划分 DAG 中 stage 的标识,同时影响 Spark 执行速度的关键步骤.

Spark on Yarn

Yarn

yarn最基本的思想是分离资源管理和job调度/监管。
yarn三大组件：
- ResourceManager ：负责整个集群的资源管理和分配，是一个全局的资源管理系统
  - 两个核心组件：Scheduler 、ApplicationsManager。
  - 调度器负责根据熟悉的容量、队列等约束，将资源分配给各种正在运行的应用程序。调度器不执行应用程序状态的监视或跟踪。
  - 应用程序管理器负责接受作业提交，协商第一个容器以执行特定于应用程序的应用程序主机，并提供用于在失败时重新启动应用程序主容器的服务。每个应用程序管理器负责从调度程序协商适当的资源容器，跟踪其状态并监视进度。
- NodeManager：是每个节点上的资源和任务管理器，它是管理这台机器的代理，负责该节点程序的运行，以及该节点资源的管理和监控
- ApplicationMaster：用户提交的每个应用程序均包含一个 ApplicationMaster ，它可以运行在ResourceManager 以外的机器上。负责与 RM 调度器协商以获取资源（用 Container 表示）。
yarn 只提供运算资源的调度（用户程序向 yarn 申请资源，yarn 就负责分配资源）
yarn与运行的用户程序完全解耦，意味着yarn上可以运行各种类型的分布式运算程序，比如 mapreduce、storm，spark，

Spark on Yarn

链接：http://spark.apache.org/docs/latest/running-on-yarn.html
总结：两种模式：cluster、client

$ ./bin/spark-submit --class path.to.your.Class --master yarn --deploy-mode cluster [options] [app options]

$ ./bin/spark-shell --master yarn --deploy-mode client

参考链接

https://blog.csdn.net/qq_33624952/article/details/79341034

https://blog.csdn.net/minge_se/article/details/79137085

[Spark]Spark、Yarn 入门的更多相关文章

Spark on Yarn ｜ Spark，从入门到精通
?/ 为什么需要 Yarn? /? Yarn?的全称是?Yet Anther Resource Negotiator(另一种资源协商者).它作为 Hadoop?的一个组件,官方对它的定义是一个工作调度 ...
Spark中文指南(入门篇)-Spark编程模型(一)
前言本章将对Spark做一个简单的介绍,更多教程请参考:Spark教程本章知识点概括 Apache Spark简介 Spark的四种运行模式 Spark基于Standlone的运行流程 Spark ...
Spark on Yarn 集群运行要点
实验版本:spark-1.6.0-bin-hadoop2.6 本次实验主要是想在已有的Hadoop集群上使用Spark,无需过多配置 1.下载&解压到一台使用spark的机器上即可 2.修改配 ...
转载：Spark中文指南(入门篇)-Spark编程模型(一)
原文:https://www.cnblogs.com/miqi1992/p/5621268.html 前言本章将对Spark做一个简单的介绍,更多教程请参考:Spark教程本章知识点概括 Apac ...
Spark on YARN的部署
Spark on YARN的原理就是依靠yarn来调度Spark,比默认的Spark运行模式性能要好的多,前提是首先部署好hadoop HDFS并且运行在yarn上,然后就可以开始部署spark on ...
配置Spark on YARN集群内存
参考原文:http://blog.javachen.com/2015/06/09/memory-in-spark-on-yarn.html?utm_source=tuicool 运行文件有几个G大,默 ...
Spark on Yarn 学习(一)
最近看到明风的关于数据挖掘平台下实用Spark和Yarn来做推荐的PPT,感觉很赞,现在基于大数据和快速计算方面技术的发展很快,随着Apache基金会上发布的一个个项目,感觉真的新技术将会不断出现在大 ...
Spark on Yarn：任务提交参数配置
当在YARN上运行Spark作业,每个Spark executor作为一个YARN容器运行.Spark可以使得多个Tasks在同一个容器里面运行. 以下参数配置为例子: spark-submit -- ...
运行 Spark on YARN
运行 Spark on YARN Spark 0.6.0 以上的版本添加了在yarn上执行spark application的功能支持,并在之后的版本中持续的改进.关于本文的内容是翻译官网的内容,大 ...

随机推荐

一网打尽 Java 并发模型
本篇文章我们来探讨一下并发设计模型. 可以使用不同的并发模型来实现并发系统,并发模型说的是系统中的线程如何协作完成并发任务.不同的并发模型以不同的方式拆分任务,线程可以以不同的方式进行通信和协作. 并 ...
JVM对象分配
1.JVM中执行字节码new指令时: 1.1.分配内存分配策略有两种方式:(1)指针碰撞当JVM内存区域是连续的规整的,所有用过的内存都放在一边,空闲的内存都放在另外一边,中间放着指针作为分界点 ...
Python 判断ip是否属于网段
import IPy >>>'192.168.1.100' in IPy.IP('192.168.1.0/24') is True >>>'192.168.1.0/ ...
css设置图片宽高后，图片变模糊的问题
参考网站:https://segmentfault.com/q/1010000010391524 { image-rendering: -moz-crisp-edges; /* Firefox */ ...
第6篇scrum冲刺（5.26）
一.站立会议 1.照片 2.工作安排成员昨天已完成的工作今天的工作安排困难陈芝敏研究云开发,更新了登录模块,把用户的信息传入数据库了学习云开发,云函数调用以及数据的前后端传递遇 ...
简明python教程--读后感--推荐给python新手
原书名: A Byte of Python作者: Swaroop, C. H.译者: 沈洁元出版社: 未知优点 1. 讲解很详细,很基础,适合入门,对编译器也做了简单的介绍 2. ...
JS事件——添加、移除事件
element.addEventListener(event, function, useCapture) 方法用于向指定元素添加事件句柄. event: 必须.字符串,指定事件名.注意: 例使 ...
shell 三剑客之 awk
awk 是shell 里的常用命令,非常强大!
使用 Swift Package Manager 集成依赖库
本文首发于 Ficow Shen's Blog,原文地址: 使用 Swift Package Manager 集成依赖库. 内容概览前言添加依赖包在项目中使用依赖管理已导入的依赖在团 ...
我是怎样刚拿饿了么P7 offer，然后途虎一轮游的
今年初拿了个饿了么P7的offer,于此同时大家顺便看看我怎么途虎一轮游的.废话不多说,直接上题吧. 一面首先上来就是自我介绍,简单的说下自己的项目经验,涉及的技术栈之类的. 然后每一轮必问的问题来 ...

[Spark]Spark、Yarn 入门

Spark在集群上的运行模式

链接：

总结：

Spark重要概念

Spark on Yarn

Yarn

Spark on Yarn

参考链接

[Spark]Spark、Yarn 入门的更多相关文章

随机推荐

热门专题