Spark 概念学习系列之从spark架构中透视job（十六）

【Spark 概念学习系列之从spark架构中透视job（十六）】的更多相关文章

Spark 概念学习系列之从spark架构中透视job（十六）

本博文的主要内容如下: 1.通过案例观察Spark架构 2.手动绘制Spark内部架构 3.Spark Job的逻辑视图解析 4.Spark Job的物理视图解析 1.通过案例观察Spark架构 spark-shell中,默认情况下,没有任何的Job. 从Master角度讲: 1.管理CPU.MEM等资源(也考虑网络) 2.接收Driver端提交作业的请求,并为其分配资源(APPid等) 注:spark默认是粗粒度,即spark作业提交的时候就会为我们作业分配资源,后续运行的过程中一般使用…

Spark RDD概念学习系列之细谈RDD的弹性（十六）

细谈RDD的弹性所谓,弹性,是指在内存不够时可以与磁盘进行交换. 弹性之一:自动的进行内存和磁盘数据存储的切换弹性之二:基于Lineage(血缘)的高效容错弹性之三:Task如果失败会自动进行特定次数的重试弹性之四:Stage如果失败会自动进行特定次数的重试,而且只会计算失败的分片弹性之五:checkpoint和persist Checkpoint是比较重量级的操作,RDD操作,一般每次都会产生新的RDD,除了最后一个action操作触发作业以外.但是有时候,链条比较长或者计…

Hadoop概念学习系列之常见的分布式文件系统（二十六）

常见的分布式文件系统有,GFS.HDFS.Lustre .Ceph .GridFS .mogileFS.TFS.FastDFS等.各自适用于不同的领域.它们都不是系统级的分布式文件系统,而是应用级的分布式文件存储服务. Google学术论文,这是众多分布式文件系统的起源==================================Google File System(大规模分散文件系统)MapReduce (大规模分散FrameWork)BigTable(大规模分散数据库)Chubby(分…

Hadoop HBase概念学习系列之HBase里的时间戳（二十六）

HBase集群要求每个节点的时间必须同步.HBase对于节点的时间扭曲(time skew)容忍度很低(这和HDFS是不一样的). 这主要是因为HBase需要使用系统时间来产生时间戳.如果系统时间不同步的话,那么每个节点产生的时间戳差异就会比较大,这就违背了时间戳设计的初衷. HBase对于节点间的时间扭曲的容忍度在秒级,即如果HBase发现节点间的时间差异已经有几十秒时会拒绝启动.节点间时间同步的方法是建立NTP服务器,然后让所有的节点和NTP服务器同步. hadoop-2.6.0.tar.g…

Spark 概念学习系列之从物理执行的角度透视spark Job（十七）

本博文主要内容: 1.再次思考pipeline 2.窄依赖物理执行内幕 3.宽依赖物理执行内幕 4.Job提交流程一:再次思考pipeline 即使采用pipeline的方式,函数f对依赖的RDD中的数据的操作也会有2种方式: 1:f(record), f作用于集合的每一条记录,每次只作用于一条记录. 2.f(redord), f一次性作用于集合的全部数据. Spark采用的是第一种方式,原因: 1.spark无需等待,可以最大化的使用集群计算资源. 2.减少OOM的发生 3.最大化的有利于…

Spark 概念学习系列之Spark基本概念和模型（十八）

打好基础,别小瞧它! spark的运行模式多种多样,在单机上既可以本地模式运行,也可以伪分布模式运行.而当以分布式的方式在集群中运行时.底层的资源调度可以使用Mesos或者Yarn,也可使用spark自带的Standalone模式. 1.Application : Application的概念和Hadoop MapReduce中的类似,都是用户编写的Spark应用程序,其中包含了一个Driver功能的代码和分布在集群中多个节点上运行的Executor代码. 2.Driver : 使用Driver…

Spark 概念学习系列之Spark 多语言编程

不多说,直接上干货! Spark 同时支持Scala.Python.Java 三种应用程序API编程接口和编程方式, 考虑到大数据处理的特性,一般会优先使用Scala进行编程,其次是Python,最后才是Java. 无论使用Scala.Python还是Java编程程序都需要遵循Spark 编程模型,考虑对Spark平台支持的有力程度来说,Spark 对Scala语言的支持是最好的,因为它有最丰富的和最易用的编程接口. Spark 多语言编程的简介 Spark 目前支持Scala.Python.J…