Spark操作算子本质-RDD的容错

Spark操作算子本质-RDD的容错
spark模式
1.standalone
master 资源调度
worker
2.yarn
resourcemanager 资源调度
nodemanager
在一个集群中只能有一个资源调度，如果有两个资源调度的话，master和resourcemanager之间是不通信的，master分配某个资源，resourcemanager是不知道的
一个application对应一个driver，driver是用来分配任务的

流程示意
分布式文件系统（File system）加载数据集
transformations延迟执行针对RDD的操作
Action触发执行（生成并提交job）

默认缓存策略是MEMORY_ONLY
OFF_HEAP:不使用Java堆内存，使用tachyon，但是需要spark和tachyon做对接（百度用的多，tachyon是国产）

转换算子操作算子

transformations：延时执行，从一个RDD到另一个RDD
map：通过匿名函数将RDD中T类型的数据转换为U类型的数据
filter：通过匿名函数判断某个字段返回true/false，true保留，false过滤，RDD中的数据类型不变，但是有可能会被过滤掉
flatMap:：通过匿名函数将RDD中的T类型的每条数据转换为类型为U的序列集合，先做一步Map操作，再做一步flat操作，压扁
sample：传一个Float进来，随机采样
groupByKey：按照key分组，把key相同的值聚合在一起，每个key对应一个序列集合,有个shuffle，上游的partition根据某些规则将数据分到下游不同的partition中去
reduceByKey：对键值对操作，消除重复的key，相邻元素依次进行操作，操作产生的结果类型不可变
union：合并两个RDD，RDD类型必须一致
join：传入两个键值对的RDD，将两个RDD相同key的value值整合到一起，并进行一个排列组合
cogroup：传入两个键值对的RDD，将两个RDD相同key的value放到两个序列集合中
crossProduct（）：将两个RDD封装为一个RDD，一个RDD的值为key，一个为value
mapValues：RDD中元素为键值对的，对每个元素进行操作，但是只对value进行操作。
sort：对某个值进行排序
partitionBy：可以传一个自定义的partitioner，如果RDD为键值对，就可以传一个新的partitioner进行分区
actions：立即执行，从RDD到最终结果
count()：返回RDD中元素个数
collect()：慎用，把RDD中的元素全部返回，放入序列集合中
reduce()：把RDD中的元素依次进行操作，生成最后的一个值
lookup()：根据传入的key在RDD中找对应的值，放入序列集合中
save()：对操作结果做存储，比如存入HDFS,本地文件系统

transformations和actions的本质区别
transformations是从一个RDD到另一个RDD
actions是从一个RDD到最终结果
现象：碰到action操作就封装一个job执行

checkpoint
Lineage过长
对RDD做doCheckpoint()
SparkContext.setCheckPointDir() 需要设置磁盘路径，通常是HDFS中。
设置数据库路径
把RDD存到磁盘中去，即使内存中的缓存被清掉，也可以去磁盘中读取，计算效率更高。
坏处：占用DiskIO

如果RDD的代价特别大，除了普通缓存，还可以使用checkpoint，存入磁盘，RDD复用时会先找cache() persist(),再找checkpoint中的

Spark操作算子本质-RDD的容错的更多相关文章

Spark RDD概念学习系列之Spark的算子的分类（十一）
Spark的算子的分类从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理. Transformat ...
Spark编程模型及RDD操作
转载自:http://blog.csdn.net/liuwenbo0920/article/details/45243775 1. Spark中的基本概念在Spark中,有下面的基本概念.Appli ...
Spark性能调优-RDD算子调优篇（深度好文，面试常问，建议收藏）
RDD算子调优不废话,直接进入正题! 1. RDD复用在对RDD进行算子时,要避免相同的算子和计算逻辑之下对RDD进行重复的计算,如下图所示: 对上图中的RDD计算架构进行修改,得到如下图所示的优 ...
Spark RDD概念学习系列之Spark的算子的作用（十四）
Spark的算子的作用首先,关于spark算子的分类,详细见 http://www.cnblogs.com/zlslch/p/5723857.html 1.Transformation 变换/转换算 ...
Spark RDD概念学习系列之RDD的容错机制（十七）
RDD的容错机制 RDD实现了基于Lineage的容错机制.RDD的转换关系,构成了compute chain,可以把这个compute chain认为是RDD之间演化的Lineage.在部分计算结果 ...
Spark 键值对RDD操作
键值对的RDD操作与基本RDD操作一样,只是操作的元素由基本类型改为二元组. 概述键值对RDD是Spark操作中最常用的RDD,它是很多程序的构成要素,因为他们提供了并行操作各个键或跨界点重新进行数 ...
Spark（三）RDD与广播变量、累加器
一.RDD的概述 1.1 什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可 ...
Spark常用算子-KeyValue数据类型的算子
package com.test; import java.util.ArrayList; import java.util.List; import java.util.Map; import or ...
spark第一篇：RDD Programming Guide
预览在高层次上,每一个Spark应用(application)都包含一个驱动程序(driver program),该程序运行用户的主函数(main function),并在集群上执行各种并行操作. ...

随机推荐

win7-vs2012下安装.net frame work 的过程
第一, vs和.net的对应关系大致如下 vs2010----.net framework 4.0 vs2012----.net framework 4.5 vs2015----.net frame ...
quartz项目中的运用
下面是之前项目中quartz的运用,我将它梳理出来. 测试类: public class OrdExpireTaskMain { public static void main(String[] ar ...
spark 的一些常用函数 filter，map，flatMap，lookup ，reduce，groupByKey
定义不带参数也不带返回值的函数(def :定义函数的关键字 printz:方法名称) scala> def printz = print("scala hello") ...
oracle中的not in和not exists注意事项
NOT IN:不包括空值 NOT EXISTS:包括空值
iOS 常用图尺寸汇总
iCON 准备一张1024x1024尺寸的图,打开链接 http://www.atool.org/ios_logo.php 在线批量生成各种尺寸的图片启动图LaunchImage 640x960 2 ...
PHP性能之语言性能优化说明
PHP语言性能优化优化啥? 如下图所示,PHP直接执行的是opcode,所以我们尽量减少扫描和转码解析. 这是我们第一个优化点,尽量使用PHP内置的函数代替我们的代码来实现同样的功能. 和我们自己写的 ...
Java并发：等待事件发生后所有线程继续执行
等待某一个指定的事件发生后,才让多个等待的线程继续执行,以下是我能想到的几个方法,欢迎讨论.指正. 1.闭锁CountDownLatch 闭锁是典型的等待事件发生的同步工具类,将闭锁的初始值设置1,所 ...
windows上mysql安装
1. 下载MySQL Community Server 5.7.14 Index of /MySQL/Downloads/MySQL-Cluster-7.1 2. 解压MySQL压缩包安装路径:E: ...
GET，POST
HTTPHTTP(即超文本传输协议)是现代网络中最常见和常用的协议之一,设计它的目的是保证客户机和服务器之间的通信.HTTP 的工作方式是客户端与服务器之间的 “请求-响应” 协议.客户端可以是 We ...
O-Bomb(数位dp)
Bomb Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 131072/65536 K (Java/Others)Total Submi ...

Spark操作算子本质-RDD的容错

Spark操作算子本质-RDD的容错的更多相关文章

随机推荐

热门专题