Spark RDD概念学习系列之Spark的算子的作用（十四）

Spark的算子的作用

　首先，关于spark算子的分类，详细见 http://www.cnblogs.com/zlslch/p/5723857.html

　　1、Transformation 变换/转换算子

　　1、map算子

　　2、flatMap算子

　　3、mapPartitions算子

　　4、union算子

　　5、cartesian算子

　　6、grouBy算子

　　7、filter算子

　　8、sample算子

　　9、cache算子　　

　　10、persist算子

　　11、mapValues算子

　　12、combineByKey算子

　　13、reduceByKey算子

　　14、join算子

　　2、Action 行动算子

　　1、foreach算子

　　2、saveAsTextFile算子

　　3、collect算子

　　4、count算

　　　简单地总结：

　　通过Action算子，触发Spark提交作业。

　　通过Cache算子，将数据缓存到内存。

　　　　　　　　　　　　　　　　　　　　　　图1 Spark算子和数据空间

　　上图描述了Spark的输入、运行转换、输出。在运行转换中通过算子对RDD进行转换。算子是RDD中定义的函数，可以对RDD中的数据进行转换和操作。
　　1）输入：在Spark程序运行中，数据从外部数据空间（如分布式存储：textFile读取HDFS等，parallelize方法输入Scala集合或数据）输入Spark，数据进入Spark运行时数据空间，转化为Spark中的数据块，通过BlockManager进行管理。
　　2）运行：在Spark数据输入形成RDD后便可以通过变换算子，如fliter等，对数据进行作并将RDD转化为新的RDD，通过Action算子，触发Spark提交作业。如果数据需要复用，可以通过Cache算子，将数据缓存到内存。
　　3）输出：程序运行结束数据会输出Spark运行时空间，存储到分布式存储中（如saveAsTextFile输出到HDFS），或Scala数据或集合中（collect输出到Scala集合，count返回Scala int型数据）。Spark的核心数据模型是RDD，但RDD是个抽象类，具体由各子类实现，如MappedRDD、 ShuffledRDD等子类。 Spark将常用的大数据操作都转化成为RDD的子类。

Spark RDD概念学习系列之Spark的算子的作用（十四）的更多相关文章

Spark RDD概念学习系列之Spark的算子的分类（十一）
Spark的算子的分类从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理. Transformat ...
Spark RDD概念学习系列之Spark的数据存储（十二）
Spark数据存储的核心是弹性分布式数据集(RDD). RDD可以被抽象地理解为一个大的数组(Array),但是这个数组是分布在集群上的. 逻辑上RDD的每个分区叫一个Partition. 在Spar ...
Spark RDD概念学习系列之Spark Hash Shuffle内幕彻底解密（二十）
本博文的主要内容: 1.Hash Shuffle彻底解密 2.Shuffle Pluggable解密 3.Sorted Shuffle解密 4.Shuffle性能优化一:到底什么是Shuffle? ...
Spark RDD概念学习系列之rdd持久化、广播、累加器（十八）
1.rdd持久化 2.广播 3.累加器 1.rdd持久化通过spark-shell,可以快速的验证我们的想法和操作! 启动hdfs集群 spark@SparkSingleNode:/usr/loca ...
Spark RDD概念学习系列之rdd的依赖关系彻底解密（十九）
本期内容: 1.RDD依赖关系的本质内幕 2.依赖关系下的数据流视图 3.经典的RDD依赖关系解析 4.RDD依赖关系源码内幕 1.RDD依赖关系的本质内幕由于RDD是粗粒度的操作数据集,每个Tra ...
Spark RDD概念学习系列之RDD的转换（十）
RDD的转换 Spark会根据用户提交的计算逻辑中的RDD的转换和动作来生成RDD之间的依赖关系,同时这个计算链也就生成了逻辑上的DAG.接下来以“Word Count”为例,详细描述这个DAG生成的 ...
Spark RDD概念学习系列之RDD的checkpoint（九）
RDD的检查点首先,要清楚.为什么spark要引入检查点机制?引入RDD的检查点? 答:如果缓存丢失了,则需要重新计算.如果计算特别复杂或者计算耗时特别多,那么缓存丢失对于整个Job的影响是不容 ...
Spark RDD概念学习系列之RDD的依赖关系（宽依赖和窄依赖）（三）
RDD的依赖关系? RDD和它依赖的parent RDD(s)的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency). 1)窄依赖指的是每 ...
Spark RDD概念学习系列之RDD的容错机制（十七）
RDD的容错机制 RDD实现了基于Lineage的容错机制.RDD的转换关系,构成了compute chain,可以把这个compute chain认为是RDD之间演化的Lineage.在部分计算结果 ...

随机推荐

利用PC创建一个无线接入点
win7 创建虚拟接入点,修改接入点名称和密码,然后存为bat文件,以管理员模式运行 netsh wlan set hostednetwork mode=allow ssid=APName key=p ...
NFC(1)NFC简介,3种模式
简介 NFC(Near Field Communication,近场通信),是一种数据传输技术.但与Wi-Fi.蓝牙.红外线等数据传输技术的一个主要差异就是有效距离一般不能超过4厘米. NFC支持如 ...
学习Hadoop的资料
1)Cygwin相关资料 (1)Cygwin上安装.启动ssh服务失败.ssh localhost失败的解决方案地址:http://blog.163.com/pwcrab/blog/static/1 ...
UVa 1646 (递推 JAVA大数) Edge Case
题意: 有n个点围成一圈,这n个点的匹配就是没有公共点的边集(这些边只能连接一圈中相邻的两点),求所有匹配的个数. 额,我不会分析..=_=|| 算了几个数,找找规律发现它满足斐波那契数列的递推关系, ...
WebServices生成发布过程及常见问题的解决方法
春夏秋冬走健康之路看四季养生网健康饮食养生问题母婴保健养生小常识 3.下一步,我们需要将Myservice文件夹拷贝到C:\Inetpub\wwwroot目录下(重要).如下图所示然后依次 ...
OOP——UML六种关系
UML定义的关系主要有:泛化.实现.依赖.关联.聚合.组合,这六种关系紧密程度依次加强,分别看一下泛化概念:泛化是一种一般与特殊.一般与具体之间关系的描述,具体描述建立在一般描述的基础之上,并对其 ...
linux lnmp编译安装
关闭SELINUX vi /etc/selinux/config #SELINUX=enforcing #注释掉 #SELINUXTYPE=targeted #注释掉 SELINUX=disabled ...
最好用的汉字转拼音代码PinYin4Objc（PinYin4J的objc版本）
转:https://github.com/kimziv/PinYin4Objc 最好用的汉字转拼音代码PinYin4Objc(PinYin4J的objc版本)(更新到v1.1.1,增加block异步处 ...
executeQuery,executeUpdate 和 execute 区别
http://www.360doc.com/content/14/0315/09/16068204_360719186.shtml http://i-feng.iteye.com/blog/17066 ...
hadoop2.0中无法启动datanode的问题
问题描述:在启动datanode进程时,能成功的启动:但用jps查看进程时,发现进程不存在,下面是在datanode日记文件的错误信息如下图的截屏所示: 主要原因:发生错误的原因:由于把data放在 ...

Spark RDD概念学习系列之Spark的算子的作用（十四）

Spark RDD概念学习系列之Spark的算子的作用（十四）的更多相关文章

随机推荐

热门专题