（一）spark算子分为3大类

value类型的算子

处理数据类型为value型的算子（也就是这个算子只处理数据类型为value的数据），可以根据rdd的输入分区与输出分区的关系分为以下几个类型

（1）输入分区与输出分区一对一型

map型：对rdd的每个数据项，通过用户自定义的函数映射转换成一个新的rdd

上面4个方框表示4个rdd分区，当第一个方框中的rdd经过用户自定义的map函数从v1映射为v,1.这种操作只有等到action算子触发后，这个函数才会和其他的函数在一个stage中对数据进行运算

flagMap型：将原来的rdd通过用户自定义的函数，转化为一个新的rdd，然后再将每个新生成rdd中集合的每个元素合并成一个集合

外部的大方框可以看做是一个rdd的分区，里面的小方框看做是rdd中的集合，小方框中的集合作为rdd的一个数据项，通过用户自定义的函数进行拆散，然后在对每个集合中的元素合并成一个集合

mapPartition型：通过这个函数可以每个分区的迭代器，这个迭代器可以可以对分区中的每个集合进行操作

上图中的每一个方框代表一个rdd分区，这个分区通过用户自定义的函数对每个分区中的数据项进行过滤，将过滤后的数据转换为一个新的rdd

glom：是将rdd中的数据项转换为一个数组

（2）

输入分区与输出分区为多对一型

union型：在使用union函数的时候要保证要合并的两个rdd数据类型保证一致，并且返回rdd的数据类型和被合并的rdd类型一致，在union的时候数据数据是不去重的，所有的元素都会保留，如果想去重可以使用distinct()函数

cartesian型：就是对两个rdd对笛卡尔积操作

（3）

输入分区与输出分区为多对多型

groupby型：将元素通过函数生成对应的key，然后再对key进行分组（将相同的key分为一组），groupbykey（key）对key进行分组，其中key就决定了分区的个数和分区的函数，和并行化的个数

（4）

输出分区为输入分区的子集型

filter型：filter的功能是对rdd中的元素进行过滤，每个元素都应用于用户自定义的函数，返回值为true得以保留，false则会过滤掉

distinct型：对rdd中相同的元素进行去重

subtract型：subtract是对rdd进行减操作，比如过滤rdd1和rdd2 中有交集的元素

sample型：sample会对rdd的所有元素进行采样，获取元素的子集。用户可以设置是否有放回的抽样，百分比，随机种子，从而决定采样的方式

上图每一个方框是一个rdd分区，对rdd元素进行50%的采样。

takeSample型：takeSample采样不是通过相对的比例采样，而是通过设定的个数进行采样，采样返回的结果也不是rdd，而是对采样后的数据进行collect(),返回的结果集合是单击的数组。

（5）

还有一种输入分区与输出分区一对一型:cache型，cache分区对rdd的分区进行缓存

cache型：cache就是将磁盘上的数据加载到内存里，相当于presiste（momory_only）函数功能

presiste型：presiste会将数据缓存操作，至于缓存到哪里由storageLevel的枚举值来确定：

storageLevel：MEMONRY(内存）,DIS（磁盘）,SER（该数据是否要序列化存储）

persist（newLevel:StorageLevel） //可你缓存的模式

（一）spark算子分为3大类的更多相关文章

（三）spark算子分为3大类
ation算子通过sparkContext执行提交作业的runJob,触发rdd的DAG执行 (foreach) foreach(f) 会对rdd中的每个函数进行f操作,下面的f操作就是打印输出没有元 ...
（二）spark算子分为3大类
transgormation的算子对key-value类型的数据有三种: (1)输入与输出为一对一关系 mapValue();针对key-value类型的数据并只对其中的value进行操作,不对 ...
dll的加载方式主要分为两大类，显式和隐式链接
之前简单写过如何创建lib和dll文件及简单的使用(http://blog.csdn.net/betabin/article/details/7239200).现在先再深入点写写dll的加载方式. d ...
CSS的选择器分为两大类
CSS的选择器分为两大类:基本选择题和扩展选择器. 基本选择器: 标签选择器:针对一类标签 ID选择器:针对某一个特定的标签使用类选择器:针对你想要的所有标签使用通用选择器(通配符):针对所有的标 ...
03 Java的数据类型分为两大类类型转换八大基本类型
数据类型强类型语言:要求变量的使用要严格符合规定,所有变量都必须先定义后才能使用 Java的数据类型分为两大类基本类型(primitive type) 数值类型整数类型 byte占1个字节范围: ...
java的数据类型分为两大类
java的数据类型分为两大类基本类型(primitive type) 数据类型整数类型 byte占一个字节范围:-128-127 short占两个字节范围:-32768-32767 int占四个字 ...
C#的设计模式分为3大类23种
创建型: 1. 单件模式(Singleton Pattern) 2. 抽象工厂(Abstract Factory) 3. 建造者模式(Builder) 4. 工厂方法模式(Factory Method ...
hook 9大类
HOOK技术主要分为两大类,一是内核层HOOK,一是用户层HOOK. 用户层HOOK也就是在ring3环境下hook kenerl32.dll.User3.dll.Gui32.dll.Advapi.d ...
【Java知识点专项练习】之数据类型两大类
Java的数据类型分为两大类:基本类型和引用类型: 基本类型只能保存一些常量数据,引用类型除了可以保存数据,还能提供操作这些数据的功能: 为了操作基本类型的数据,java也对它们进行了封装, 得到八个 ...

随机推荐

sharepoint 2013 和 office web apps server 2013集成
环境: 三台服务器系统:window 2008 R2server01: 192.168.10.162(office web app)server02: 192.168.10.163(AD)serv ...
JavaScript 函数调用的 this词法
函数调用时的this实际上是在函数被调用时发生绑定,它指向什么完全取决于函数在哪里被调用. 特例:当函数作为构造函数被调用时,即使用new 来构造一个新对象,会自动执行以下操作: [1]创建一个新对象 ...
KD-Tree复习笔记(BZOJ1941 & BZOJ2648 & BZOJ4066)
快一年了都没碰到什么必须用KDT的题目导致模板完全忘光了,重新复习了一下. K_Dimention_Tree是一种用来处理二维以上问题的数据结构(OI中一般都是二维),本质是二维启发式估价函数实现剪枝 ...
[BZOJ3237][AHOI2013]连通图(分治并查集)
3237: [Ahoi2013]连通图 Time Limit: 20 Sec Memory Limit: 512 MBSubmit: 1736 Solved: 655[Submit][Status ...
SQLServer To MySQL 解决方案
最近在忙一个项目,就不详写了.过两天不忙了把项目总结一下. 思路: Access作为桥梁 1.SQLServer To Access 2007 在access里直接导入 2.Use t ...
【java】java反射 Field类的研究使用
java反射 Field类的研究使用 user.getClass().getFields() 和 user.getClass().getDeclaredFields(); 的区别是什么?
VMware Server中虚拟机随宿主机自动启动
在options页面, 开启 Start Up and Shut Down Virtual Machines 这个选项. 保存退出. 打开 VMWare Server Console, 打开需要自动启 ...
跟着Sedgewick学算法(week 1 UnionFind)
发现笔记转过来,没有图的~~~~~~~~~~~悲剧,给出共享笔记链接 https://www.evernote.com/pub/yanbinliu/algorithm 很久之前就在coursera看到 ...
docer中运行crontab
1 安装 sudo apt-get install cron 2 启动 start cron 3 列出所有本机启动crontab任务 ls -l /etc/init.d 列出所有自建cron任务 ...
ASP.NET MVC学习---（七）Razor视图引擎语法
之前体验过razor视图引擎@符号的威力了吧~ 连我这个初学者都能感觉到确实省时省力方便快捷简直就是居家旅行*人*货必备之物啊(这里和谐两个字~) 那么现在就开始对razor的语法进一步介绍~ 1. ...

（一）spark算子 分为3大类

（一）spark算子 分为3大类的更多相关文章

随机推荐

热门专题

（一）spark算子分为3大类

（一）spark算子分为3大类的更多相关文章