常用RDD

只作为我个人笔记，没有过多解释

Transfor

map

filter　　filter之后，依然有三个分区，第二个分区为空，但不会消失

flatMap

reduceByKey

groupByKey()

sortByKey()

val pets = sc.parallelize(

    List((“cat”, 1), (“dog”, 1), (“cat”, 2))

)

pets.reduceByKey(_ + _) // => {(cat, 3), (dog, 1)}

pets.groupByKey() // => {(cat, Seq(1, 2)), (dog, Seq(1)}

pets.sortByKey() // => {(cat, 1), (cat, 2), (dog, 1)}

mapValues(_ + 1)　　mapvalues是忽略掉key，只把value进行操作

join　　RDD[(String, Int)].join（RDD[(String, Long)]） => RDD[(String, (Int, Long))]

　　　　join这两个rdd的value类型可以不一样，至于分区是根据hash来指定的

union

cogroup

用 cogroup 实现 join

sample()　　从数据集中采样

cartesian()　　求笛卡尔积

pipe()　　传入一个外部程序

coalesce(口莱斯)　　合并一个RDD的分区

rdd4 = rdd1 ++ rdd2 ++ rdd3

rdd4.coalesce(3)

rdd4.coalesce(3,true)

repartition　　合并分区　　rdd3.repartition（10）

并不是真的将分区合并，而是让一个task处理多个分区，如1k、10k、100k、1m、10m这五种文件，一共10w个，在hdfs上会有10w个block，取数据的时候会有10w个分区，同样有10w个task，这并不合适，如果能将这些分区合并，比如有10个task，每个task读1w个文件，速度会快很多，这个时候，有两种合并方式，coalesce和repartition

coalesce优点是简单粗暴，合并分区速度很快，缺点是很可能每个task所处理的数据不均匀。如果文件天生是比较均匀的，那coalesce合适

repartition优点是合并很均匀，用的是归并排序，缺点是计算开销比较大

举例，repartition合并的方法，10w个文件如何均匀的分成3个分区？

将每个文件均匀分成3分份，然后每一个分区从每个文件中拿一份

zip　　将两个RDD的元素一一映射，合在一起

Action

collect()

take(2)

count()

reduce

foreach(println)

常用RDD的更多相关文章

08、Spark常用RDD变换
08.Spark常用RDD变换 8.1 概述 Spark RDD内部提供了很多变换操作,可以使用对数据的各种处理.同时,针对KV类型的操作,对应的方法封装在PairRDDFunctions trait ...
04、常用RDD操作整理
常用Transformation 注:某些函数只有PairRDD只有,而普通的RDD则没有,比如gropuByKey.reduceByKey.sortByKey.join.cogroup等函数要根据K ...
Spark常用RDD操作总结
aggregate 函数原型:aggregate(zeroValue, seqOp, combOp) seqOp相当于Map combOp相当于Reduce zeroValue是seqOp每一个par ...
033 Java Spark的编程
1.Java SparkCore编程入口是:JavaSparkContext 基本的RDD是:JavaRDD 其他常用RDD: JavaPairRDD JavaRDD和JavaPairRDD转换: ...
Spark常用函数讲解之键值RDD转换
摘要: RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集RDD有两种操作算子: Trans ...
Spark学习之路（四）—— RDD常用算子详解
一.Transformation spark常用的Transformation算子如下表: Transformation算子 Meaning(含义) map(func) 对原RDD中每个元素运用 fu ...
Spark 系列（四）—— RDD常用算子详解
一.Transformation spark 常用的 Transformation 算子如下表: Transformation 算子 Meaning(含义) map(func) 对原 RDD 中每个元 ...
spark学习(10)-RDD的介绍和常用算子
RDD(弹性分布式数据集,里面并不存储真正要计算的数据,你对RDD的操作,他会在Driver端转换成Task,下发到Executor计算分散在多台集群上的数据) RDD是一个代理,你对代理进行操作,他 ...
sparkRDD：第3节 RDD常用的算子操作
4. RDD编程API 4.1 RDD的算子分类 Transformation(转换):根据数据集创建一个新的数据集,计算后返回一个新RDD:例如:一个rdd进行map操作后生了一个新的rd ...

随机推荐

layui多选框
多选下拉框:http://sun.faysunshine.com/layui/formSelects-v4/example/example_v4.html 1.下载formSelects-v4.1 2 ...
给Jquery easyui 的datagrid 每行添加操作链接
背景我们都知道Jquery的Easy-UI的datagrid能够加入而且自己定义Toolbar,这样我们选择一行然后选择toolbar的对应button就能够对这行的数据进行操作.但实际项目里我们可 ...
Xmanager连接图形界面
1.编辑gnome配置文件vim /etc/gdm/custom.conf # GDM configuration storage [daemon]RemoteGreeter= /usr/libexe ...
判断uiscrollView滑到底部
本文转载至 http://blog.csdn.net/cerastes/article/details/39612177 -(void)scrollViewDidScroll:(UIScrollVi ...
【BZOJ3417】Poi2013 Tales of seafaring 分层图BFS
[BZOJ3417]Poi2013 Tales of seafaring Description 一个n点m边无向图,边权均为1,有k个询问每次询问给出(s,t,d),要求回答是否存在一条从s到t的 ...
【BZOJ2500】幸福的道路树形DP+RMQ+双指针法
[BZOJ2500]幸福的道路 Description 小T与小L终于决定走在一起,他们不想浪费在一起的每一分每一秒,所以他们决定每天早上一同晨练来享受在一起的时光. 他们画出了晨练路线的草图,眼尖的 ...
『SharePoint 2010』Sharepoint 2010 Form 身份认证的实现（基于AD）
一.进管理中心,创建一个应用程序,配置如下: 二.填端口号,和选择form身份认证,以及填写成员和角色,其他都默认就可以了三.使用SharePoint 2010 Management Shell在里 ...
Spring的AOP细节理解
什么是AOP?AOP:是面向切面编程,是对面向对象编程(oop)的一种补充,为什么需要AOP?例如在我们做一个计算器,要求我们每次运行对应的功能(也就是进行运算时)都要输出日志,以便于知道程序是怎么运 ...
【转】虚拟机下CentOS7开启SSH连接
在虚拟机(Vmware Workstation)下,安装了CentOS7,现在想通过SSH工具连接虚拟机中的CentOS7 1. 首先,要确保CentOS7安装了 openssh-server,在终 ...
C# 控件，MenuStrip，statusStrip,contextMenuStrip,ImageList, Listview,MonthCalendar、DataGridView,combobox,textbox，DateTimePicker,treeview,picturebox、toolStrip,radioButton,TableLayoutPanel
一.菜单栏 1)MenuStrip 菜单栏选择工具栏控件:menuStrip C# Menustrip控件的常用属性用法详解 C#WinForm应用程序——添加菜单栏MenuStrip] 1.通过右 ...

常用RDD

Transfor

Action

常用RDD的更多相关文章

随机推荐

热门专题