---------------------

本节内容:

· Spark转换 RDD操作实例

· Spark行动 RDD操作实例

· 参考资料

---------------------

关于学习编程方式的,每个人都有自己的方式。对我个人来说,最好的方法还是多动手写demo,要多写代码,才能理解的更加深刻,本节以例子的形式讲解各个Spark RDD的使用方法和注意事项,本文一共讲解了20个RDD的使用demo。

一、Spark转换 RDD操作实例

RDD转换操作返回的是RDD,而行动操作返回的是其他数据类型。

1.例子:textFile/collect/foreach

---------------------

val line =sc.textFile("/tmp/test/core-site.xml");

line.collect().foreach(println);

------

说明:

textFile:读取hdfs数据

collect:收集RDD数据集

foreach:循环遍历打印出来

---------------------

val line =sc.parallelize(List(1,2,3,4));

line.map(x=>x*x);

line.collect().mkString(",").foreach(print);

------

说明:

parallelize:从外部数据集创建RDD

map:接收一个函数,把这个函数作用于RDD中的每一个元素,输入类型和返回类型不需要相同。

mkString:增加分隔符

---------------------

2.例子:flatMap/first

---------------------

val lines =sc.parallelize(List("hello world","hi hi hhe"));

val words=lines.flatMap(line => line.split(" "));

words.collect().foreach(println);

words.first();

------

说明:

flatMap:flatMap将返回的迭代器拍扁,将迭代器中的多个RDD中的元素取出来组成一个RDD.

first:收集RDD数据集中的第一个数据

---------------------

3.例子:filter/union

---------------------

val lines =sc.textFile("/tmp/test/core-site.xml");

val name=lines.filter(line =>line.contains("name"));

val value=lines.filter(line =>line.contains("value"));

val result=name.union(value);

result.collect().foreach(println);

------

说明:

filter:不会改变RDD中的内容,将满足filter条件的元素返回,形成新的RDD.

union:将两个RDD的内容合并成一个RDD,操作的是两个RDD.需要两个RDD中的元素类型是相同的.

---------------------

4.例子:distinct/sample/intersection/subtract/cartesian

---------------------

val lines =sc.parallelize(List(1,2,3,4,1,2,3,3));

val result = lines.distinct();

result.collect().foreach(println);

val a = sc.parallelize(1 .to(1000),3);

val result = a.sample(false,0.02,0);

result.collect().foreach(println);

val a=sc.parallelize(List(1,2,3,4));

val b=sc.parallelize(List(1,2));

val result=a.intersection(b);

val result2=a.subtract(b);

result.collect().foreach(println);

result2.collect().foreach(println);

val a=sc.parallelize(List("a","b","c"));

val b=sc.parallelize(List("1","2"));

val result=a.cartesian(b);

result.collect().foreach(println);

------

说明:

distinct:对RDD中元素去重,会触达shuffle操作,低效

sample:对RDD中的集合内元素进行采样,第一个参数withReplacement是true表示有放回取样,false表示无放回。第二个参数表示比例(取出元素个数占比),第三个参数是随机种子。

intersection:求两个RDD共同的元素的RDD,回去重,引发shuffle操作.

subtract:移除RDD中的内容,会引发shuffle操作.

cartesian:求笛卡尔积,大规模数据时开销巨大.

---------------------

二、Spark行动 RDD操作实例

1.例子:reduce/fold/aggregate[action操作]

--------reduce-------------

val line =sc.parallelize(List(1,2,3,4));

val sum = line.reduce((x,y) =>x+y);

println(sum);

--------fold-------------

val line =sc.parallelize(List(1,2,3,4),2);

val sum = line.fold(1)((x,y) =>x+y);

println(sum);

--------aggregate demo01-------------

val line =sc.parallelize(List(1,2,3,4));

val result= line.aggregate((0,0))(

(acc,value)=>(acc._1+value,acc._2+1),

(acc1,acc2) =>(acc1._1+acc2._1,acc1._2+acc2._2)

);

val avg=result._1/result._2.toDouble;

println(avg);

--------aggregate demo02-------------

def seqOP(a:Int,b:Int):Int={

println("seqOp:"+a+"\t"+b)

math.min(a,b)

}

def comOp(a:Int,b:Int):Int={

println("comOp:"+a+"\t"+b)

a+b

}

val line=sc.parallelize(List(1,2,3,4,5),1);

val result=line.aggregate(2)(seqOP,comOp);

println(result);

------

说明:

reduce:接收一个函数作为参数,函数将两个相同元素类型的RDD数据并返回同一个类型的新元素.

fold:将两个RDD的内容合并成一个RDD,操作的是两个RDD.需要两个RDD中的元素类型是相同的.fold计算过程是这样的,

假如line 只有1个partition

第一个partition计算

第一次:1+1=2;

第二次:2+2=4;

第三次:3+4=7;

第四次:4+7=11;

combie计算:

第一次:11+1=12,最终结果:12

假如line 有2个partion【val line =sc.parallelize(List(1,2,3,4),2);】

第一个partition计算

第一次:1+1=2;

第二次:2+2=4;

第二个partition计算

第三次:3+1=4;

第四次:4+4=8;

combie计算:

第一次:4+1=5;

第二次:5+8=13

最终结果:13

aggregate:执行过程

//demo1执行过程

step1:(0+1,0+1)=(1,1)

step2:(1+2,1+1)=(3,2)

step3:(3+3,2+1)=(6,3)

step4:(4+6,3+1)=(10,4)

step5:(0+10,0+4)=(10,4)

avg=10/4=2.5

//demo2执行过程

step1:math.min(2,1)=1

step2:math.min(1,2)=1

step3:math.min(1,3)=1

step4:math.min(1,4)=1

step4:math.min(1,5)=1

step5:2+1=3

2.count/countByValue/take/top/takeOrdered

---------------------

val line=sc.parallelize(List(1,2,3,3),1);

val result=line.count();

println(result);

val line=sc.parallelize(List(1,2,3,3),1);

val result=line.countByValue();

println(result);

val line=sc.parallelize(List(1,2,3,3),1);

val result=line.take(3);

result.foreach(println);

val line=sc.parallelize(List(1,2,3,3),1);

val result=line.top(2);

result.foreach(println);

val line=sc.parallelize(List(1,2,3,3),1);

val result=line.takeOrdered(2);

result.foreach(println);

val line=sc.parallelize(List(1,2,3,3),1);

val result=line.takeSample(false,2);

result.foreach(println);

------

说明:

count:返回RDD中元素的个数.

countByValue: 各元素在RDD中出现的次数.

take:从RDD中取出前n个元素个数,与collect比,都是从远程集群上获取元素,只是collect操作获取的所有数据,而take操作是获取前n个元素.

top:返回最前面的n个元素.

takeOrdered:从RDD中按照提供的顺序返回最前面n个元素.

takeSample:从RDD中返回任意一些元素.

---------------------

三、参考资料

1.fold计算过程-http://www.aboutyun.com/home.php?mod=space&uid=1&do=blog&id=368

2.fold计算过程-http://www.cnblogs.com/MOBIN/p/5414490.html#12

3.aggregate计算过程-https://www.iteblog.com/archives/1268.html

【spark 深入学习 06】RDD编程之旅基础篇02-Spaek shell的更多相关文章

  1. 【spark 深入学习 05】RDD编程之旅基础篇-01

    ---------------- 本节内容 1.RDD的工作流程 2.WordCount解说  · shell版本WordCount  · java版本WordCount -------------- ...

  2. 【Spark 深入学习 07】RDD编程之旅基础篇03-键值对RDD

    --------------------- 本节内容: · 键值对RDD出现背景 · 键值对RDD转化操作实例 · 键值对RDD行动操作实例 · 键值对RDD数据分区 · 参考资料 --------- ...

  3. Spark学习之RDD编程(2)

    Spark学习之RDD编程(2) 1. Spark中的RDD是一个不可变的分布式对象集合. 2. 在Spark中数据的操作不外乎创建RDD.转化已有的RDD以及调用RDD操作进行求值. 3. 创建RD ...

  4. ESP8266开发之旅 基础篇① 走进ESP8266的世界

    授人以鱼不如授人以渔,目的不是为了教会你具体项目开发,而是学会学习的能力.希望大家分享给你周边需要的朋友或者同学,说不定大神成长之路有博哥的奠基石... QQ技术互动交流群:ESP8266&3 ...

  5. ESP8266开发之旅 基础篇③ ESP8266与Arduino的开发说明

    授人以鱼不如授人以渔,目的不是为了教会你具体项目开发,而是学会学习的能力.希望大家分享给你周边需要的朋友或者同学,说不定大神成长之路有博哥的奠基石... QQ技术互动交流群:ESP8266&3 ...

  6. ESP8266开发之旅 基础篇④ ESP8266与EEPROM

    授人以鱼不如授人以渔,目的不是为了教会你具体项目开发,而是学会学习的能力.希望大家分享给你周边需要的朋友或者同学,说不定大神成长之路有博哥的奠基石... QQ技术互动交流群:ESP8266&3 ...

  7. ESP8266开发之旅 基础篇② 如何安装ESP8266的Arduino开发环境

    授人以鱼不如授人以渔,目的不是为了教会你具体项目开发,而是学会学习的能力.希望大家分享给你周边需要的朋友或者同学,说不定大神成长之路有博哥的奠基石... QQ技术互动交流群:ESP8266&3 ...

  8. ESP8266开发之旅 基础篇⑥ Ticker——ESP8266定时库

    授人以鱼不如授人以渔,目的不是为了教会你具体项目开发,而是学会学习的能力.希望大家分享给你周边需要的朋友或者同学,说不定大神成长之路有博哥的奠基石... QQ技术互动交流群:ESP8266&3 ...

  9. Spark学习之RDD编程总结

    Spark 对数据的核心抽象——弹性分布式数据集(Resilient Distributed Dataset,简称 RDD).RDD 其实就是分布式的元素集合.在 Spark 中,对数据的所有操作不外 ...

随机推荐

  1. 022 Spark shuffle过程

    1.官网  http://spark.apache.org/docs/1.6.1/configuration.html#shuffle-behavior Spark数据进行重新分区的操作就叫做shuf ...

  2. char *s 与 char s[ ]的区别

    程序的内存分配 一个由C/C++编译的程序占用的内存分为以下几个部分 1.栈区(stack)— 由编译器自动分配释放 ,存放函数的参数值,局部变量的值等.其 操作方式类似于数据结构中的栈. 2.堆区( ...

  3. 【随笔】借鉴 & KPI式设计

    1. 别人(某成功案例)是这么做的,我们也就这么做吧 刚来组里一会就目睹了需求讨论会上的一场争执,大概就是某产品经理在解释需求解释到后面有些说不通了就说“xxx App是这么做的我觉得我们也可以这样做 ...

  4. 论文--Topic-Sensitive PageRank

    背景 原有的PageRank方法:通过web上链接结构信息得到页面之间相对的重要性,和特定的查询内容无关 论文涉及到的其他算法 HITS Hilltop,处理常见的流行查询 popular query ...

  5. 安卓 运行、调试 配置 android Run/debug configurations

    android  运行.调试 配置 android  Run/debug configurations 作者:韩梦飞沙 Author:han_meng_fei_sha 邮箱:313134555@qq. ...

  6. BZOJ.3884.上帝与集合的正确用法(扩展欧拉定理)

    \(Description\) 给定p, \(Solution\) 欧拉定理:\(若(a,p)=1\),则\(a^b\equiv a^{b\%\varphi(p)}(mod\ p)\). 扩展欧拉定理 ...

  7. Python图形编程探索系列-05-用控制变量构建对话程序

    跳转到自己的博客 控制变量 变量 符号 意义 默认值 1 var = tk.BooleanVar() 布尔型 0 2 var = tk.StringVar() 字符串控制变量 空字符串 3 var = ...

  8. PHP Math 函数 mt_rand() 使用 Mersenne Twister 算法返回随机整数。

    语法 mt_rand(min,max) 说明 如果没有提供可选参数 min 和 max,mt_rand() 返回 0 到 RAND_MAX 之间的伪随机数.例如想要 5 到 15(包括 5 和 15) ...

  9. Hadoop学习博客

    http://zy19982004.iteye.com/blog/monthblog_more

  10. RxJava2 源码解析(二)

    概述 承接上一篇RxJava2 源码解析(一),本系列我们的目的: 知道源头(Observable)是如何将数据发送出去的.    知道终点(Observer)是如何接收到数据的.    何时将源头和 ...