RDD的基本命令

1 创建RDD

intRDD=sc.parallelize([3,1,2,5,6])

intRDD.collect()
[4, 2, 3, 6, 7]

2 单RDD转换

(1) MAP

def addone(x):

    return (x+1)

intRDD.map(addone).collect()
[4, 2, 3, 6, 7]

intRDD.map(lambda x: x+1).collect()
[4, 2, 3, 6, 7]

stringRDD.map(lambda x:'fruit:'+x).collect()
['fruit:Apple', 'fruit:Orange', 'fruit:Banana', 'fruit:Grape', 'fruit:Apple']

(2) filter

intRDD.filter(lambda x: x<3).collect()
[1, 2]
intRDD.filter(lambda x:1<x and x<5).collect()
[3, 2]
stringRDD.filter(lambda x: "ra" in x).collect()
['Orange', 'Grape']

(3) distinct

intRDD.distinct().collect()
[1, 5, 2, 6, 3]
stringRDD.distinct().collect()
['Orange', 'Apple', 'Banana', 'Grape']

(4) randomSplit

sRDD=intRDD.randomSplit([0.4,0.6])

sRDD[0].collect()
[1, 2]
sRDD[1].collect()
[3, 5, 6]

(5) groupby

gRDD=intRDD.groupBy(lambda x:'even' if (x%2==0) else 'odd').collect()
print('even') 
print(list(gRDD[0][1])) 
print('odd') 
print(gRDD[1][1])

even 
[2, 6] 
odd 
<pyspark.resultiterable.ResultIterable object at 0x7f9ba805d438>

3 多个RDD转换运算

intRDD1=sc.parallelize([3,1,2,5,5])

intRDD2=sc.parallelize([5,6])

intRDD3=sc.parallelize([2,7])

并集union

intRDD1.union(intRDD2).union(intRDD3).collect()

[3, 1, 2, 5, 5, 5, 6, 2, 7]

交集intersection

intRDD1.intersection(intRDD2).collect()

[5]

差集 subtract

intRDD1.subtract(intRDD2).collect()

[1, 2, 3]

笛卡尔积乘积 cartesian

intRDD1.cartesian(intRDD2).collect()

[(3, 5),

(3, 6),

(1, 5),

(1, 6),

(2, 5),

(2, 6),

(5, 5),

(5, 6),

(5, 6)]

动作运算

first() 读取第一项数据

take(2) 取出前两项数据

takeOrdered(3) 从小到大排序，取出前三项数据

takeOrdered(3,key=lambda x:-x) 从大到小排序，取出前三项

统计功能

stats()

min()

max()

stdev()

count()

sum()

mean()

RDD key-value transformation

kvRDD1=sc.parallelize([(3,4),(3,6),(5,6),(1,2)])

kvRDD2=sc.parallelize([(3,8)])

kvRDD1.collect()
[(3, 4), (3, 6), (5, 6), (1, 2)]
kvRDD2.collect()
[(3, 8)]

join

kvRDD1.join(kvRDD2).collect()
[(3, (4, 8)), (3, (6, 8))]

leftOuterJoin

kvRDD1.leftOuterJoin(kvRDD2).collect()

[(1, (2, None)), (3, (4, 8)), (3, (6, 8)), (5, (6, None))]

rightOuterJoin

kvRDD1.rightOuterJoin(kvRDD2).collect()

[(3, (4, 8)), (3, (6, 8))]

subtractByKey

kvRDD1.subtractByKey(kvRDD2).collect()

[(1, 2), (5, 6)]

RDD key-value Action

key-value first

kvFirst=kvRDD1.first()

print(kvFirst[0])

print(kvFirst[1])

3

key count

kvRDD1.countByKey()

defaultdict(int, {1: 1, 3: 2, 5: 1})

create key-value map –>collectAsMap

KV=kvRDD1.collectAsMap()

KV

{1: 2, 3: 6, 5: 6}

print(type(KV)) 
print(KV[3])
<class 'dict'> 6

input key to get value

kvRDD1.lookup(3)

[4, 6]

RDD的基本命令的更多相关文章

Spark RDD 核心总结
摘要: 1.RDD的五大属性 1.1 partitions(分区) 1.2 partitioner(分区方法) 1.3 dependencies(依赖关系) 1.4 compute(获取分区迭代列表) ...
Spark笔记：复杂RDD的API的理解（下）
本篇接着谈谈那些稍微复杂的API. 1) flatMapValues:针对Pair RDD中的每个值应用一个返回迭代器的函数,然后对返回的每个元素都生成一个对应原键的键值对记录这个方法我最开始接 ...
Spark笔记：复杂RDD的API的理解（上）
本篇接着讲解RDD的API,讲解那些不是很容易理解的API,同时本篇文章还将展示如何将外部的函数引入到RDD的API里使用,最后通过对RDD的API深入学习,我们还讲讲一些和RDD开发相关的scala ...
Spark笔记：RDD基本操作（下）
上一篇里我提到可以把RDD当作一个数组,这样我们在学习spark的API时候很多问题就能很好理解了.上篇文章里的API也都是基于RDD是数组的数据模型而进行操作的. Spark是一个计算框架,是对ma ...
Spark笔记：RDD基本操作（上）
本文主要是讲解spark里RDD的基础操作.RDD是spark特有的数据模型,谈到RDD就会提到什么弹性分布式数据集,什么有向无环图,本文暂时不去展开这些高深概念,在阅读本文时候,大家可以就把RDD当 ...
Spark核心——RDD
Spark中最核心的概念为RDD(Resilient Distributed DataSets)中文为:弹性分布式数据集,RDD为对分布式内存对象的抽象它表示一个被分区不可变且能并行操作的数据集:R ...
【原】Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令
<Learning Spark>这本书算是Spark入门的必读书了,中文版是<Spark快速大数据分析>,不过豆瓣书评很有意思的是,英文原版评分7.4,评论都说入门而已深入不足 ...
Spark Rdd coalesce()方法和repartition()方法
在Spark的Rdd中,Rdd是分区的. 有时候需要重新设置Rdd的分区数量,比如Rdd的分区中,Rdd分区比较多,但是每个Rdd的数据量比较小,需要设置一个比较合理的分区.或者需要把Rdd的分区数量 ...
RDD/Dataset/DataFrame互转
1.RDD -> Dataset val ds = rdd.toDS() 2.RDD -> DataFrame val df = spark.read.json(rdd) 3.Datase ...

随机推荐

遇到的Ajax相关问题
【python可视化系列】python数据可视化利器--pyecharts
学可视化就跟学弹吉他一样,刚开始你会觉得自己弹出来的是噪音,也就有了在使用python可视化的时候,总说,我擦,为啥别人画的图那么溜: [python可视化系列]python数据可视化利器--pyec ...
CodeForces - 754B Ilya and tic-tac-toe game
简单搜索判断是否能在最后一步下棋得到胜利问题转化为是否有可以胜利的x的摆法那么就只有两种情况 1.有两个x相连并且在端点还有.可以落子那么就可以在最后一步胜利 2.两个x中间恰好有一个 ...
指针与数组的对比（——选自：C++内存管理技术内幕）
数组: 数组要么是在静态存储区上创建(如全局数组),要么是在栈上创建的.数组名代表着段连续的内存,其地址和容量在生命周期内是不会改变的,而只能改变其数组内容. 指针: 指针是一种指针类型的变量,变量 ...
Android视图组成View
视图组成View 创建时间: 2013-9-13 10:51 更新时间: 2013-9-13 11:04
.NET Core windows开发环境 + Git代码控管 + Docker 部署环境搭建
开发环境准备下载vs code,.NET Core sdk: https://www.microsoft.com/net/core#windowscmd 目前最新版为code 1.8.1,.NET ...
List和Map、Set的区别
首先 List 和 Set 是存储单列数据的集合,Map 是存储键和值这样的双列数据的集合:List 中存储的数据是有顺序,并且允许重复:Map 中存储的数据是没有顺序的,其键是不能重复的,它的值是可 ...
Java的finally语句在try或catch中的return语句执行之后还是之前？
import java.util.HashMap; import java.util.Map; public class FinallyDemo1 { public static void main( ...
Web容器自己主动对HTTP请求中參数进行URLDecode处理
这篇文章转载自 : Web容器自己主动对HTTP请求中參数进行URLDecode处理如题.在Java中或许非常多人都没有注意到当我们发送一个http请求时,假设附带的參数被URLEncode之后,到 ...
推荐-zabbix原理篇
推荐-zabbix原理篇(1) 提交我的留言加载中已留言本文大纲 snmp介绍监控流程开源监控工具zabbix zabbix监控功能的实现支持数据库存储类型 Zabbix架构中的组件 Z ...