一、 RDD创建
二、 RDD操作
- 转换操作
- 行动操作
  - foreach(func)
  - collect()
  - count()
  - take(n)
  - reduce()

一、 RDD创建

从本地文件系统中加载数据创建RDD

sc：SparkContext（shell自动创建）
本地文件系统中加载数据创建RDD

Spark采用textFile()方法来从文件系统中加载数据创建RDD
该方法把文件的URI作为参数，这个URI可以是：
- 本地文件系统的地址
- 或者是分布式文件系统HDFS的地址
- 或者是Amazon S3的地址等等

从HDFS加载数据创建RDD

启动hdfs
上传文件
查看文件
spark内加载文件

textFile默认是读hdfs，所以hdfs可以省略。

hdfs的默认目录，前三条语句是完全等价的，可以使用其中任意一种方式

不是默认目录，要还上路径
停止hdfs

通过并行集合（列表）创建RDD

输入列表、字符串、numpy生成数组

二、 RDD操作

转换操作

对于RDD而言，每一次转换操作都会产生新的RDD，供给下一个“转换”使用

转换得到的RDD是惰性求值的，也就是说，整个转换过程只是记录了转换的轨迹，并不会发生真正的计算，只有遇到行动操作时，才会发生真正的计算，开始从血缘关系源头开始，进行物理的转换操作

操作	含义
filter(func)	筛选出满足函数func的元素，并返回一个新的数据集
map(func)	将每个元素传递到函数func中，并将结果返回为一个新的数据集
flatMap(func)	与map()相似，但每个输入元素都可以映射到0或多个输出结果
groupByKey()	应用于(K,V)键值对的数据集时，返回一个新的(K, Iterable)形式的数据集
reduceByKey(func)	应用于(K,V)键值对的数据集时，返回一个新的(K, V)形式的数据集，其中每个值是将每个key传递到函数func中进行聚合后的结果

filter(func)

显式定义函数

结果不明显，换个关键词
lambda函数

map(func)

字符串分词
- 显式定义函数
- lambda函数
数字加100
- 显式定义函数
- lambda函数
字符串加固定前缀
- 显式定义函数
- lambda函数

flatMap(func)

分词
单词映射成键值对

reduceByKey()

统计词频，累加
乘法规则

groupByKey()

单词分组
查看分组的内容
分组之后做累加 map

sortByKey()

词频统计按单词排序

sortBy()

词频统计按词频排序

行动操作

行动操作是真正触发计算的地方。Spark程序执行到行动操作时，才会执行真正的计算，从文件中加载数据，完成一次又一次转换操作，最终，完成行动操作得到结果。

操作	含义
count()	返回数据集中的元素个数
collect()	以数组的形式返回数据集中的所有元素
first()	返回数据集中的第一个元素
take(n)	以数组的形式返回数据集中的前n个元素
foreach(func)	将数据集中的每个元素传递到函数func中运行
reduce(func)	通过函数func(输入两个参数并返回一个值)聚合数据集中的元素

foreach(func)

foreach(print)
foreach(lambda a:print(a.upper())

collect()

count()

take(n)

reduce()

数值型的rdd元素做累加
与reduceByKey区别

reduceByKey(func)应用于(K,V)键值对的数据集时，返回一个新的(K, V)形式的数据集，其中的每个值是将每个key传递到函数func中进行聚合后得到的结果

4.RDD操作的更多相关文章

Spark学习（一）--RDD操作
标签(空格分隔): 学习笔记 Spark编程模型的两种抽象:RDD(Resilient Distributed Dataset)和两种共享变量(支持并行计算的广播变量和累加器). RDD RDD是一种 ...
RDD操作
RDD操作 1.对一个数据为{1,2,3,3}的RDD进行基本的RDD转化操作函数名目的示例结果 map() 函数应用于RDD中的每个元素 rdd.map(x=>x+1) {2,3,4, ...
Spark编程模型及RDD操作
转载自:http://blog.csdn.net/liuwenbo0920/article/details/45243775 1. Spark中的基本概念在Spark中,有下面的基本概念.Appli ...
Spark 键值对RDD操作
键值对的RDD操作与基本RDD操作一样,只是操作的元素由基本类型改为二元组. 概述键值对RDD是Spark操作中最常用的RDD,它是很多程序的构成要素,因为他们提供了并行操作各个键或跨界点重新进行数 ...
SPARKR，对RDD操作的介绍
(转载)SPARKR,对RDD操作的介绍原以为,用sparkR不能做map操作, 搜了搜发现可以. lapply等同于map, 但是不能操作spark RDD. spark2.0以后, spar ...
spark RDD操作的底层实现原理
RDD操作闭包外部变量原则 RDD相关操作都需要传入自定义闭包函数(closure),如果这个函数需要访问外部变量,那么需要遵循一定的规则,否则会抛出运行时异常.闭包函数传入到节点时,需要经过下面的步 ...
Spark性能优化(2)——广播变量、本地缓存目录、RDD操作、数据倾斜
广播变量背景一般Task大小超过10K时(Spark官方建议是20K),需要考虑使用广播变量进行优化.大表小表Join,小表使用广播的方式,减少Join操作. 参考:Spark广播变量与累加器 L ...
【spark】RDD操作
RDD操作分为转换操作和行动操作. 对于RDD而言,每一次的转化操作都会产生不同的RDD,供一个操作使用. 我们每次转换得到的RDD是惰性求值的也就是说,整个转换过程并不是会真正的去计算,而是只记录 ...
【Spark】RDD操作具体解释4——Action算子
本质上在Actions算子中通过SparkContext运行提交作业的runJob操作,触发了RDD DAG的运行. 依据Action算子的输出空间将Action算子进行分类:无输出. HDFS. S ...

随机推荐

Docker容器里部署Apache+PHP+MariaDB+phpMyAdmin
前面讲到了创建MariaDB,这次在前面的基础上搭建phpMyAdmin服务,以便友好的管理数据库MariaDB.MariaDB的docker独立出来,这样方便管理,易于扩展.这次我们基于Docker ...
【C# .Net GC】GC内存分配规则
GC 管理内存分配和回收公共语言运行时的垃圾回收器为应用程序管理内存的分配和释放. https://docs.microsoft.com/zh-cn/dotnet/standard/automati ...
linux 平台实现 web 服务器的自动化发布（纯shell 版本，存在ssh 不能自动退出问题，待解决）
转至:https://www.cnblogs.com/vmsky/p/13824172.html 背景说明 1.集团OA系统上线,web App 部署在6台服务器中,因项目初期,每次更新都需要进行大量 ...
[GYCTF2020]Ezsqli 无列名注入
手工注入了几下,是数字注入,过滤了 or , union 输入1||1=1 回显Nu1L 再输入 1&&(ascii(substr(database(),1,1))>32)# ...
论文解读（GIN）《How Powerful are Graph Neural Networks》
Paper Information Title:<How Powerful are Graph Neural Networks?>Authors:Keyulu Xu, Weihua Hu, ...
Java、Python语法区别，不断更新
基本语句.文件方面 Java中的字符是单引号,字符串是双引号:Python则是单双都可以 Java语句结束有分号;,Python没有(写分号也正确) Java中程序执行需要有main函数,Python ...
Python：Scrapy（三）进阶：额外的一些类ItemLoader与CrawlSpider，使用原理及总结
学习自:Python Scrapy 爬虫框架实例(一) - Blue·Sky - 博客园这一节是对前两节内容的补充,涉及内容为一些额外的类与方法,来对原代码进行改进原代码:这里并没有用前两节的代码 ...
tar包压缩时相对路径问题
一.问题描述现在有一个需求,不知道该如何才能实现压缩: tar -czvf /home/futong/test/logs.tar.gz /home/futong/test/logs 打开压缩包发现 ...
oracle 中的decode函数
decode(条件,值1,返回值1,值2,返回值2,...值n,返回值n,缺省值) 该函数的含义如下:IF 条件=值1 THEN RETURN(翻译值1)ELSIF 条件=值2 THEN RETURN ...
php 23种设计模型 - 门面模式(外观模式)
外观模式(Facade) 外观模式(Facade Pattern)隐藏系统的复杂性,并向客户端提供了一个客户端可以访问系统的接口.这种类型的设计模式属于结构型模式,它向现有的系统添加一个接口,来隐藏系 ...

4.RDD操作

一、 RDD创建

从本地文件系统中加载数据创建RDD

从HDFS加载数据创建RDD

通过并行集合（列表）创建RDD

二、 RDD操作

转换操作

filter(func)

map(func)

flatMap(func)

reduceByKey()

groupByKey()

sortByKey()

sortBy()

行动操作

foreach(func)

collect()

count()

take(n)

reduce()

4.RDD操作的更多相关文章

随机推荐

热门专题