RDD

RDD 是什么

定义

RDD, 全称为 Resilient Distributed Datasets, 是一个容错的, 并行的数据结构, 可以让用户显式地将数据存储到磁盘和内存中, 并能控制数据的分区.

同时, RDD 还提供了一组丰富的操作来操作这些数据. 在这些操作中, 诸如 map, flatMap, filter 等转换操作实现了 Monad 模式, 很好地契合了 Scala 的集合操作. 除此之外, RDD 还提供了诸如 join, groupBy, reduceByKey 等更为方便的操作, 以支持常见的数据运算.

特点

  1. RDD 是一个编程模型

    1. RDD 允许用户显式的指定数据存放在内存或者磁盘

    2. RDD 是分布式的, 用户可以控制 RDD 的分区

  2. RDD 是一个编程模型

    1. RDD 提供了丰富的操作

    2. RDD 提供了 map, flatMap, filter 等操作符, 用以实现 Monad 模式

    3. RDD 提供了 reduceByKey, groupByKey 等操作符, 用以操作 Key-Value 型数据

    4. RDD 提供了 max, min, mean 等操作符, 用以操作数字型的数据

  3. RDD 是混合型的编程模型, 可以支持迭代计算, 关系查询, MapReduce, 流计算

  4. RDD 是只读的

  5. RDD 之间有依赖关系, 根据执行操作的操作符的不同, 依赖关系可以分为宽依赖和窄依赖

创建 RDD

简略的说, RDD 有三种创建方式

  • RDD 可以通过本地集合直接创建

  • RDD 也可以通过读取外部数据集来创建

  • RDD 也可以通过其它的 RDD 衍生而来

通过本地集合直接创建 RDD

//从本地集合创建
@Test
def rddCreationLocal(): Unit ={ val seq=Seq(1,2,3)
val rdd1: RDD[Int] = sc.parallelize(seq, 2)
//区别在于,parallelize不需要指定分区个数,makeRDD需要指定分区个数
val rdd2: RDD[Int] = sc.makeRDD(seq, 2) }

通过读取外部文件创建 RDD

//从文件创建
@Test
def rddCreationHDFS(): Unit ={ sc.textFile("hdfs://hadoop101:8020/data/wordcount.txt")
// 1.textFile传入的是什么
// 传入的是路径,读取路径
// * hdfs://hadoop101:8020/../.. file:///... 一个是读hdfs,一个是读本地
// 2. 是否支持分区
// 如果传入的是hdfs,分区是由HDFS文件中block决定的
// 3.支持什么平台
// aws和阿里云 }

通过其它的 RDD 衍生新的 RDD

 //从RDD衍生
@Test
def rddCreateFromRDD(): Unit ={ val rdd1 = sc.parallelize(Seq(1, 2, 3))
// 通过在rdd上执行算子操作,会生成新的 rdd
// 原地计算
// str.substr 返回新的字符串,非原地计算
// 和字符串中的方式很像,字符串是可变的吗?
// RDD可变吗》不可变
val rdd2 = rdd1.map(item => item) }

RDD 算子

Map 算子

@Test
def mapTest(): Unit ={ //1.创建RDD
val rdd1=sc.parallelize(Seq(1,2,3))
//2.执行map操作
val rdd2=rdd1.map(item =>item*10)
//3.得到结果
val result=rdd2.collect()
result.foreach(item=>println(item))
}

作用

把 RDD 中的数据 一对一 的转为另一种形式,Map是一对一

FlatMap 算子

@Test
def flatMapTest(): Unit ={ //1.创建RDD
val rdd1=sc.parallelize(Seq("Hello lily","Hello lucy","Hello tim"))
//2.处理数据
val rdd2: RDD[String] = rdd1.flatMap(item => item.split(" "))
//3.得到结果
val result=rdd2.collect()
result.foreach(item=>println(item))
//4.关闭sc
sc.stop()
}

作用

FlatMap 算子和 Map 算子类似, 但是 FlatMap 是一对多,flatMap 其实是两个操作, 是 map + flatten, 也就是先转换, 后把转换而来的 List 展开

ReduceByKey 算子

@Test
def reduceByKeyTest(): Unit ={
//1.创建RDD
val rdd1=sc.parallelize(Seq("Hello lily","Hello lucy","Hello tim"))
//2.处理数据
val rdd2=rdd1.flatMap(item => item.split(" "))
.map(item=>(item,1))
.reduceByKey((curr,agg) => curr+agg)
//3.得到结果
val result=rdd2.collect()
result.foreach(item=>println(item))
//4.关闭sc
sc.stop()
}

作用

首先按照 Key 分组, 接下来把整组的 Value 计算出一个聚合值, 这个操作非常类似于 MapReduce 中的 Reduce

参数

func → 执行数据处理的函数, 传入两个参数, 一个是当前值, 一个是局部汇总, 这个函数需要有一个输出, 输出就是这个 Key 的汇总结果,并进行更新

注意点

  • ReduceByKey 只能作用于 Key-Value 型数据, Key-Value 型数据在当前语境中特指 Tuple2

  • ReduceByKey 是一个需要 Shuffled 的操作

  • 和其它的 Shuffled 相比, ReduceByKey是高效的, 因为类似 MapReduce 的, 在 Map 端有一个 Cominer, 这样 I/O 的数据便会减少

总结
  1. map 和 flatMap 算子都是转换, 只是 flatMap 在转换过后会再执行展开, 所以 map 是一对一, flatMap 是一对多

  2. reduceByKey 类似 MapReduce 中的 Reduce

Spark学习进度-RDD的更多相关文章

  1. Spark学习之RDD编程(2)

    Spark学习之RDD编程(2) 1. Spark中的RDD是一个不可变的分布式对象集合. 2. 在Spark中数据的操作不外乎创建RDD.转化已有的RDD以及调用RDD操作进行求值. 3. 创建RD ...

  2. Spark学习之RDD

    RDD概述 什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行计算的集合 ...

  3. Spark学习之RDD编程总结

    Spark 对数据的核心抽象——弹性分布式数据集(Resilient Distributed Dataset,简称 RDD).RDD 其实就是分布式的元素集合.在 Spark 中,对数据的所有操作不外 ...

  4. Spark学习笔记——RDD编程

    1.RDD——弹性分布式数据集(Resilient Distributed Dataset) RDD是一个分布式的元素集合,在Spark中,对数据的操作就是创建RDD.转换已有的RDD和调用RDD操作 ...

  5. spark学习(10)-RDD的介绍和常用算子

    RDD(弹性分布式数据集,里面并不存储真正要计算的数据,你对RDD的操作,他会在Driver端转换成Task,下发到Executor计算分散在多台集群上的数据) RDD是一个代理,你对代理进行操作,他 ...

  6. Spark学习之RDD的理解

    转自:http://www.infoq.com/cn/articles/spark-core-rdd/ 感谢张逸老师的无私分享 RDD,全称为Resilient Distributed Dataset ...

  7. spark 学习(二) RDD及共享变量

    声明:本文基于spark的programming guide,并融合自己的相关理解整理而成      Spark应用程序总是包括着一个driver program(驱动程序),它运行着用户的main方 ...

  8. spark学习(RDD案例实战)

    练习0(并行化创建RDD) 先启动spark-shell 通过并行化生成rdd scala> val rdd1 = sc.parallelize(List(63,45,89,23,144,777 ...

  9. Spark学习(2) RDD编程

    什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.弹性.里面的元素可并行计算的集合 RDD允 ...

随机推荐

  1. moviepy音视频剪辑:视频剪辑基类VideoClip详解

    ☞ ░ 前往老猿Python博文目录 ░ 一.概述 在<moviepy音视频剪辑:moviepy中的剪辑基类Clip详解>和<moviepy音视频剪辑:moviepy中的剪辑基类Cl ...

  2. PyQt(Python+Qt)学习随笔:QListWidget获取指定行对应项的item()方法

    老猿Python博文目录 专栏:使用PyQt开发图形界面Python应用 老猿Python博客地址 在列表部件中,可以通过item方法获取指定行对应的项,语法如下: QListWidgetItem i ...

  3. 第14.4节 使用IE浏览器获取网站访问的http信息

    上节<第14.3节 使用google浏览器获取网站访问的http信息>中介绍了使用Google浏览器怎么获取网站访问的http相关报文信息,本节介绍IE浏览器中怎么获取相关信息.以上节为基 ...

  4. 实验吧bypass the upload

    题目链接: http://ctf5.shiyanbar.com/web/upload 打开提米链接上传一个php文件提示: 按照题目要求上传符合标准的图片提示要上传php文件,明显需要进行上传绕过 经 ...

  5. Java基础学习之异常处理(6)

    @ 目录 1.异常是什么 1.1.Error 1.2.Exception 2.异常处理机制 2.1.捕获异常 2.2.抛出异常 3.自定义异常 3.1.自定义检查性异常 3.2.自定义运行时异常 1. ...

  6. .Net Core ABP应用如何在阿里云Linux Docker中开启Https

    .Net Core应用开启Https本身就有很多种方式:1.代码配置2.环境变量3.反向代理 这里主要记录下阿里云的ECS,加阿里云免费的SSL证书,通过程序代码,如何进行配置. 首先从阿里云下载证书 ...

  7. 冲刺Day5

    每天举行站立式会议照片: 前后端交互: 昨天已完成的工作: 1.确认搜索栏界面 2.订单模块的大部分代码 3.用户模块的大部分代码 4.测试登录注册功能 燃尽图: 今天计划完成的工作: 成员 任务 高 ...

  8. Scrum冲刺_Day07

    一.团队展示: 1.项目:light_note备忘录 2.队名:删库跑路队 3.团队成员 队员(不分先后) 项目角色 黄敦鸿 后端工程师.测试 黄华 后端工程师.测试 黄骏鹏 后端工程师.测试 黄源钦 ...

  9. ios移动端 clipboard点击复制失效

    在使用clipboard.min.js插件库实现复制,android下没有问题,ios下无效! 原因:ios默认非点击标签没有点击效果 解决方法:需要给非点击标签加事件,比如在span,div或者p标 ...

  10. python协程需要注意的

    python协程需要注意的点 都在注释里 # -*- coding: utf-8 -*- import asyncio import time from geeker import schedule ...