[Spark RDD_1] RDD 基本概念

山间一棵松 2024-10-21 11:26:59 原文

0. 说明

　　RDD 概述 && 创建 RDD 的方式 && RDD 编程 API（Transformation 和 Action Operations） && RDD 的依赖关系

1. RDD 概述

　　Spark 围绕弹性分布式数据集（RDD）的概念展开，RDD 是可以并行操作的容错的容错集合。

　　resilient distributed dataset，弹性分布式数据集。

　　不可变集合，可以进行并行操作的分区化数据集合。

　　该类包含了 RDD 常见操作，比如 map、filter、persist 等。

　　对于 key-value 的 RDD，会自动转换成（隐式转换）PairRDDFunction,该类提供了所有的 ByKey 操作。

　　内部，每个 RDD 主要含有 5 个主要属性：

分区列表（轻量级数据集合，没有实际数据）
计算每个切片的计算函数
和其他RDD的依赖列表
针对 K-V 类型 RDD，还有一个分区类(可选)
计算每个切片的首选位置列表(可选)

2. 创建 RDD 的方式

　　创建 RDD 有两种方法

　　【方法一】

　　并行化驱动程序中的现有集合。

　　例子如下

　　【方法二】

　　引用外部存储系统中的数据集，例如共享文件系统，HDFS，HBase 或提供 Hadoop InputFormat 的任何数据源。

　　textFile() 方法最初创建的是 HadoopRDD，HadoopRDD 提供了读取 HDFS 文件核心功能。

　　sc.textFile()

　　产生了两个 RDD
　　HadoopRDD -> MapPartitionRDD

　　

3. RDD 编程 API（Transformation 和 Action Operations）

　　【变换 Transformation】

　　返回值为新的 RDD

　　map

　　flatMap

　　filter()

　　reduceByKey()

　　【动作 Actions】

　　返回值为具体的值

　　collect()
　　save()
　　reduce()
　　count()

4. RDD 的依赖关系

　　【依赖】

　　RDD 的依赖是 子 RDD 上的每个分区和父 RDD 分区数量上的对应关系
　　Dependency
　　　　|----ShuffleDependency　(宽依赖)
　　　　|----NarrowDependency （窄依赖：子 RDD 的每个分区依赖少量的父 RDD 分区）
　　　　　　|-----One2OneDependency （一对一依赖）
　　　　　　|-----RangeDependency（范围依赖）
　　　　　　|-----PruneDependency（Prune 依赖）

　　【说明】

　　构造 RDD 时使用的是 One2OneDependency

[Spark RDD_1] RDD 基本概念的更多相关文章

【原】Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令
<Learning Spark>这本书算是Spark入门的必读书了,中文版是<Spark快速大数据分析>,不过豆瓣书评很有意思的是,英文原版评分7.4,评论都说入门而已深入不足 ...
Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令
<Learning Spark>这本书算是Spark入门的必读书了,中文版是<Spark快速大数据分析>,不过豆瓣书评很有意思的是,英文原版评分7.4,评论都说入门而已深入不足 ...
Spark RDD基本概念与基本用法
1. 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行计算的集合.RDD具 ...
关于Spark中RDD的设计的一些分析
RDD, Resilient Distributed Dataset,弹性分布式数据集, 是Spark的核心概念. 对于RDD的原理性的知识,可以参阅Resilient Distributed Dat ...
Spark中的一些概念
最近工作用到Spark,这里记一些自己接触到的Spark基本概念和知识. 本文链接:https://www.cnblogs.com/hhelibeb/p/10288915.html 名词 RDD:在高 ...
spark中RDD的转化操作和行动操作
本文主要是讲解spark里RDD的基础操作.RDD是spark特有的数据模型,谈到RDD就会提到什么弹性分布式数据集,什么有向无环图,本文暂时不去展开这些高深概念,在阅读本文时候,大家可以就把RDD当 ...
Spark集群基础概念与 spark架构原理
一.Spark集群基础概念将DAG划分为多个stage阶段,遵循以下原则: 1.将尽可能多的窄依赖关系的RDD划为同一个stage阶段. 2.当遇到shuffle操作,就意味着上一个stage阶段结 ...
大话Spark(1)-Spark概述与核心概念
说到Spark就不得不提MapReduce/Hadoop, 当前越来越多的公司已经把大数据计算引擎从MapReduce升级到了Spark. 至于原因当然是MapReduce的一些局限性了, 我们一起先 ...
Spark之RDD的定义及五大特性
RDD是分布式内存的一个抽象概念,是一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,能横跨集群所有节点并行计算,是一种基于工作集的应用抽象. RDD底层存储原理:其数据分布存储于多台机器上 ...

随机推荐

Web前后端分离知识整理
Web研发模式的演变职责分离(减少扯皮,开发效率),代码分离(可维护性) 简单明快的早期时代后端为主的 MVC 时代 Ajax 带来的 SPA 时代前端为主的 MV* 时代 Node 带来的全栈 ...
LVS专题-(3) 虚拟ip理解
1.虚拟IP是什么? 要是单讲解虚拟 IP,理解起来很困难,所以干脆把动态 IP .固定 IP .实体 IP 与虚拟 IP都讲解一下,加深理解和知识扩展实体 IP:在网络的世界里,为了要辨识每一部 ...
MAMP 安装phpredis 扩展
phpredis扩展包地址: https://github.com/nicolasff/phpredis 1.下载php源码 (http://php.net/releases/ 选择php5.5.1 ...
Unix/Linux系统管理技术手册学习笔记——shell
创建日期:2016/02/29 更新日期:2016/02/29 shell变量赋值时不能在等号两边留空白,否则shell会把变量名误认为是命令名双引号括起来的变量可以进行替换(用*和?这样的文件名匹 ...
AngularJS学习笔记（五）自定义指令（1）
先来说说自定义指令 ng通过内置指令的方式实现了对html的增强,同时也赋予了我们自定义指令的功能,让我们根据实际需求进行指令的定制.自定义指令涉及到模板(template).作用域(scope).数 ...
nodejs 的序列化与反序列化
1.序列化 stringify函数的作用就是序列化对象,也就是说将对象类型转换成一个字符串类型(默认的分割符("&")和分配符("=")),先介绍它的基 ...
基于spring boot的定时器
首先,搭建好一个springboot项目方法一:通过springboot自带入口来开启定时器. 首先我们都知道,springboot有一个自己的入口,也就是@SpringBootApplicatio ...
C#微信小程序服务端获取用户解密信息
using AIOWeb.Models; using Newtonsoft.Json; using Newtonsoft.Json.Linq; using System; using System.C ...
Hamming Problem（hdu3199）
Hamming Problem Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) ...
Navicat11全系列激活工具和使用方法
Navicat特别好使,但是就是得注册,在网上看到了一个激活工具,成功激活了Navicat...工具链接地址是.. https://files.cnblogs.com/files/miantiaoan ...