Spark编程模型(中)

子墨言良 2024-10-20 11:32:55 原文

创建RDD

方式一：从集合创建RDD

makeRDD
Parallelize

注意：makeRDD可以指定每个分区perferredLocations参数parallelize则没有。

方式二：读取外部存储创建RDD

　　Spark与Hadoop完全兼容，所以对Hadoop所支持的文件类型或者数据库类型，Spark同样支持。

1. 多文件格式支持：

2. 多文件系统支持：

　　 1)本地文件系统

　　 2)S3

　　 3)HDFS

3. 数据库

　　 1)JdbcRDD

　　 2)spark-cassandra-connector（datastax/spark-cassandra-connector）

　　 3)org.apache.hadoop.hbase.mapreduce.TableInputFormat(SparkContext.newAPIHadoopRDD)

　　 4)Elasticsearch-Hadoop

控制操作

1. persist操作，可以将RDD持久化到不同层次的存储介质，以便后续操作重复使用。

　　 1)cache:RDD[T]

　　 2)persist:RDD[T]

　　 3)Persist(level:StorageLevel):RDD[T]

2. checkpoint

　　将RDD持久化到HDFS中，与persist操作不同的是checkpoint会切断此RDD之前的依赖关系，而persist依然保留RDD的依赖关系。

　　注意：控制操作的细节会在后续章节专门讲解

转换操作

基本转换操作1

　　（1）RDD的转化操作是返回新的RDD的操作；

　　（2）我们不应该把RDD看作存放着特定数据的数据集，而最好把每个RDD当作我们通过转化操作构建出来的、记录如何计算数据的指令列表。

基本转换操作2

action操作

以上就是博主为大家介绍的这一板块的主要内容，这都是博主自己的学习过程，希望能给大家带来一定的指导作用，有用的还望大家点个支持，如果对你没用也望包涵，有错误烦请指出。如有期待可关注博主以第一时间获取更新哦，谢谢！

Spark编程模型(中)的更多相关文章

Spark 编程模型(中)
先在IDEA新建一个maven项目我这里用的是jdk1.8,选择相应的骨架这里选择本地在window下安装的maven 新的项目创建成功我的开始pom.xml文件配置 <project x ...
Spark编程模型(下)
创建Pair RDD 什么是Pair RDD 包含键值对类型的RDD类型被称作Pair RDD: Pair RDD通常用来进行聚合计算: Pair RDD通常由普通RDD做ETL转化而来. Pytho ...
Spark编程模型（博主推荐）
福利 => 每天都推送欢迎大家,关注微信扫码并加入我的4个微信公众号: 大数据躺过的坑 Java从入门到架构师人工智能躺过的坑 Java全栈大联盟 ...
Spark入门实战系列--3.Spark编程模型（上）--编程模型及SparkShell实战
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Spark编程模型 1.1 术语定义 l应用程序(Application): 基于Spar ...
Spark入门实战系列--3.Spark编程模型（下）--IDEA搭建及实战
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 . 安装IntelliJ IDEA IDEA 全称 IntelliJ IDEA,是java语 ...
Spark中文指南(入门篇)-Spark编程模型(一)
前言本章将对Spark做一个简单的介绍,更多教程请参考:Spark教程本章知识点概括 Apache Spark简介 Spark的四种运行模式 Spark基于Standlone的运行流程 Spark ...
Spark：Spark 编程模型及快速入门
http://blog.csdn.net/pipisorry/article/details/52366356 Spark编程模型 SparkContext类和SparkConf类代码中初始化我们 ...
转载：Spark中文指南(入门篇)-Spark编程模型(一)
原文:https://www.cnblogs.com/miqi1992/p/5621268.html 前言本章将对Spark做一个简单的介绍,更多教程请参考:Spark教程本章知识点概括 Apac ...
Spark编程模型（RDD编程模型）
Spark编程模型(RDD编程模型) 下图给出了rdd 编程模型,并将下例中用到的四个算子映射到四种算子类型.spark 程序工作在两个空间中:spark rdd空间和 scala原生数据空间.在原 ...

随机推荐

【转】 Pro Android学习笔记（六四）：安全和权限（1）：签发apk
目录(?)[-] Android安全模型数字证书签发 Debug的keystore 生产unsigned的apk 为apk进行证书签发 align安装包使用Export Wizard生成签发的ap ...
Android中EditTex焦点设置和弹不弹出输入法的问题(转)
今天编程碰到了一个问题:有一款平板,打开一个有EditText的Activity会默认弹出输入法.为了解决这个问题就深入研究了下android中焦点Focus和弹出输入法的问题.在网上看了些例子都不够 ...
ASP.NET MVC 3:缓存功能的设计问题
今天这一篇文章我来谈一谈在MVC 3项目中的缓存功能,以及针对缓存的一些设计上的考量,给大家参考参考. 为什么需要讨论缓存?缓存是一个中大型系统所必须考虑的问题.为了避免每次请求都去访问后台的资源(例 ...
oop的方式来操纵时间
减少return 减少传参. 主要是在调用上比以前强大很多,以前很怕操作时间,在一堆函数中传来传去.这个调用爽. class DatetimeConverter: DATETIME_FORMATTER ...
#410(div2)B. Mike and strings
time limit per test 2 seconds memory limit per test 256 megabytes input standard input output standa ...
7.24实习培训日志-Docker-Compose
Docker-Compose 对于昨天的考试,需要项目根目录下需要docker/mysql/Dockerfile 文件用于构建mysql镜像项目根目录下需要docker/java/Dockerfi ...
invalid loc header的解决办法
eclipse 运行程序,报invalid loc header,网上一查,删除maven仓库(默认位于%USERPROFILE%\.m2\repository\org)中的下载包,然后重新下载.
jquery ajax 与 update panel
回调函数
Eclipse插件无法识别的解决方法汇总
参考 http://www.cnblogs.com/apollolee/archive/2013/06/18/3142243.html
git 仓库拆分方案对比
此文已由作者张磊授权网易云社区发布. 欢迎访问网易云社区,了解更多网易技术产品运营经验. 前言 git 拆分仓库在网上已有的案例上来看,分为 submodule 和 subtree. 还有基于这两个方 ...