FusionInsight大数据开发---Spark应用开发

Spark应用开发

要求：

了解Spark基本原理
搭建Spark开发环境
开发Spark应用程序
调试运行Spark应用程序

YARN资源调度，可以和Hadoop集群无缝对接

Spark适用场景
大多数现有集群计算框架如MapReduce等基于从稳定存储（文件系统）到稳定存储的非循环数据流，数据重用都是基于磁盘的，执行效率比较低。
与传统的MapReduce任务频繁读写磁盘数据相比，基于内存计算的Spark则更适合应用在迭代计算，交互式分析等场景。

Spark应用运行流程--关键角色

Client：需求提出方，负责提交需求（应用）。
Driver：负责应用的业务逻辑和运行规划（DAG）。
ApplicationMaster：负责应用的资源管理，根据应用的需求，向资源管理部门（ResourceManager）申请资源。
ResourceManager：资源管理部门，负责整个集群的资源统一调度和分配
Executor：负责实际计算工作，一个应用会分拆给多个Executor来进行计算。

Spark核心概念--RDD
RDD（Resilient Distributed Datasets)即弹性分布式数据集，指的是一个只读的，可分区的分布式数据集。这个数据集的全部或部分可以缓存在内存中，在多次计算间重用。
RDD的生成

从Hadoop文件系统（或与Hadoop兼容的其它存储系统）输入创建（如HDFS）
从集群创建（如sc.Parallelize）。
从夫RDD转换得到新的RDD。

RDD的存储和分区

用户可以选择不同的存储级别存储RDD以便重用（11种）
当前RDD默认存储于内存，但当内存不足时，RDD会溢出到磁盘中。
RDD在需要进行分区时会根据每条记录Key进行分区，以此保证两个数据集能高效进行Join操作。

RDD的优点

RDD是只读的，可提供更高的容错能力
RDD的不可变性，可以实现Hadoop MapReduce的推测式执行
RDD的数据分区特性可以通过数据的本地性来提高性能。
RDD都是可序列化的，在内存不足时可自动降级为磁盘存储。

RDD的特点

在集群节点上时不可变的，是已分区的集合对象。
失败后自动重连
可以控制存储级别（内存、磁盘等）来进行重用。
必须是可序列化的
是静态类型。

RDD的创建
Spark所有操作都围绕弹性分布式数据集（RDD）进行，这是一个有容错机制并可以被并行操作的元素集合，具有只读，分区，容错，高效，无需物化，可以缓存，RDD依赖等特征。
目前有两种类型的基础RDD：

并行集合：接受一个已经存在的Scala集合，然后进行并行计算
Hadoop数据集：在一个文件的每条记录上运行函数。

RDD的创建--并行集合
并行集合是通过调用SparkContext的parallelize方法，在一个已经存在的Scala集合（一个Seq对象）上创建的。
集合的对象将会被拷贝，创建出一个可以被并行操作的分布式数据集。

RDD依赖：宽依赖和窄依赖
RDD父子依赖关系

窄依赖：（Narrow）指父RDD的每一个分区最多被一个子RDD的分区所用。
宽依赖：（Wide）指子RDD的分区依赖于父RDD的所有分区，是Stage划分的依据。

RDD常用Transformation算子
RDD常用Action算子

Spark任务参数配置

Spark优先级是：配置文件<动态参数<代码配置

相同的数据，只创建一个RDD

算法调优--RDD缓存

Spark可以使用persist和cache方法将任意RDD缓存到内存、磁盘文件系统中。

算法调优--避免使用Shuffle

Shuffle过程会有整个RDD数据的写和读的操作，成本非常高。

算法调优--使用广播变量
外部变量：

每个task都有一个变量副本。

广播变量：

每个Executor保留一份。

编写代码

登陆
创建连接
执行SQL
获取结果

DataFrame介绍
DataFrame：已RDD为基础，带有Schema信息，类似传统数据库的二维表。

编写代码

登陆
注册Table
执行SQL
过滤

FusionInsight大数据开发---Spark应用开发的更多相关文章

FusionInsight大数据开发学习总结（1）
FusionInsight大数据开发 FusionInsight HD是一个大数据全栈商用平台,支持各种通用大数据应用场景. 技能需求扎实的编程基础 Java/Scala/python/SQL/sh ...
大数据全栈式开发语言 – Python
前段时间,ThoughtWorks在深圳举办一次社区活动上,有一个演讲主题叫做“Fullstack JavaScript”,是关于用JavaScript进行前端.服务器端,甚至数据库(MongoDB) ...
为什么说Python 是大数据全栈式开发语言
欢迎大家访问我的个人网站<刘江的博客和教程>:www.liujiangblog.com 主要分享Python 及Django教程以及相关的博客交流QQ群:453131687 原文链接 h ...
大数据之 Spark
1 渊源于2009由Matei Zaharia创立了spark大数据处理和计算框架,基于内存,用scala编写. 2 部署 2.1 需要软件包下载路径见已有博文 Jdk ——因为运行环境为jvm ...
【互动问答分享】第15期决胜云计算大数据时代Spark亚太研究院公益大讲堂
"决胜云计算大数据时代" Spark亚太研究院100期公益大讲堂 [第15期互动问答分享] Q1:AppClient和worker.master之间的关系是什么? AppClien ...
【互动问答分享】第13期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第13期互动问答分享] Q1:tachyon+spark框架现在有很多大公司在使用吧? Yahoo!已经在长期大规模使用: 国内也有 ...
【互动问答分享】第10期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第10期互动问答分享] Q1:Spark on Yarn的运行方式是什么? Spark on Yarn的运行方式有两种:Client ...
【互动问答分享】第8期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第8期互动问答分享] Q1:spark线上用什么版本好? 建议从最低使用的Spark 1.0.0版本,Spark在1.0.0开始核心 ...
【互动问答分享】第7期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第7期互动问答分享] Q1:Spark中的RDD到底是什么? RDD是Spark的核心抽象,可以把RDD看做“分布式函数编程语言”. ...
【互动问答分享】第6期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第6期互动问答分享] Q1:spark streaming 可以不同数据流 join吗? Spark Streaming不同的数据流 ...

随机推荐

SpringBoot集成JWT
JWT(json web tokens)是目前比较流行的跨域认证解决方案:说通俗点就是比较流行的token生成和校验的方案.碰巧公司有个app的项目的token采用了jwt方案,因此记录下后端 ...
微信公众号 $GLOBALS['HTTP_RAW_POST_DATA']数据问题
公司的微信公众号最近出现问题,所有的功能都不能用,一开始以为是微信公众号验证的问题,经过排查才发现是$GLOBALS['HTTP_RAW_POST_DATA']这里的问题,微信公众号会把用户的一些操作 ...
MySQL数据库（七）--索引
一 .介绍为何要有索引? 一般的应用系统,读写比例在10:1左右,而且插入操作和一般的更新操作很少出现性能问题,在生产环境中,我们遇到最多的,也是最容易出问题的,还是一些复杂的查询操作,因此对查询语 ...
python 的 encode 、decode、字节串、字符串
一.摆个图 DJ DJ DJ Decode. J 解码首先得知道字符串有哪些编码格式,至于为什么会有这么多的编码格式,以后再了解更新. 1.ASCII 占1个字节,只支持英文 2.GB231 ...
Unity检测面板旋转值超过180度成负数的离奇bug
问题描述: 无意中在检视面板上对游戏物体的tansform进行旋转,结果发现旋转超过180度成负数的离奇bug 解决方案: 创建个新的unity工程,进行如上操作,一切正常…… 怀疑问题根源是配置出现 ...
android 发布时去除Log
1) project.properties文件里,去掉下面一行的注释: # To enable ProGuard to shrink and obfuscate your code, uncommen ...
Java String语法
String类代表字符串. Java程序中的所有字符串文字(例如"abc" )都被实现为此类的实例. 字符串不变; 它们的值在创建后不能被更改. 字符串缓冲区支持可变字符串. 因为 ...
在CentOS 7 中安装Docker
https://birdteam.net/135360 sudo systemctl enable docker sudo systemctl start docker
在VMMap中跟踪不可用的虚拟内存
VMMap是一个很好的系统内部工具,它可以可视化特定进程的虚拟内存,并帮助理解内存的用途.它有线程堆栈.映像.Win32堆和GC堆的特定报告.有时,VMMap会报告不可用的虚拟内存,这与可用内存不同. ...
图文详解如何使用VMWare创建一套虚拟机“集群”
开篇废话在学习各种高大上的大数据产品也好,模拟部署我们的程序到PRD环境也好,总离不开需要一个机器集群.然而通常我们都没有那么多银子去购买多台云服务器,更没钱购买物理机.所以对于技术研究来说,最经济 ...

FusionInsight大数据开发---Spark应用开发

Spark应用开发

FusionInsight大数据开发---Spark应用开发的更多相关文章

随机推荐

热门专题