Spark应用开发

要求:

  1. 了解Spark基本原理
  2. 搭建Spark开发环境
  3. 开发Spark应用程序
  4. 调试运行Spark应用程序

YARN资源调度,可以和Hadoop集群无缝对接

Spark适用场景
大多数现有集群计算框架如MapReduce等基于从稳定存储(文件系统)到稳定存储的非循环数据流,数据重用都是基于磁盘的,执行效率比较低。
与传统的MapReduce任务频繁读写磁盘数据相比,基于内存计算的Spark则更适合应用在迭代计算,交互式分析等场景。

Spark应用运行流程--关键角色

  • Client:需求提出方,负责提交需求(应用)。
  • Driver:负责应用的业务逻辑和运行规划(DAG)。
  • ApplicationMaster:负责应用的资源管理,根据应用的需求,向资源管理部门(ResourceManager)申请资源。
  • ResourceManager:资源管理部门,负责整个集群的资源统一调度和分配
  • Executor:负责实际计算工作,一个应用会分拆给多个Executor来进行计算。

Spark核心概念--RDD
RDD(Resilient Distributed Datasets)即弹性分布式数据集,指的是一个只读的,可分区的分布式数据集。这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。
RDD的生成

  1. 从Hadoop文件系统(或与Hadoop兼容的其它存储系统)输入创建(如HDFS)
  2. 从集群创建(如sc.Parallelize)。
  3. 从夫RDD转换得到新的RDD。

RDD的存储和分区

  1. 用户可以选择不同的存储级别存储RDD以便重用(11种)
  2. 当前RDD默认存储于内存,但当内存不足时,RDD会溢出到磁盘中。
  3. RDD在需要进行分区时会根据每条记录Key进行分区,以此保证两个数据集能高效进行Join操作。

RDD的优点

  1. RDD是只读的,可提供更高的容错能力
  2. RDD的不可变性,可以实现Hadoop MapReduce的推测式执行
  3. RDD的数据分区特性可以通过数据的本地性来提高性能。
  4. RDD都是可序列化的,在内存不足时可自动降级为磁盘存储。

RDD的特点

  1. 在集群节点上时不可变的,是已分区的集合对象。
  2. 失败后自动重连
  3. 可以控制存储级别(内存、磁盘等)来进行重用。
  4. 必须是可序列化的
  5. 是静态类型。

RDD的创建
Spark所有操作都围绕弹性分布式数据集(RDD)进行,这是一个有容错机制并可以被并行操作的元素集合,具有只读,分区,容错,高效,无需物化,可以缓存,RDD依赖等特征。
目前有两种类型的基础RDD:

  1. 并行集合:接受一个已经存在的Scala集合,然后进行并行计算
  2. Hadoop数据集:在一个文件的每条记录上运行函数。

RDD的创建--并行集合
并行集合是通过调用SparkContext的parallelize方法,在一个已经存在的Scala集合(一个Seq对象)上创建的。
集合的对象将会被拷贝,创建出一个可以被并行操作的分布式数据集。

RDD依赖:宽依赖和窄依赖
RDD父子依赖关系

  • 窄依赖:(Narrow)指父RDD的每一个分区最多被一个子RDD的分区所用。
  • 宽依赖:(Wide)指子RDD的分区依赖于父RDD的所有分区,是Stage划分的依据。
  • RDD常用Transformation算子
  • RDD常用Action算子

Spark任务参数配置

  • Spark优先级是:配置文件<动态参数<代码配置

相同的数据,只创建一个RDD

算法调优--RDD缓存

  • Spark可以使用persist和cache方法将任意RDD缓存到内存、磁盘文件系统中。

算法调优--避免使用Shuffle

  • Shuffle过程会有整个RDD数据的写和读的操作,成本非常高。

算法调优--使用广播变量
外部变量:

  • 每个task都有一个变量副本。

广播变量:

  • 每个Executor保留一份。

编写代码

  1. 登陆
  2. 创建连接
  3. 执行SQL
  4. 获取结果

DataFrame介绍
DataFrame:已RDD为基础,带有Schema信息,类似传统数据库的二维表。

编写代码

    1. 登陆
    2. 注册Table
    3. 执行SQL
    4. 过滤

FusionInsight大数据开发---Spark应用开发的更多相关文章

  1. FusionInsight大数据开发学习总结(1)

    FusionInsight大数据开发 FusionInsight HD是一个大数据全栈商用平台,支持各种通用大数据应用场景. 技能需求 扎实的编程基础 Java/Scala/python/SQL/sh ...

  2. 大数据全栈式开发语言 – Python

    前段时间,ThoughtWorks在深圳举办一次社区活动上,有一个演讲主题叫做“Fullstack JavaScript”,是关于用JavaScript进行前端.服务器端,甚至数据库(MongoDB) ...

  3. 为什么说Python 是大数据全栈式开发语言

    欢迎大家访问我的个人网站<刘江的博客和教程>:www.liujiangblog.com 主要分享Python 及Django教程以及相关的博客 交流QQ群:453131687 原文链接 h ...

  4. 大数据之 Spark

    1 渊源 于2009由Matei Zaharia创立了spark大数据处理和计算框架,基于内存,用scala编写. 2 部署 2.1 需要软件包 下载路径见已有博文 Jdk ——因为运行环境为jvm ...

  5. 【互动问答分享】第15期决胜云计算大数据时代Spark亚太研究院公益大讲堂

    "决胜云计算大数据时代" Spark亚太研究院100期公益大讲堂 [第15期互动问答分享] Q1:AppClient和worker.master之间的关系是什么? AppClien ...

  6. 【互动问答分享】第13期决胜云计算大数据时代Spark亚太研究院公益大讲堂

    “决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第13期互动问答分享] Q1:tachyon+spark框架现在有很多大公司在使用吧? Yahoo!已经在长期大规模使用: 国内也有 ...

  7. 【互动问答分享】第10期决胜云计算大数据时代Spark亚太研究院公益大讲堂

    “决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第10期互动问答分享] Q1:Spark on Yarn的运行方式是什么? Spark on Yarn的运行方式有两种:Client ...

  8. 【互动问答分享】第8期决胜云计算大数据时代Spark亚太研究院公益大讲堂

    “决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第8期互动问答分享] Q1:spark线上用什么版本好? 建议从最低使用的Spark 1.0.0版本,Spark在1.0.0开始核心 ...

  9. 【互动问答分享】第7期决胜云计算大数据时代Spark亚太研究院公益大讲堂

    “决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第7期互动问答分享] Q1:Spark中的RDD到底是什么? RDD是Spark的核心抽象,可以把RDD看做“分布式函数编程语言”. ...

  10. 【互动问答分享】第6期决胜云计算大数据时代Spark亚太研究院公益大讲堂

    “决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第6期互动问答分享] Q1:spark streaming 可以不同数据流 join吗? Spark Streaming不同的数据流 ...

随机推荐

  1. SpringBoot集成JWT

        JWT(json web tokens)是目前比较流行的跨域认证解决方案:说通俗点就是比较流行的token生成和校验的方案.碰巧公司有个app的项目的token采用了jwt方案,因此记录下后端 ...

  2. 微信公众号 $GLOBALS['HTTP_RAW_POST_DATA']数据问题

    公司的微信公众号最近出现问题,所有的功能都不能用,一开始以为是微信公众号验证的问题,经过排查才发现是$GLOBALS['HTTP_RAW_POST_DATA']这里的问题,微信公众号会把用户的一些操作 ...

  3. MySQL数据库(七)--索引

    一 .介绍 为何要有索引? 一般的应用系统,读写比例在10:1左右,而且插入操作和一般的更新操作很少出现性能问题,在生产环境中,我们遇到最多的,也是最容易出问题的,还是一些复杂的查询操作,因此对查询语 ...

  4. python 的 encode 、decode、字节串、字符串

    一.摆个图 DJ  DJ  DJ   Decode. J 解码 首先得知道字符串有哪些编码格式,至于为什么会有这么多的编码格式,以后再了解更新. 1.ASCII 占1个字节,只支持英文 2.GB231 ...

  5. Unity检测面板旋转值超过180度成负数的离奇bug

    问题描述: 无意中在检视面板上对游戏物体的tansform进行旋转,结果发现旋转超过180度成负数的离奇bug 解决方案: 创建个新的unity工程,进行如上操作,一切正常…… 怀疑问题根源是配置出现 ...

  6. android 发布时去除Log

    1) project.properties文件里,去掉下面一行的注释: # To enable ProGuard to shrink and obfuscate your code, uncommen ...

  7. Java String语法

    String类代表字符串. Java程序中的所有字符串文字(例如"abc" )都被实现为此类的实例. 字符串不变; 它们的值在创建后不能被更改. 字符串缓冲区支持可变字符串. 因为 ...

  8. 在CentOS 7 中安装Docker

    https://birdteam.net/135360 sudo systemctl enable docker sudo systemctl start docker

  9. 在VMMap中跟踪不可用的虚拟内存

    VMMap是一个很好的系统内部工具,它可以可视化特定进程的虚拟内存,并帮助理解内存的用途.它有线程堆栈.映像.Win32堆和GC堆的特定报告.有时,VMMap会报告不可用的虚拟内存,这与可用内存不同. ...

  10. 图文详解如何使用VMWare创建一套虚拟机“集群”

    开篇废话 在学习各种高大上的大数据产品也好,模拟部署我们的程序到PRD环境也好,总离不开需要一个机器集群.然而通常我们都没有那么多银子去购买多台云服务器,更没钱购买物理机.所以对于技术研究来说,最经济 ...