Spark 大数据处理最佳实践

开源大数据社区 & 阿里云 EMR 系列直播第十一期

主题：Spark 大数据处理最佳实践

讲师：简锋，阿里云 EMR 数据开发平台负责人

内容框架：

大数据概览
如何摆脱技术小白
Spark SQL 学习框架
EMR Studio 上的大数据最佳实践

直播回放：进入链接https://developer.aliyun.com/live/247072

一、大数据概览

大数据处理 ETL (Data → Data)
大数据分析 BI (Data → Dashboard)
机器学习 AI (Data → Model)

二、如何摆脱技术小白

什么是技术小白？

只懂表面，不懂本质

比如：只懂得参考别人的 Spark 代码，不懂得 Spark 的内在机制，不懂得如何调优 Spark Job

摆脱技术小白的药方

懂得运行机制
学会配置
学会看 Log

懂得运行机制：Spark SQL Architecture

学会配置：如何配置 Spark App

配置 Driver

• spark.driver.memory

• spark.driver.cores

配置 Executor

• spark.executor.memory

• spark.executor.cores

配置 Runtime

• spark.files

• spark.jars

配置 DAE
…..........

参考网址：https://spark.apache.org/docs/latest/configuration.html

学会看 Log：Spark Log

三、Spark SQL 学习框架

Spark SQL 学习框架( 结合图形/几何）

1. Select Rows

2. Select Columns

3. Transform Column

4. Group By / Aggregation

5. Join

Spark SQL 执行计划

1. Spark SQL - Where

2. Spark SQL - Group By

3. Spark SQL - Order by

四、EMR Studio 实践

EMR Studio 特性：

兼容开源组件
支持连接多个集群
适配多个计算引擎
交互式开发 + 作业调度无缝衔接
适用多种大数据应用场景
计算存储分离

1. 兼容开源组件

EMR Studio 在开源软件 Apache Zeppelin，Jupyter Notebook, Apache Airflow 的基础上优化了做了优化和增强。

2. 支持连接多个集群

一个 EMR Studio 可以连接多个 EMR 计算集群，您可以很方便地切换计算集群，提交作业到不同的计算集群上运行。

3. 适配多个计算引擎

自动适配 Hive、Spark、Flink、Presto、Impala 和 Shell 等多个计算引擎，无需复杂配置，多个计算引擎间协同工作

4. 交互式开发 + 作业调度无缝衔接

Notebook + Airflow : 无缝衔接开发环节和生产调度环节

利用交互式开发模式可以快速验证作业的正确性.
在 Airflow 里调度 Notebook 作业，最大程度得保证开发环境和生产环境的一致性，防止由于开发阶段和生产阶段环境不一致而导致的问题。

5. 适用多种大数据应用场景

大数据处理 ETL
交互式数据分析
机器学习
实时计算

6. 计算存储分离

所有数据都保存在 OSS 上，包括：

• 用户 Notebook 代码

• 调度作业 Log

即使集群销毁，也可以重建集群轻松恢复数据

EMR Studio Demo 演示：

参考文档：https://help.aliyun.com /document_detail /208107.html?spm=a2c4g.11186623.6.845.6cfc24577t1RbI

原文链接

本文为阿里云原创内容，未经允许不得转载。

Spark 大数据处理最佳实践的更多相关文章

《Spark大数据处理：技术、应用与性能优化》
基本信息作者: 高彦杰丛书名:大数据技术丛书出版社:机械工业出版社 ISBN:9787111483861 上架时间:2014-11-5 出版日期:2014 年11月开本:16开页码:255 ...
《Spark大数据处理：技术、应用与性能优化》【PDF】下载
内容简介 <Spark大数据处理:技术.应用与性能优化>根据最新技术版本,系统.全面.详细讲解Spark的各项功能使用.原理机制.技术细节.应用方法.性能优化,以及BDAS生态系统的相关技 ...
《Spark大数据处理：技术、应用与性能优化》【PDF】
内容简介 <Spark大数据处理:技术.应用与性能优化>根据最新技术版本,系统.全面.详细讲解Spark的各项功能使用.原理机制.技术细节.应用方法.性能优化,以及BDAS生态系统的相关技 ...
Spark大数据处理技术
全球首部全面介绍Spark及Spark生态圈相关技术的技术书籍俯览未来大局,不失精细剖析,呈现一个现代大数据框架的架构原理和实现细节透彻讲解Spark原理和架构,以及部署模式.调度框架.存储管理及 ...
Spark大数据处理之从WordCount看Spark大数据处理的核心机制（1）
大数据处理肯定是分布式的了,那就面临着几个核心问题:可扩展性,负载均衡,容错处理.Spark是如何处理这些问题的呢?接着上一篇的"动手写WordCount",今天要做的就是透过这个 ...
Spark大数据处理之动手写WordCount
Spark是主流的大数据处理框架,具体有啥能耐,相信不需要多说.我们开门见山,直接动手写大数据界的HelloWorld:WordCount. 先上完整代码,看看咋样能入门. import org.ap ...
Spark大数据处理之从WordCount看Spark大数据处理的核心机制（2）
在上一篇文章中,我们讲了Spark大数据处理的可扩展性和负载均衡,今天要讲的是更为重点的容错处理,这涉及到Spark的应用场景和RDD的设计来源. Spark的应用场景 Spark主要针对两种场景: ...
Spark大数据处理之 RDD粗粒度转换的威力
在从WordCount看Spark大数据处理的核心机制(2)中我们看到Spark为了支持迭代和交互式数据挖掘,而明确提出了内存中可重用的数据集RDD.RDD的只读特性,再加上粗粒度转换操作形成的Lin ...
Spark大数据处理框架入门(单机版)
导读引言环境准备安装步骤 1.下载地址 2.开始下载 3.解压spark 4.配置环境变量 5.配置 spark-env.sh 6.启动spark服务 7.测试spark stay hungry ...
ceph hadoop spark 大数据处理
http://docs.ceph.com/docs/giant/cephfs/hadoop/ https://indico.cern.ch/event/524549/contributions/218 ...

随机推荐

Ubuntu设置初始root密码，开启远程访问
[Ubuntu设置初始root密码,开启远程访问] 初始化root密码 ubuntu安装好后,root初始密码(默认密码)不知道,需要设置. 先用安装时候的用户登录进入系统输入:sudo passw ...
恶意软件开发（五）Linux shellcoding
什么是shellcode? Shellcode通常指的是一段用于攻击的机器码(二进制代码),可以被注入到目标计算机中并在其中执行.Shellcode 的目的是利用目标系统的漏洞或弱点,以获取系统控制权 ...
Kubernetes客户端认证（三）—— Kubernetes使用CertificateSigningRequest方式签发客户端证书
1.概述在<Kubernetes客户端认证(一)-- 基于CA证书的双向认证方式>和<Kubernetes客户端认证(二)-- 基于ServiceAccount的JWTToken认 ...
Go | 浅谈包管理模式
任何一门编程语言都离不开对各种工具包的使用,工具包的管理就显得异常重要了.Go 的包管理方式是逐渐演进的,本文介绍Go语言的两种包管理模式. GOPATH模式引包(不推荐) 在 1.5 版本之前,所有 ...
Loto实践干货(9) 示波器测晶振
我们用LOTO示波器的多个型号,带宽从20M到100M,分别测无源和有源晶振的情况.分别测试了12M,15M,24M,48M,80M晶振的波形.并分析了为什么我们经常测出晶振波形不是方波?为什么有时候 ...
KingbaseES KWR中等待事件分析案例
背景昨天有现场同事碰到了一个现象,一条简单的update语句运行缓慢.单独运行没有问题,在特定时间运行就会非常缓慢,怀疑是业务系统特殊逻辑导致数据库有阻塞引发的update语句慢的现象.故此现场同事 ...
Chrome浏览器使用小技巧
前言 Notes made by IT-Pupil-Poo-Poo-Cai(IT小学生蔡坨坨). The notes are for reference only. Personal blog:www ...
NUMA 平台
What is NUMA? This question can be answered from a couple of perspectives: the hardware view and the ...
突然连不上Github或者连接超时的解决办法
问题描述当进行仓库pull或者push时,报错如下(连接失败/被拒绝/超时等): Failed to connect to github.com port 443: Connection refuse ...
#树形dp，二次扫描换根法#JZOJ 3501 消息传递 with others
目录 JZOJ 3501 消息传递题目分析代码简单写就能跳过之题目 JZOJ 3500 物语题目分析代码 JZOJ 3757 洛谷 2354 [NOI 2014] 随机数产生器题目分 ...