Spark学习资料共享
链接相关
课件代码:http://pan.baidu.com/s/1nvbkRSt
教学视频:http://pan.baidu.com/s/1c12XsIG
这是最近买的付费教程,对资料感兴趣的可以在下方留下邮件地址,我会定期进行密码发送。
课程简介
以目前主流的,最新的spark稳定版2.1.x为基础,深入浅出地介绍Spark生态系统原理及应用,内容包括Spark各组件(Spark Core/SQL/Streaming/MLlib)基本原理,使用方法,实战经验以及在线演示。本课程精心设计了五个企业级应用案例,帮助大家在理解理论的基础上,亲手实践和应用spark。
课程优化
- 讲述最新、最稳定的Spark2.1.X版本
- 精心设计5个企业级应用案例,更好地实践、应用Spark
面向人群
- 大数据爱好者
- Spark初中级学者
- 对Spark感兴趣、想系统性学习者
学习收益
- 熟练使用Spark, 理解Spark原理,熟知Spark内幕
- 掌握Spark 2.1新增特性并熟练使用
- 用有丰富的Spark企业实战经验
课程大纲
第一部分: Spark 概述
- 第一课:Spark 2.1概述
- Spark产生背景
包括mapreduce缺陷,多计算框架并存等
- Spark产生背景
- Spark 基本特点
- Spark版本演化
- Spark核心概念
包括RDD, transformation, action, cache等
- Spark核心概念
- Spark生态系统
包括Spark生态系统构成,以及与Hadoop生态系统关系
- Spark生态系统
- Spark在互联网公司中的地位与应用
介绍当前互联网公司的Spark应用案例
- Spark在互联网公司中的地位与应用
- Spark集群搭建
包括测试集群搭建和生产环境中集群搭建方法,并亲手演示整个过程
- Spark集群搭建
- 背景知识补充介绍
- a. Hadoop基础
- b. HDFS简介(特点、架构与应用)
- c. YARN简介(架构)
- d. MapReduce简介(编程模型与应用)
- I. Eclipse与Intellij IDEA
- II. Maven
第二部分: Spark Core
- 第二课:Spark 程序设计与企业级应用案例
- Spark运行模式介绍
Spark运行组件构成,spark运行模式(local、standalone、mesos/yarn等)
- Spark运行模式介绍
- Spark开发环境构建
集成开发环境选择,亲手演示spark程序开发与调试,spark运行
- Spark开发环境构建
- 常见transformation与action用法
介绍常见transformation与action使用方法,以及代码片段剖析
- 常见transformation与action用法
- 常见控制函数介绍
包括cache、broadcast、accumulator等
- 常见控制函数介绍
- Spark 应用案例:电影受众分析系统
包括:背景介绍,数据导入,数据分析,常见Spark transformation和action用法在线演示
- Spark 应用案例:电影受众分析系统
- 第三课:Spark 内部原理剖析与源码阅读
- Spark运行模式剖析
深入分析spark运行模式,包括local,standalone以及spark on yarn
- Spark运行模式剖析
- Spark运行流程剖析
包括spark逻辑查询计划,物理查询计划以及分布式执行
- Spark运行流程剖析
- Spark shuffle剖析
深入介绍spark shuffle的实现,主要介绍hash-based和sort-based两种实现
- Spark shuffle剖析
- Spark 源码阅读
Spark源码构成以及阅读方法
- Spark 源码阅读
- 第四课:Spark 程序调优技巧
- 数据存储格式调优
数据存储格式选择,数据压缩算法选择等
- 数据存储格式调优
- 资源调优
如何设置合理的executor、cpu和内存数目,YARN多租户调度器合理设置,启用YARN的标签调度策略等
- 资源调优
- 程序参数调优
介绍常见的调优参数,包括避免不必要的文件分发,调整任务并发度,提高数据本地性,JVM参数调优,序列化等
- 程序参数调优
- 程序实现调优
如何选择最合适的transformation与action函数
- 程序实现调优
- 调优案例分享与演示
演示一个调优案例,如何将一个spark程序的性能逐步优化20倍以上。
- 调优案例分享与演示
第三部分 Spark SQL 2.1
- 第五课:Spark SQL基本原理
- Spark SQL是什么
- Spark SQL基本原理
- Spark Dataframe与DataSet
- Spark SQL与Spark Core的关系
- 第六课:Spark SQL程序设计与企业级应用案例
- Spark SQL程序设计
- a. 如何访问MySQL、HDFS等数据源,如何处理parquet格式数据
- b. 常用的DSL语法有哪些,如何使用
- c. Spark SQL调优技巧
- Spark SQL应用案例:篮球运动员评估系统
- a. 背景介绍
- b. 数据导入
- c. 数据分析
- d. 结论
第四部分 Spark Streaming
- 第七课:Spark Streaming、程序设计及应用案例
- 1.Spark Streaming基本原理
- a. Spark Streaming是什么
- b. Spark Streaming基本原理
- c. Structured Streaming
- d. Spark Streaming 编程接口介绍
- e. Spark Streaming应用案例
- Spark Streaming程序设计与企业级应用案例
- a. 常见流式数据处理模式
- b. Spark Streaming与Kafka 交互
- c. Spark Streaming与Redis交互
- d. Spark Streaming部署与运行
- e. Spark Streaming企业级案例:用户行为实时分析系统
- 1.Spark Streaming基本原理
第五部分 Spark MLlib
- 第八课: Spark MLlib及企业级案例
- Spark MLlib简介
- 数据表示方式
- MLlib中的聚类、分类和推荐算法
- 如何使用MLlib的算法
- Spark MLLib企业级案例:信用卡欺诈检测系统
第六部分Spark综合案例
- 第九课:简易电影推荐系统
- 背景介绍
- 什么是Lambda architecture
- 利用HDFS+Spark Core+MLlib+Redis构建批处理线
- 利用Kafka+Spark Streaming+Redis构建实时处理线
- 整合批处理和实时处理线
- 扩展介绍:Apache beam:统一编程模型及应用
图片相关

Spark学习资料共享的更多相关文章
- Spark学习资料
1. 倾情大奉送--Spark入门实战系列 2. Spark GraphX: http://blog.csdn.net/bluejoe2000/article/details/44308167
- 【福利】送Spark大数据平台视频学习资料
没有套路真的是送!! 大家都知道,大数据行业spark很重要,那话我就不多说了,贴心的大叔给你找了份spark的资料. 多啰嗦两句,一个好的程序猿的基本素养是学习能力和自驱力.视频给了你们,能不能 ...
- spark学习笔记总结-spark入门资料精化
Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用. ...
- 近200篇机器学习&深度学习资料分享(含各种文档,视频,源码等)(1)
原文:http://developer.51cto.com/art/201501/464174.htm 编者按:本文收集了百来篇关于机器学习和深度学习的资料,含各种文档,视频,源码等.而且原文也会不定 ...
- 近200篇机器学习&深度学习资料分享【转载】
编者按:本文收集了百来篇关于机器学习和深度学习的资料,含各种文档,视频,源码等.而且原文也会不定期的更新,望看到文章的朋友能够学到更多. <Brief History of Machine Le ...
- 机器学习&深度学习资料分享
感谢:https://github.com/ty4z2008/Qix/blob/master/dl.md <Brief History of Machine Learning> 介绍:这是 ...
- 近200篇机器学习&深度学习资料分享
编者按:本文收集了百来篇关于机器学习和深度学习的资料,含各种文档,视频,源码等.并且原文也会不定期的更新.望看到文章的朋友能够学到很多其它. <Brief History of Machine ...
- [Python] 学习资料汇总
Python是一种面向对象的解释性的计算机程序设计语言,也是一种功能强大且完善的通用型语言,已经有十多年的发展历史,成熟且稳定.Python 具有脚本语言中最丰富和强大的类库,足以支持绝大多数日常应用 ...
- 【转】iOS超全开源框架、项目和学习资料汇总
iOS超全开源框架.项目和学习资料汇总(1)UI篇iOS超全开源框架.项目和学习资料汇总(2)动画篇iOS超全开源框架.项目和学习资料汇总(3)网络和Model篇iOS超全开源框架.项目和学习资料汇总 ...
随机推荐
- iOS 滑动页面标题切换颜色渐变效果
话不多说,直接上图,要实现类似如下效果. 这个效果非常常见,这里着重讲讲核心功能 封装顶部的PageTitleView 封装构造函数 封装构造函数,让别人在创建对象时,就传入其实需要显示的内容 fra ...
- linux cut命令详解
cut是一个选取命令,就是将一段数据经过分析,取出我们想要的.一般来说,选取信息通常是针对"行"来进行分析的,并不是整篇信息分析的. (1)其语法格式为:cut [-bn] [f ...
- Node.js基本开发流程
创建一个hello world: 1.打开一个文本编辑器,在其中输入console.log("hello world"),并保存为hello.js; 注意:输入中文如果编码不是ut ...
- 【机器学习】神经网络实现异或(XOR)
注:在吴恩达老师讲的[机器学习]课程中,最开始介绍神经网络的应用时就介绍了含有一个隐藏层的神经网络可以解决异或问题,而这是单层神经网络(也叫感知机)做不到了,当时就觉得非常神奇,之后就一直打算自己实现 ...
- mysql性能优化配置总结
看了一些优化mysql运维的一些书籍,在此记录总结下:进入mysql客户端输入以下sql:1.连接设置 show variables like '%max_connection%'; show sta ...
- JavaScript 函数的定义-调用、注意事项
函数定义 函数语句定义 function(a,b){ return a+b; } 表达式定义 var add = function(a,b){return a+b}; //函数表达式可以包含名称,这在 ...
- 通过virtualbox最小化安装centos 6.3后无法上网解决办法
通过virtualbox最小化安装centos 6.3后无法上网解决办法 1.设置virtualbox的网络连接方式,如下图使用桥接方式,桥接的网卡为宿主正在上网的网卡,现在我是通过无线来上网的,所以 ...
- css3 新属性
一 选择器1 兄弟选择器 0 以第一个选择器开始,往后找满足条件的兄弟节点 class~class() <-- lorem+数字 -tab --> 可以输出默认文字2 属性选择器 标签[a ...
- Markdown - 语法简介
标题 在文字里书写不同数量的“#”可以完成不同的标题,如下: # 一级标题 ## 二级标题 ### 三级标题 #### 四级标题 ##### 五级标题 ###### 六级标题 列表 无序列表的使用,在 ...
- bzoj 3028: 食物 -- 母函数
3028: 食物 Time Limit: 3 Sec Memory Limit: 128 MB Description 明明这次又要出去旅游了,和上次不同的是,他这次要去宇宙探险! 我们暂且不讨论他 ...