Spark学习体系整理(基础篇、中级篇、高级篇所涉及内容)
新手刚开始学习比较迷茫,参考下面,然后找相关资料学习
1 Spark基础篇
1.1 Spark生态和安装部署
在安装过程中,理解其基本操作步骤。
安装部署
Spark安装简介
Spark的源码编译
Spark Standalone安装
Spark Standalone HA安装
Spark应用程序部署工具spark-submit
Spark生态
Spark(内存计算框架)
SparkSteaming(流式计算框架)
Spark SQL(ad-hoc)
Mllib(Machine Learning)
GraphX(bagel将被取代)
1.2 Spark运行架构和解析
Spark的运行架构
基本术语
运行架构
Spark on Standalone运行过程
Spark on YARN 运行过程
Spark运行实例解析
Spark on Standalone实例解析
Spark on YARN实例解析
1.3 Spark的监控和调优
Spark的监控
Spark UI监控,默认端口是4040
Ganglia 监控,大数据监控开源框架
Spark调优
基础性调优方式
1.4 Spark编程模型
Spark的编程模型
Spark编程模型解析
RDD的特点、操作、依赖关系
Spark应用程序的配置
Spark编程实例解析
日志的处理
1.5 Spark Streaming原理
Spark流式处理架构
DStream的特点
Dstream的操作和RDD的区别
Spark Streaming的优化
Spark Streaming实例分析
常用的实例程序:
文本实例
Window操作
网络数据处理
1.6 Spark SQL原理
Spark SQL的Catalyst优化器
Spark SQL内核
Spark SQL和Hive
Spark SQL的实例
Spark SQL的实例操作demo
Spark SQL的编程,需要网络上查找一些资源
2 中级篇
2.1 Spark的多语言编程
Spark的scala编程
Spark的Python编程(Java一定熟悉啦,不用多说了)
对应的应用程序实例,理解基本的处理模式。
2.2 Spark 机器学习入门
机器学习的原理
Mllib简介,实例分析
2.3 GraphX 入门
图论基础
GraphX的简介
GraphX例程分析
2.4 理解Spark与其它项目的区别和联系
Spark和MapReduce、Tez
Spark的衍生项目BlinkDB,RSpark
2.5 关注Spark的作者的blog和权威网站的文档
3 高级篇
3.1 深入理解Spark的架构和处理模式
3.2 Spark源码剖析与研读
Spark Core核心模块,
掌握下面核心功能的处理逻辑:
SparkContext
Executor
Deploy
RDD和Storage
Scheduler和Task
Spark Examples
3.3 思考如何优化和提升,掌握其优缺点,
深入思考能不能衍生出有意思的课题。
Spark学习体系整理(基础篇、中级篇、高级篇所涉及内容)的更多相关文章
- Spark学习体系
底理解Spark,能够分为以下几个层次. 1 Spark基础篇 1.1 Spark生态和安装部署 在安装过程中,理解其基本操作步骤. 安装部署 Spark安装简单介绍 Spark的源代码编译 Spar ...
- #Java学习之路——基础阶段二(第二篇)
我的学习阶段是跟着CZBK黑马的双源课程,学习目标以及博客是为了审查自己的学习情况,毕竟看一遍,敲一遍,和自己归纳总结一遍有着很大的区别,在此期间我会参杂Java疯狂讲义(第四版)里面的内容. 前言: ...
- #Java学习之路——基础阶段(第三篇)
我的学习阶段是跟着CZBK黑马的双源课程,学习目标以及博客是为了审查自己的学习情况,毕竟看一遍,敲一遍,和自己归纳总结一遍有着很大的区别,在此期间我会参杂Java疯狂讲义(第四版)里面的内容. 前言: ...
- #Java学习之路——基础阶段二(第九篇)
我的学习阶段是跟着CZBK黑马的双源课程,学习目标以及博客是为了审查自己的学习情况,毕竟看一遍,敲一遍,和自己归纳总结一遍有着很大的区别,在此期间我会参杂Java疯狂讲义(第四版)里面的内容. 前言: ...
- #Java学习之路——基础阶段二(第一篇)
我的学习阶段是跟着CZBK黑马的双源课程,学习目标以及博客是为了审查自己的学习情况,毕竟看一遍,敲一遍,和自己归纳总结一遍有着很大的区别,在此期间我会参杂Java疯狂讲义(第四版)里面的内容. 前言: ...
- #Java学习之路——基础阶段(第十一篇)
我的学习阶段是跟着CZBK黑马的双源课程,学习目标以及博客是为了审查自己的学习情况,毕竟看一遍,敲一遍,和自己归纳总结一遍有着很大的区别,在此期间我会参杂Java疯狂讲义(第四版)里面的内容. 前言: ...
- #Java学习之路——基础阶段(第十篇)
我的学习阶段是跟着CZBK黑马的双源课程,学习目标以及博客是为了审查自己的学习情况,毕竟看一遍,敲一遍,和自己归纳总结一遍有着很大的区别,在此期间我会参杂Java疯狂讲义(第四版)里面的内容. 前言: ...
- #Java学习之路——基础阶段(第八篇)
我的学习阶段是跟着CZBK黑马的双源课程,学习目标以及博客是为了审查自己的学习情况,毕竟看一遍,敲一遍,和自己归纳总结一遍有着很大的区别,在此期间我会参杂Java疯狂讲义(第四版)里面的内容. 前言: ...
- #Java学习之路——基础阶段(第七篇)
我的学习阶段是跟着CZBK黑马的双源课程,学习目标以及博客是为了审查自己的学习情况,毕竟看一遍,敲一遍,和自己归纳总结一遍有着很大的区别,在此期间我会参杂Java疯狂讲义(第四版)里面的内容. 前言: ...
随机推荐
- linux安装数据库删除
https://blog.csdn.net/qq_40550973/article/details/80721014 卸载mysql .快速删除 yum remove mysql mysql-serv ...
- i++为什么是线程不安全的
主要是因为i++这个操作不是原子性的,它会编译成 i = i +1: 其实是做了3个步骤,一个是读取,修改,写入 .所以会出现多线程访问冲突问题. 可以结合Java内存模型来进行说明.
- 前端打印功能实现及css设置
首先是使用下边代码,实现js局部打印功能.参数dom为需要打印的节点,为了保证页面功能的单一性,最好弹出一个新的预览页面完成打印功能. function print(dom){ var body = ...
- Linux运维第二天:安装虚拟机软件及RHEL7.2 64位系统
第一步:安装虚拟机 一路默认就行啦(还是要改下安装路径,嘿嘿) 第二步:安装RHEL7.2 64位系统 1.新建一个虚拟机 典型和自定义随便选(最后都可以调的) 一般大婶都喜欢选自定义(自己可以设置的 ...
- iptables详解(13):iptables动作总结之二
概述 阅读这篇文章需要站在前文的基础上,如果你在阅读时遇到障碍,请参考之前的文章. 前文中,我们已经了解了如下动作 ACCEPT.DROP.REJECT.LOG 今天,我们来认识几个新动作,它们是: ...
- 使用 C++ 多态时需要注意的问题
本文为大便一箩筐的原创内容,转载请注明出处,谢谢:http://www.cnblogs.com/dbylk/ 最近工作中遇到一些关于使用多态的细节问题,在此记录一下. 一.多态和模板匹配 模板是 C+ ...
- ( 转)Sqlserver中tinyint, smallint, int, bigint的区别 及 10进制转换16进制的方法
一.类型比较 bigint:从-2^63(-9223372036854775808)到2^63-1(9223372036854775807)的整型数据,存储大小为 8 个字节.一个字节就是8位,那么b ...
- 随机生成验证码及python中的事务
1.随机生成验证码 # import random # print(random.random()) #-1的小数 # print(random.randint(,)) #包括1和3 # print( ...
- windows 下git 的配置安装与使用
一.安装GIT(过于简单略过) 二.配置git 二(一).配置git的user name和email 打开 git bash,输入 $ git config --global user.name &q ...
- QT 相关书籍
qt qucik 核心编程 个人觉得此书写得非常之好....这位作者的另外一本虽然没看过,估计也不错 https://bbs.csdn.net/topics/390942701?list=lz qt5 ...