新手刚开始学习比较迷茫,参考下面,然后找相关资料学习

1 Spark基础篇  
    1.1 Spark生态和安装部署  
        在安装过程中,理解其基本操作步骤。  
        安装部署  
          Spark安装简介  
          Spark的源码编译  
          Spark Standalone安装  
          Spark Standalone HA安装  
          Spark应用程序部署工具spark-submit  
        Spark生态  
          Spark(内存计算框架)  
          SparkSteaming(流式计算框架)  
          Spark SQL(ad-hoc)  
          Mllib(Machine Learning)  
          GraphX(bagel将被取代)  
    1.2 Spark运行架构和解析  
        Spark的运行架构  
          基本术语  
          运行架构  
          Spark on Standalone运行过程  
          Spark on YARN 运行过程  
        Spark运行实例解析  
          Spark on Standalone实例解析  
          Spark on YARN实例解析

1.3 Spark的监控和调优  
        Spark的监控  
          Spark UI监控,默认端口是4040  
          Ganglia 监控,大数据监控开源框架  
        Spark调优  
          基础性调优方式  
    1.4 Spark编程模型       
        Spark的编程模型  
          Spark编程模型解析  
          RDD的特点、操作、依赖关系  
          Spark应用程序的配置  
        Spark编程实例解析  
          日志的处理  
    1.5 Spark Streaming原理       
          Spark流式处理架构  
          DStream的特点  
          Dstream的操作和RDD的区别  
          Spark Streaming的优化  
        Spark Streaming实例分析  
          常用的实例程序:  
                  文本实例  
                  Window操作  
                  网络数据处理  
    1.6 Spark SQL原理  
          Spark SQL的Catalyst优化器  
          Spark SQL内核  
          Spark SQL和Hive      
        Spark SQL的实例  
          Spark SQL的实例操作demo  
          Spark SQL的编程,需要网络上查找一些资源

2 中级篇  
    2.1 Spark的多语言编程   
        Spark的scala编程  
        Spark的Python编程(Java一定熟悉啦,不用多说了)  
           对应的应用程序实例,理解基本的处理模式。

2.2 Spark 机器学习入门  
        机器学习的原理  
        Mllib简介,实例分析  
    2.3 GraphX 入门  
        图论基础  
        GraphX的简介  
        GraphX例程分析  
    2.4 理解Spark与其它项目的区别和联系  
        Spark和MapReduce、Tez  
        Spark的衍生项目BlinkDB,RSpark  
    2.5 关注Spark的作者的blog和权威网站的文档

3 高级篇  
   3.1 深入理解Spark的架构和处理模式

3.2 Spark源码剖析与研读  
        Spark Core核心模块,  
        掌握下面核心功能的处理逻辑:  
            SparkContext   
            Executor  
            Deploy  
            RDD和Storage  
            Scheduler和Task  
        Spark Examples  
    3.3 思考如何优化和提升,掌握其优缺点,  
        深入思考能不能衍生出有意思的课题。

Spark学习体系整理(基础篇、中级篇、高级篇所涉及内容)的更多相关文章

  1. Spark学习体系

    底理解Spark,能够分为以下几个层次. 1 Spark基础篇 1.1 Spark生态和安装部署 在安装过程中,理解其基本操作步骤. 安装部署 Spark安装简单介绍 Spark的源代码编译 Spar ...

  2. #Java学习之路——基础阶段二(第二篇)

    我的学习阶段是跟着CZBK黑马的双源课程,学习目标以及博客是为了审查自己的学习情况,毕竟看一遍,敲一遍,和自己归纳总结一遍有着很大的区别,在此期间我会参杂Java疯狂讲义(第四版)里面的内容. 前言: ...

  3. #Java学习之路——基础阶段(第三篇)

    我的学习阶段是跟着CZBK黑马的双源课程,学习目标以及博客是为了审查自己的学习情况,毕竟看一遍,敲一遍,和自己归纳总结一遍有着很大的区别,在此期间我会参杂Java疯狂讲义(第四版)里面的内容. 前言: ...

  4. #Java学习之路——基础阶段二(第九篇)

    我的学习阶段是跟着CZBK黑马的双源课程,学习目标以及博客是为了审查自己的学习情况,毕竟看一遍,敲一遍,和自己归纳总结一遍有着很大的区别,在此期间我会参杂Java疯狂讲义(第四版)里面的内容. 前言: ...

  5. #Java学习之路——基础阶段二(第一篇)

    我的学习阶段是跟着CZBK黑马的双源课程,学习目标以及博客是为了审查自己的学习情况,毕竟看一遍,敲一遍,和自己归纳总结一遍有着很大的区别,在此期间我会参杂Java疯狂讲义(第四版)里面的内容. 前言: ...

  6. #Java学习之路——基础阶段(第十一篇)

    我的学习阶段是跟着CZBK黑马的双源课程,学习目标以及博客是为了审查自己的学习情况,毕竟看一遍,敲一遍,和自己归纳总结一遍有着很大的区别,在此期间我会参杂Java疯狂讲义(第四版)里面的内容. 前言: ...

  7. #Java学习之路——基础阶段(第十篇)

    我的学习阶段是跟着CZBK黑马的双源课程,学习目标以及博客是为了审查自己的学习情况,毕竟看一遍,敲一遍,和自己归纳总结一遍有着很大的区别,在此期间我会参杂Java疯狂讲义(第四版)里面的内容. 前言: ...

  8. #Java学习之路——基础阶段(第八篇)

    我的学习阶段是跟着CZBK黑马的双源课程,学习目标以及博客是为了审查自己的学习情况,毕竟看一遍,敲一遍,和自己归纳总结一遍有着很大的区别,在此期间我会参杂Java疯狂讲义(第四版)里面的内容. 前言: ...

  9. #Java学习之路——基础阶段(第七篇)

    我的学习阶段是跟着CZBK黑马的双源课程,学习目标以及博客是为了审查自己的学习情况,毕竟看一遍,敲一遍,和自己归纳总结一遍有着很大的区别,在此期间我会参杂Java疯狂讲义(第四版)里面的内容. 前言: ...

随机推荐

  1. hiho 有序01字符串 dp

    题目1 : 有序01字符串 时间限制:10000ms 单点时限:1000ms 内存限制:256MB 描述 对于一个01字符串,你每次可以将一个0修改成1,或者将一个1修改成0.那么,你最少需要修改多少 ...

  2. Python实现单链表

    定义链表结构: class ListNode: def __init__(self, x): self.val = x self.next = None 输出该链表l1的元素: while l1: p ...

  3. 如何停止你的Streaming Application

    Spark 1.3及其前的版本 你的一个 spark streaming application 已经好好运行了一段时间了,这个时候你因为某种原因要停止它.你应该怎么做?直接暴力 kill 该 app ...

  4. JS中函数定义和函数表达式的区别

    摘要: (function() {})();和(function(){}());的区别 Javascript中有2个语法都与function关键字有关,分别是: 函数定义:function Funct ...

  5. 手动建立Mysql表实体类技巧

    首先执行一条sql语句,也可以在开发中插入数据.修改数据或者查询数据的某个属性时使用. select sc.COLUMN_NAME from information_schema.COLUMNS as ...

  6. CUDA JPEG编码

    基于英伟达的jpegNPP工程,分离实现独立的JPEG压缩. 由于原工程是直接把解码时的jpeg图片的信息直接作为编码时的信息,所以在做独立的JPEG编码时,需要自己来填充各种信息. 1.JPEG编码 ...

  7. MongoDB.Driver 2.4以上版本 在.NET中的基本操作

    MongoDB.Driver是操作mongo数据库的驱动,最近2.0以下版本已经从GitHub和Nuget中移除了,也就是说.NET Framework4.0不再能从官方获取到MongoDB的驱动了, ...

  8. POJ 2369 Permutations (置换的秩P^k = I)

    题意 给定一个置换形式如,问经过几次置换可以变为恒等置换 思路 就是求k使得Pk = I. 我们知道一个置换可以表示为几个轮换的乘积,那么k就是所有轮换长度的最小公倍数. 把一个置换转换成轮换的方法也 ...

  9. yii2手动添加插件PHPExcel

    1.下载地址:https://github.com/PHPOffice/PHPExcel 2.解压并修改文件名为phpexcel 之后在yii项目的vendor目录下创建一个文件夹命名为phpoffi ...

  10. CF445

    题解: xjb乱判断一下就可以了 代码: #include<bits/stdc++.h> using namespace std; typedef long long ll; int n, ...