链接相关

课件代码:http://pan.baidu.com/s/1nvbkRSt
教学视频:http://pan.baidu.com/s/1c12XsIG
这是最近买的付费教程,对资料感兴趣的可以在下方留下邮件地址,我会定期进行密码发送。


课程简介

以目前主流的,最新的spark稳定版2.1.x为基础,深入浅出地介绍Spark生态系统原理及应用,内容包括Spark各组件(Spark Core/SQL/Streaming/MLlib)基本原理,使用方法,实战经验以及在线演示。本课程精心设计了五个企业级应用案例,帮助大家在理解理论的基础上,亲手实践和应用spark。


课程优化

  1. 讲述最新、最稳定的Spark2.1.X版本
  2. 精心设计5个企业级应用案例,更好地实践、应用Spark


面向人群

  1. 大数据爱好者
  2. Spark初中级学者
  3. 对Spark感兴趣、想系统性学习者

学习收益

  1. 熟练使用Spark, 理解Spark原理,熟知Spark内幕
  2. 掌握Spark 2.1新增特性并熟练使用
  3. 用有丰富的Spark企业实战经验

课程大纲

第一部分: Spark 概述

  • 第一课:Spark 2.1概述

      1. Spark产生背景
        包括mapreduce缺陷,多计算框架并存等
      1. Spark 基本特点
      1. Spark版本演化
      1. Spark核心概念
        包括RDD, transformation, action, cache等
      1. Spark生态系统
        包括Spark生态系统构成,以及与Hadoop生态系统关系
      1. Spark在互联网公司中的地位与应用
        介绍当前互联网公司的Spark应用案例
      1. Spark集群搭建
        包括测试集群搭建和生产环境中集群搭建方法,并亲手演示整个过程
      1. 背景知识补充介绍
      • a. Hadoop基础
      • b. HDFS简介(特点、架构与应用)
      • c. YARN简介(架构)
      • d. MapReduce简介(编程模型与应用)
        • I. Eclipse与Intellij IDEA
        • II. Maven

第二部分: Spark Core

  • 第二课:Spark 程序设计与企业级应用案例

      1. Spark运行模式介绍
        Spark运行组件构成,spark运行模式(local、standalone、mesos/yarn等)
      1. Spark开发环境构建
        集成开发环境选择,亲手演示spark程序开发与调试,spark运行
      1. 常见transformation与action用法
        介绍常见transformation与action使用方法,以及代码片段剖析
      1. 常见控制函数介绍
        包括cache、broadcast、accumulator等
      1. Spark 应用案例:电影受众分析系统
        包括:背景介绍,数据导入,数据分析,常见Spark transformation和action用法在线演示
  • 第三课:Spark 内部原理剖析与源码阅读
      1. Spark运行模式剖析
        深入分析spark运行模式,包括local,standalone以及spark on yarn
      1. Spark运行流程剖析
        包括spark逻辑查询计划,物理查询计划以及分布式执行
      1. Spark shuffle剖析
        深入介绍spark shuffle的实现,主要介绍hash-based和sort-based两种实现
      1. Spark 源码阅读
        Spark源码构成以及阅读方法
  • 第四课:Spark 程序调优技巧
      1. 数据存储格式调优
        数据存储格式选择,数据压缩算法选择等
      1. 资源调优
        如何设置合理的executor、cpu和内存数目,YARN多租户调度器合理设置,启用YARN的标签调度策略等
      1. 程序参数调优
        介绍常见的调优参数,包括避免不必要的文件分发,调整任务并发度,提高数据本地性,JVM参数调优,序列化等
      1. 程序实现调优
        如何选择最合适的transformation与action函数
      1. 调优案例分享与演示
        演示一个调优案例,如何将一个spark程序的性能逐步优化20倍以上。

第三部分 Spark SQL 2.1

  • 第五课:Spark SQL基本原理

      1. Spark SQL是什么
      1. Spark SQL基本原理
      1. Spark Dataframe与DataSet
      1. Spark SQL与Spark Core的关系
  • 第六课:Spark SQL程序设计与企业级应用案例
      1. Spark SQL程序设计
      • a. 如何访问MySQL、HDFS等数据源,如何处理parquet格式数据
      • b. 常用的DSL语法有哪些,如何使用
      • c. Spark SQL调优技巧
      1. Spark SQL应用案例:篮球运动员评估系统
      • a. 背景介绍
      • b. 数据导入
      • c. 数据分析
      • d. 结论

第四部分 Spark Streaming

  • 第七课:Spark Streaming、程序设计及应用案例

    • 1.Spark Streaming基本原理

      • a. Spark Streaming是什么
      • b. Spark Streaming基本原理
      • c. Structured Streaming
      • d. Spark Streaming 编程接口介绍
      • e. Spark Streaming应用案例
      1. Spark Streaming程序设计与企业级应用案例
      • a. 常见流式数据处理模式
      • b. Spark Streaming与Kafka 交互
      • c. Spark Streaming与Redis交互
      • d. Spark Streaming部署与运行
      • e. Spark Streaming企业级案例:用户行为实时分析系统

第五部分 Spark MLlib

  • 第八课: Spark MLlib及企业级案例

      1. Spark MLlib简介
      1. 数据表示方式
      1. MLlib中的聚类、分类和推荐算法
      1. 如何使用MLlib的算法
      1. Spark MLLib企业级案例:信用卡欺诈检测系统

第六部分Spark综合案例

  • 第九课:简易电影推荐系统

      1. 背景介绍
      1. 什么是Lambda architecture
      1. 利用HDFS+Spark Core+MLlib+Redis构建批处理线
      1. 利用Kafka+Spark Streaming+Redis构建实时处理线
      1. 整合批处理和实时处理线
      1. 扩展介绍:Apache beam:统一编程模型及应用

图片相关

Spark学习资料共享的更多相关文章

  1. Spark学习资料

    1. 倾情大奉送--Spark入门实战系列 2. Spark GraphX: http://blog.csdn.net/bluejoe2000/article/details/44308167

  2. 【福利】送Spark大数据平台视频学习资料

    没有套路真的是送!! 大家都知道,大数据行业spark很重要,那话我就不多说了,贴心的大叔给你找了份spark的资料.   多啰嗦两句,一个好的程序猿的基本素养是学习能力和自驱力.视频给了你们,能不能 ...

  3. spark学习笔记总结-spark入门资料精化

    Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用. ...

  4. 近200篇机器学习&深度学习资料分享(含各种文档,视频,源码等)(1)

    原文:http://developer.51cto.com/art/201501/464174.htm 编者按:本文收集了百来篇关于机器学习和深度学习的资料,含各种文档,视频,源码等.而且原文也会不定 ...

  5. 近200篇机器学习&深度学习资料分享【转载】

    编者按:本文收集了百来篇关于机器学习和深度学习的资料,含各种文档,视频,源码等.而且原文也会不定期的更新,望看到文章的朋友能够学到更多. <Brief History of Machine Le ...

  6. 机器学习&深度学习资料分享

    感谢:https://github.com/ty4z2008/Qix/blob/master/dl.md <Brief History of Machine Learning> 介绍:这是 ...

  7. 近200篇机器学习&amp;深度学习资料分享

    编者按:本文收集了百来篇关于机器学习和深度学习的资料,含各种文档,视频,源码等.并且原文也会不定期的更新.望看到文章的朋友能够学到很多其它. <Brief History of Machine ...

  8. [Python] 学习资料汇总

    Python是一种面向对象的解释性的计算机程序设计语言,也是一种功能强大且完善的通用型语言,已经有十多年的发展历史,成熟且稳定.Python 具有脚本语言中最丰富和强大的类库,足以支持绝大多数日常应用 ...

  9. 【转】iOS超全开源框架、项目和学习资料汇总

    iOS超全开源框架.项目和学习资料汇总(1)UI篇iOS超全开源框架.项目和学习资料汇总(2)动画篇iOS超全开源框架.项目和学习资料汇总(3)网络和Model篇iOS超全开源框架.项目和学习资料汇总 ...

随机推荐

  1. SQL使用视图的优缺点

    视图是为了查询方便!也就是多个表的总结!但是不能对视图增删改! 在做数据库开发中使用视图的优点有: 1.视图的好处就是在你做复杂的查询逻辑时可以简化你的思考过程. 2.用视图可以隐藏一定的信息,用过滤 ...

  2. 网站与域名知识扫盲-DNS

    域名概述 域名的概念 IP地址不易记忆 早期使用Hosts解析域名 主机名称重复 主机维护困难 DNS(Domain Name System 域名系统) 分布式 层次性 域名空间结构 根域 组织域[. ...

  3. 非负矩阵分解(4):NMF算法和聚类算法的联系与区别

    作者:桂. 时间:2017-04-14   06:22:26 链接:http://www.cnblogs.com/xingshansi/p/6685811.html 声明:欢迎被转载,不过记得注明出处 ...

  4. 探讨弹性布局Flexible Box

    虽然Flex布局09年就被W3C所提出,但是目前浏览器支持上还不是很好,网上找的一张图片,仅供参考: 我们先从简单讲起.如果仅仅只想实现一个栅格布局,没必要引入一个复杂的框架(如bootstrap), ...

  5. C#变量、常量、枚举、预处理器指令知多少

    一.变量 C#共有其中变量类型有:静态变量.实类变量.数组元素.数值参数.引用参数.输出参数和局部变量 先定义一个简单的类来说明,如下: public class VariableDefine { p ...

  6. 我从现象中学到的CSS

    文字溢出隐藏 如果你观察过浮动元素,你会发现这样一个事实,当前一个元素将宽度占满以后,后一个元素就会往下掉,如下所示 代码如下 <style> div,p{ margin:0; } #bo ...

  7. 使用Dubbox构架分布式服务

    第一部分:Dubbo的背景分析及工作原理 1. Dubbo是什么?Dubbo是一个来自阿里巴巴的开源分布式服务框架,致力于提供高性能和透明化的RPC远程服务调用方案,以及SOA服务治理方案. 简单的说 ...

  8. HTML在网页中插入音频视频简单的滚动效果

    每次上网,打开网页后大家都会看到在网页的标签栏会有个属于他们官网的logo,现在学了HTML了,怎么不会制作这个小logo呢,其实很简单,也不需要死记硬背,每当这行代码出现的时候能知道这是什么意思就o ...

  9. html5表单元素详解

    表单是Html中获取用户输入的手段.此文对表单的元素进行了详细整理. 表单基本元素 form input button form元素 html4中,form元素相当于表单的外包装,其他都要在里面.ht ...

  10. extj6.0写增删查改(1)-------查询

    本文主要实现的效果是:点击查询按钮,根据form中的条件,在Grid中显示对应的数据(如果form为空,显示全部数据) 一.静态页面 1.查询按钮 { text:'查询', handler: 'onS ...