一些推荐的spark/hadoop课程

为了分享给你们，也为自己。

感谢下面的老师们！

1、王家林DT大数据梦工厂的大数据IMF传奇行动课程

总的目录是：

第一阶段：Linux和Java零基础企业级实战

第二阶段：Hadoop和Hive零基础企业级实战

第三阶段：Scala零基础企业级实战

第四阶段：从零基础到彻底精通第一个Spark实战程序

第五阶段：Spark Core实战、解析、性能优化

第六阶段：Spark SQL企业级实战

第七阶段：Kafka企业级实战

第八阶段：Spark Sreaming企业级实战

第九阶段：Spark图计算GraphX企业级实战

具体课程内容安排如下所示：
第一阶段：Linux和Java零基础企业级实战
　　第1模块:Linux零基础光速速成（2小时）
　　第2模块：Java面向对象实战（2小时）
　　第3模块：范型与集合（2小时）
　　第4模块：Java IO（1小时）
　　第5模块：多线程与并发（1小时）
　　第6模块：网络（1小时）
　　第7模块: Java虚拟机内幕解密及性能优化（2小时）
第二阶段：Hadoop和Hive零基础企业级实战
　　第1模块：Hadoop集群搭建零基础实战、Hadoop集群解析、Hadoop集群测试等（2小时）
　　第2模块： Eclipse开发和打包运行Hadoop实战；（2小时）
　　第3模块：第一个Hadoop MapReduce代码详解、Hadoop源码解读（2小时）
　　第4模块：Yarn实战解密（1小时）
　　第5模块：Hive集群安装和测试实战（2小时）
　　第6模块：实战Hive分析搜索引擎的数据（2小时）
　　第7模块：实战Hive分析电商的数据（2小时）
第三阶段：Scala零基础企业级实战
　　第1模块：Scala动手实战入门（1小时）
　　第2模块：Scala实战入门进阶（1小时）
　　第3模块：Scala面向对象入门实战（1小时）
　　第4模块：Scala面向对象进阶实战（2小时）
　　第5模块：Scala函数式编程入门实战（2小时）
　　第6模块：Scala函数式编程进阶实战（2小时）
　　第7模块：Scala高级特性实战（3小时）
　　第8模块：Scala的Actor 并发编程（2小时）
第四阶段：从零基础到彻底精通第一个Spark实战程序
　　第1模块：精通Spark集群搭建与测试（2小时）
　　第2模块：实战解析Spark运行原理和RDD解密（2小时）
　　第3模块：彻底实战详解使用IDE开发Spark程序（1小时）
　　第4模块：彻底实战详解 IntelliJ IDEA下的Spark程序开发（0.5小时）
　　第5模块：底实战详解使用Java开发Spark程序（0.5小时）
　　第6模块：彻底解密WordCount运行原理（2小时）
　　第7模块：HA下的Spark集群工作原理解密（2小时）

第五阶段：Spark Core实战、解析、性能优化
　　第1模块：Spark内核架构解密（2小时）
　　第2模块：Spark RDD解密（2小时）
　　第3模块：RDD创建内幕彻底解密（1小时）
　　第4模块：RDD实战（RDD基本操作实战及Transformation流程图）（2小时）
　　第5模块：RDD案例（join、cogroup、reduceByKey、groupByKey等）（1小时）
　　第6模块：RDD持久化、广播、累加器.（2小时）
　　第7模块：Spark高级排序彻底解秘（1小时）
　　第8模块：Top N彻底解秘（1小时）
　　第9模块：从Spark架构和物理执行中透视Job（4小时）
　　第10模块：Spark Hash Shuffle内幕彻底解密及性能调优（2小时）
　　第11模块： Spark Sort-Based Shuffle内幕工作机制、案例实战、源码剖析、优缺点及改进方式等彻底解密（3小时）
　　第12模块：Spark on Yarn彻底解密（1小时）
　　第13模块：Master HA彻底解密（1小时）
　　第14模块：Spark 1.6 RPC内幕解密：运行机制、源码详解、Netty与Akka等（2小时）
　　第15模块：Spark Tungsten内幕彻底解密（3个小时）
　　第16模块：Spark Unified Memory Management内幕解密及由此引发的性能调优实践（2个小时）
第六阶段：Spark SQL企业级实战
　　第1模块：Spark SQL和DataFrame的本质
　　第2模块：DataFrame的使用
　　第3模块：使用反射方式将RDD转换为DataFrame
　　第4模块：使用编程方式将RDD转换为DataFrame
　　第5模块：数据源之通用的load和save操作
　　第6模块：Parquet数据源之使用编程方式加载数据
　　第7模块：Parquet数据源之自动分区推断
　　第8模块：Parquet数据源之合并元数据
　　第9模块：JSON数据源复杂综合案例实战
　　第10模块：Hive数据源复杂综合案例实战
　　第11模块：JDBC数据源复杂综合案例实战
　　第12模块：内置函数以及案例实战
　　第13模块：开窗函数以及案例实战
　　第14模块：UDF自定义函数实战
　　第15模块：UDAF自定义聚合函数实战
　　第16模块：工作原理剖析以及性能优化
　　第18模块：核心源码深度剖析（DataFrame lazy特性、Optimizer优化策略等）
　　第19模块： Hive On Spark深度解密
　　第20模块： Hive On Spark 商业案例实战

额外增加：使用Spark SQL商业案例处理基因数据匹配；
第七阶段：Kafka企业级实战
　　第1模块：Kafka分布式消息队列、Kafka原理解析（1小时）
　　第2模块：Kafka安装配置（1小时）
　　第3模块：Kafka集群在ZooKeeper里的彻底解密（1小时）
　　第4模块：Producer、Controller、Broker、Consumer彻底解密（2小时）
　　第5模块：Kafka与Spark集成开发实战（2小时）
第八阶段：Spark Sreaming企业级实战
　　第1模块：Spark Sreaming架构原理深度剖析（2小时）
　　第2模块：DStream以及基本工作原理（1小时）
　　第3模块：实时wordcount程序开发（1小时）
　　第4模块：StreamingContext详解（1小时）
　　第5模块：输入DStream和Receiver详解（1小时）
　　第6模块：输入DStream之基础数据源以及基于HDFS的实时WordCount案例实战（1小时）
　　第7模块：基于Receiver的方式输入DStream之Kafka数据源实战（1小时）
　　第8模块：基于Direct的方式输入DStream之Kafka数据源实战（1小时）
　　第9模块：DStream的transformation操作详解狮子含（1小时）
　　第10模块：updateStateByKey以及基于缓存的实时WordCount案例实战（1小时）
　　第11模块：Transform以及广告计费日志实时黑名单过滤案例实战（1小时）
　　第12模块：Window滑动窗口以及热点搜索词滑动统计案例实战（1小时）
　　第13模块：DStream的output操作以及foreachRDD性能优化详解（1小时）
　　第14模块：与Spark SQL结合使用之top3热门商品实时统计案例实战（1小时）
　　第15模块：缓存与持久化机制详解（1小时）
　　第16模块：Checkpoint机制详解（1小时）
　　第17模块：部署、升级和监控实时应用程序（1小时）
　　第18模块：容错机制以及事务语义详解（1小时）
　　第19模块：StreamingContext初始化与Receiver启动原理剖析与源码分析（2小时）
　　第20模块：数据接收原理剖析与源码分析（2小时）
　　第21模块：数据处理原理剖析与源码分析（2小时）
　　第22模块：性能调优详解（2小时）
第九阶段：Spark图计算GraphX企业级实战
　　第1模块：Spark GraphX实战体验和架构解密
　　第2模块： Table Operators详解和实战
　　第3模块： Graph Operators详解和实战
　　第4模块： GraphX各种常见算法解析和实战
　　商业实战案例：基于婚恋社交网站的商业案例通过Spark图计算多维度分析婚恋社交网站的数据，提供管理决策和商业运维支持，内容用户网络的社区发现、用户影响力、能量传播、人群划分、年龄段预测、商品交易时序跳转等

2、王家林DT大数据梦工厂的大数据Spark“蘑菇云”行动课程

陆续推送...

一些推荐的spark/hadoop课程的更多相关文章

北风风hadoop课程体系
课程一.基于Linux操作系统平台下的Java语言开发(20课时)课程简介本套课程主要介绍了Linux系统下的Java环境搭建及最基础的Java语法知识.学习Linux操作系统下Java语言开发的好处 ...
Windows下搭建Spark+Hadoop开发环境
Windows下搭建Spark+Hadoop开发环境需要一些工具支持. 只需要确保您的电脑已装好Java环境,那么就可以开始了. 一. 准备工作 1. 下载Hadoop2.7.1版本(写Spark和H ...
Spark集群搭建【Spark+Hadoop+Scala+Zookeeper】
1.安装Linux 需要:3台CentOS7虚拟机 IP:192.168.245.130,192.168.245.131,192.168.245.132(类似,尽量保持连续,方便记忆) 注意: 3台虚 ...
【Todo】找出共同好友 & Spark & Hadoop面试题
找了这篇文章看了一下面试题<Spark 和hadoop的一些面试题(准备)> http://blog.csdn.net/qiezikuaichuan/article/details/515 ...
Spark&Hadoop:scala编写spark任务jar包，运行无法识别main函数，怎么办?
昨晚和同事一起看一个scala写的程序,程序都写完了,且在idea上debug运行是ok的.但我们不能调试的方式部署在客户机器上,于是打包吧.打包时,我们是采用把外部引入的五个包(spark-asse ...
Spark+Hadoop问题小结
1.spark执行./start-all.sh报"WARN Utils: Service 'sparkWorker' could not bind on port 0. Attempting ...
Hadoop课程介绍
一.课程简介 1. Hadoop是什么? Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架.它支持在商品硬件构建的大型集群上运行的应用程序.H ...
大牛博客！Spark / Hadoop / Kafka / HBase / Storm
在这里,非常感谢下面的著名大牛们,一路的帮助和学习,给予了我很大的动力! 有了Hadoop,再次有了Spark,一次又一次,一晚又一晚的努力相伴! HBase简介(很好的梳理资料) 1. 博客主页:h ...
微博广告推荐中有关Hadoop的那些事
一.背景微博,一个DAU上亿.每日发博量几千万的社交性产品,拥有庞大的数据集.如何高效得从如此规模的数据集中挖掘出有价值的信息,以增强用户粘性,提高信息传播速度,就成了重中之重.因此,我们引入了ha ...

随机推荐

mac terminal 命令
mac下显示隐藏文件显示 defaults write com.apple.finder AppleShowAllFiles -bool true 隐藏 defaults write com.app ...
设置app的状态栏样式
http://www.jianshu.com/p/9f7f3fa624e7 http://cocoa.venj.me/blog/view-controller-based-status-bar-sty ...
Ref相关的名词解释
NV (NOT-VOLATILE),即非易失性,断电不会丢失的存储信息,包括生产信息.客户信息.产品信息等等. 它们都保存在不同(FLASH)分区,并根据不同的分区提供不同的接口.数据结构和管理机制. ...
web.xml整合s2sh内容
<?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http:// ...
初识jQuery 2013-09-26
常用选择器 $("#bad") id选择器 $("div#bad") id为bad 并且必须是div的元素 $("[href]") ...
Android无法调用JS的问题解决
1.启用JS webView.getSettings().setJavaScriptEnabled(true); 2.需要使用WebChromeClient(如果没有这个Client,很多东西不会响应 ...
linearlayout 水平垂直居中
<LinearLayout xmlns:android="http://schemas.android.com/apk/res/android" xmlns:tools=&q ...
ASP.NET MVC之文件上传【一】
前言这一节我们来讲讲在MVC中如何进行文件的上传,我们逐步深入,一起来看看. Upload File(一) 我们在默认创建的项目中的Home控制器下添加如下: public ActionResult ...
HDU 5127 Dogs' Candies
Dogs' Candies Time Limit: 30000/30000 MS (Java/Others) Memory Limit: 512000/512000 K (Java/Others) T ...
N人报数第M人出列游戏问题（约瑟夫问题）
这是一道华为的机试题,后来才知道也叫约瑟夫问题,题目是这样的:有n个人围成一圈,玩一个游戏,规则为将该n个人编号为1,2,......n, 从编号为1的人开始依次循环报数,报道第m的时候将第m个人从队 ...

一些推荐的spark/hadoop课程

一些推荐的spark/hadoop课程的更多相关文章

随机推荐

热门专题