Hadoop2.0/YARN深入浅出(Hadoop2.0、Spark、Storm和Tez)
随着云计算、大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈。谷歌、淘宝、百度、京东
等底层都应用hadoop。越来越多的企 业急需引入hadoop技术人才。由于掌握Hadoop技术
的开发人员并不多,直接导致了这几年hadoop技术的薪水远高于JavaEE及 Android程序员。
Hadoop入门薪资已经达到了 8K 以上,工作1年可达到 1.2W 以上,具有2-3年工作经验的hadoop人才年薪可以达到 30万—50万 。
一般需要大数据处理的公司基本上都是大公司,所以学习hadoop技术也是进大公司的捷径!
中关村被称为中国硅谷,这里有着一群被外界称之为程序员的IT从业者。
但是一眼望去,大多数一线程序员的年龄均在20至30岁左右,40、50岁的人在这个行业内颇为罕见。
为什么在国内没有“老”程序员,而在国外五六十岁仍奋斗在一线岗位的程序员比比皆是?造成这种现象的原因是多方面的。
新 Hadoop Yarn 框架原理及运作机制
从业界使用分布式系统的变化趋势和 hadoop 框架的长远发展来看,MapReduce 的 JobTracker/TaskTracker 机制需要大规模的调整来修复它在可扩展性,内存消耗,线程模型,可靠性和性能上的缺陷。在过去的几年中,hadoop 开发团队做了一些 bug 的修复,但是最近这些修复的成本越来越高,这表明对原框架做出改变的难度越来越大。
为从根本上解决旧 MapReduce 框架的性能瓶颈,促进 Hadoop 框架的更长远发展,从 0.23.0 版本开始,Hadoop 的 MapReduce 框架完全重构,发生了根本的变化。新的 Hadoop MapReduce 框架命名为 MapReduceV2 或者叫 Yarn,其架构图如下图所示:
成熟、通用让Hadoop深得大数据玩家喜爱,即使是在YARN出现之前,在流处理框架林立下,Hadoop仍然被众多机构广泛运用在离线处理之上。借鉴于Mesos,MapReduce获得新生,YARN提供了更加优秀的资源管理器,让Storm等流处理框架同样可以运行在Hadoop集群之上;但是别忘记,Hadoop有着远比Mesos成熟的社区。从兴起到唱衰再到兴起,这头搬运大数据的大象已更加成熟、稳重,同时我们也相信,在未来container等属性加入后,Hadoop生态系统必将发扬光大。
课程介绍
本课程详细讲解了Hadoop 2.0架构、部署以及YARN,并讲解了运行在YARN上主要的计算框架,包括Spark、Storm和Tez
课程针对人群
1、本课程适合于有一定java基础知识,对数据库和sql语句有一定了解,熟练使用linux系统的技术人员,特别适合于想换工作或寻求高薪职业的人士
2、最好有Greenplum Hadoop大数据基础,学习过北风课程《Greenplum 分布式数据库开发入门到精通》、《全面深入Greenplum Hadoop大数据分析平台》为最佳
课程大纲
Hadoop 2.0(6课时)
Hadoop 2.0产生背景
Hadoop 2.0基本构成
HDFS 2.0
MapReduce 2.0
Hadoop 2.0安装配置
集群测试
YARN资源管理系统(4课时)
YARN产生背景
YARN基本设计思想
YARN基本架构
YARN工作流程
YARN通信协议
YARN容错
YARN资源调度机制
YARN支持的计算框架(Storm,Tez,Spark)(11课时)
以YARN为核心的生态系统
Storm基本概念
Storm流式计算框架
基于YARN的Storm架构
YARN-Storm部署
Storm On YARN服务
Apache Tez介绍
Tez特点
Tez数据处理引擎
DAGAppMaster实现
Tez优化机制
Tez应用场景
Tez部署
什么是Spark
Spark生态系统
Spark的核心--RDD和Lineage
RDD的存储、容错机制、内部设计及数据模型
Spark调度框架
Spark的分布式部署方式
基于Mesos的Spark模式
基于YARN的Spark模式
Spark的独立模式部署
Spark的YARN模式部署
Hadoop2.0/YARN深入浅出(Hadoop2.0、Spark、Storm和Tez)的更多相关文章
- Hadoop2.2.0(yarn)编译部署手册
		
Created on 2014-3-30URL : http://www.cnblogs.com/zhxfl/p/3633919.html @author: zhxfl Hadoop-2.2编译 ...
 - 基于Hadoop2.0、YARN技术的大数据高阶应用实战(Hadoop2.0\YARN\Ma
		
Hadoop的前景 随着云计算.大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈.谷歌.淘宝.百度.京东等底层都应用hadoop.越来越多的企 业急需引入hadoop技术人才.由于掌握H ...
 - hadoop2.7.3+spark2.1.0+scala2.12.1环境搭建(4)SPARK 安装
		
hadoop2.7.3+spark2.1.0+scala2.12.1环境搭建(4)SPARK 安装 一.依赖文件安装 1.1 JDK 参见博文:http://www.cnblogs.com/liugh ...
 - Kafka:ZK+Kafka+Spark Streaming集群环境搭建(四)针对hadoop2.9.0启动执行start-all.sh出现异常:failed to launch: nice -n 0 /bin/spark-class org.apache.spark.deploy.worker.Worker
		
启动问题: 执行start-all.sh出现以下异常信息: failed to launch: nice -n 0 /bin/spark-class org.apache.spark.deploy.w ...
 - Spark记录-源码编译spark2.2.0(结合Hive on Spark/Hive on MR2/Spark on Yarn)
		
#spark2.2.0源码编译 #组件:mvn-3.3.9 jdk-1.8 #wget http://mirror.bit.edu.cn/apache/spark/spark-2.2.0/spark- ...
 - 在centos7上安装部署hadoop2.7.3和spark2.0.0
		
一.安装装备 下载安装包: vmware workstations pro 12 三台centos7.1 mini 虚拟机 网络配置NAT网络如下: 二.创建hadoop用户和hadoop用户组 1. ...
 - hadoop-2.6.0.tar.gz  +   hive-1.0.0.tar.gz  +   pig-0.15.0.tar.gz的安装
		
这里,为什么选择用hadoop-2.6.0.tar.gz + hive-1.0.0.tar.gz是为了搭配兼容. hadoop-2.6.0.tar.gz + hive-1.0.0.tar. ...
 - Hadoop2.7.5+Hbase1.4.0完全分布式
		
Hadoop2.7.5+Hbase1.4.0完全分布式一.在介绍完全分布式之前先给初学者推荐两本书:<Hbase权威指南>偏理论<Hbase实战>实战多一些 二.在安装完全分布 ...
 - ASP.NET MVC深入浅出系列(持续更新)  ORM系列之Entity FrameWork详解(持续更新)  第十六节:语法总结(3)(C#6.0和C#7.0新语法)  第三节:深度剖析各类数据结构(Array、List、Queue、Stack)及线程安全问题和yeild关键字  各种通讯连接方式   设计模式篇  第十二节: 总结Quartz.Net几种部署模式(IIS、Exe、服务部署【借
		
ASP.NET MVC深入浅出系列(持续更新) 一. ASP.NET体系 从事.Net开发以来,最先接触的Web开发框架是Asp.Net WebForm,该框架高度封装,为了隐藏Http的无状态模 ...
 
随机推荐
- X-UA-Compatible IE 浏览器默认文档模式设置
			
制作网页的时候,IE8浏览器浏览页面的时候,有时候文档模式默认是IE7,导致IE8兼容性不是非常好.出现IE7应该出现的模式. 解决的方法例如以下: 在X-UA-Compatible中可用的方法有: ...
 - 【JavaScript】双引号问题
			
拼装字符串是遇到双引号冲突问题. 最后用"代替了平时的转码手段.
 - c++,命名空间(namespace)
			
1.什么是命名空间: 命名空间:实际上就是一个由程序设计者命名的内存区域,程序设计者可以根据需要指定一些有名字的空间域,把一些全局实体分别放在各个命名空间中,从而与其他全局实体分隔开来. 2.命名空间 ...
 - Android存储之SQLiteDatbase
			
SQLiteDatabase的方式会生成一个数据库文件,每个应用最多只对应一个数据库文件,即.db文件. 可以使用很多第三方工具进行打开,查看数据库里的内容. 昨晚试了好几种工具,如navicat,s ...
 - Javascript DOM  03 表格添加、删除 + 搜索
			
获取 tBodies.tHead.tFoot.rows.cells 隔行变色 鼠标移入高亮 添加.删除一行 DOM方法的使用 ...
 - Android 开发 AirPlay Server
			
安卓上开发 AirPlay Server 主要是参考了和修改了 DroidAirPlay项目 , 和Airplay 协议 1, 将DroidAirPlay 下载下来 2, Eclipse 新建一个 ...
 - 树莓派做web服务器(nginx、Apache)
			
一想到Linux Web服务器,我们首先想到的是: Apache + MySql + Php. Apache:是世界使用排名第一的Web服务器软件. 可以运行在几乎所有广泛使用的计算机平台上,由于其跨 ...
 - ZOJ 2852 Deck of Cards DP
			
题意: 一一个21点游戏. 1. 有三个牌堆,分别为1X,2X,3X. 2. 纸牌A的值为1,纸牌2-9的值与牌面面相同,10(T).J.Q.K的值为10,而而joke(F)的值为 任意大大. 3. ...
 - ZOJ 2972 Hurdles of 110m 【DP 背包】
			
一共有N段过程,每段过程里可以选择 快速跑. 匀速跑 和 慢速跑 对于快速跑会消耗F1 的能量, 慢速跑会集聚F2的能量 选手一开始有M的能量,即能量上限 求通过全程的最短时间 定义DP[i][j] ...
 - Android学习笔记:FrameLayout布局基础
			
FrameLayout布局的特点是:所有放在布局里的视图组件,都按照层次堆叠在屏幕的左上角,后面的视图组件覆盖前面的. 当然,组件本身是可以控制自己的内部布局的. 一种常见的场景是可以在FrameLa ...