初学hadoop的个人历程

　在学习hadoop之前，我就明确了要致力于大数据行业,成为优秀的大数据研发工程师的目标，有了大目标之后要分几步走，然后每一步不断细分，采用大事化小的方法去学习hadoop。下面开始叙述我是如何初学hadoop的。

　　Hadoop学习两步走:linux学习、hadoop学习。

　　在接触hadoop之前我有java基础，为此我的计划是首先学习Linux,然后学习hadoop生态系统,为此学习hadoop第一步计划就是学习linux了，然后linux又可以分为四个步骤走。

　　linux任务第一个目标就是要熟练操作linux常用命令以及网络配置;

　　第二个目标就是熟悉用户以及权限管理操作;

　　第三个目标就是熟悉软件包以及系统命令管理，第四个就是要学习shell编程了。

　　Linux系统学习完毕之后，紧接着就是第二个计划了学习Hadoop。

　　Hadoop阶段分两步走。

　　第一阶段能熟练搭建伪分布式集群以及完全分布式集群，我个人认为先搭建hadoop环境然后再学习hadoop这样效果更好。就如同看别人代码一样，我们先把别人代码能跑起来，然后再分析代码，如果代码都跑不起来，何谈代码分析，所以先让hadoop环境搭建起来，能正常运行wordcount程序，我们才能慢慢分析整个Hadoop生态系统，这样我们能对hadoop有个整体上的认识。

　　Hadoop第二阶段就是基于第一阶段的基础上，再细分几大阶段：

　　首先第一阶段整体上认识hadoop生态系统，了解MapReduce分布式计算框架、Yarn集群资源管理和调度平台、hdfs分布式文件系统、hive数据仓库、HBase实时分布式数据库、Flume日志收集工具、sqoop数据库ETL工具、zookeeper分布式协作服务、Mahout数据挖掘库;

　　第二阶段学习MapReduce,MapReduce作为hadoop核心内容，要先易后难，首先了解Mapper、Reducer、Configuration、job等这些类，熟悉MapReduce流程图，然后写简单的单词统计代码，整体上对MapReduce认识，之后学习MapReduce运行机制，熟练掌握，MapReduce输入格式，MapReduce输出格式，以及MapReduce优化;

　　第三阶段学习hadoop另一个核心内容HDFS，首先明白什么是hdfs,然后再分析hdfs的优点，然后再了解Hdfs的缺点有哪些，HDFS是如何存储数据的，采用什么样的架构，我们如何实现读取和写入HDFS中的文件，以及了解HDFS副本存放策略，同时熟练掌握HDFS的shell访问和java访问。

　　第三阶段就是学习hadoop另一个核心内容:Yarn,首先我们要了解Yarn是什么，为什么使用Yarn，Yarn的构架，Yarn的原理。我个人认为，hadoop初学者只要掌握了提供海量数据存储的HDFS，分布式计算的MapReduce,以及集群资源管理和调度平台的yarn，基本上也就掌握了Hadoop最核心的东西，也为以后的hbase、hive学习打下了坚实的基础。

　　以下是我个人初学hadoop学习历程的思维导图，仅供参考。

转载：http://www.chinacloud.cn/show.aspx?id=24165&cid=22

初学hadoop的个人历程的更多相关文章

初学Hadoop之单机模式环境搭建
本文仅作为学习笔记,供大家初学Hadoop时学习参考.初学Hadoop,欢迎有经验的朋友进行指导与交流! 1.安装CentOS7 准备 CentOS系统镜像CentOS-7.0-1406-x86_64 ...
【Big Data - Hadoop - MapReduce】初学Hadoop之图解MapReduce与WordCount示例分析
Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS) ...
初学Hadoop之图解MapReduce与WordCount示例分析
Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS) ...
初学hadoop,windows下安装
先bb一下,woc开始使用Cygwin来模拟linux配置hadoop,然后各种错误,找着找着发现原来2.0+的hadoop可以直接在windows下配置.当时真是1w头神兽飞过. 下载hadoop ...
初学Hadoop：利用VMWare+CentOS7搭建Hadoop集群
一.前言开始学习数据处理相关的知识了,第一步是搭建一个Hadoop集群.搭建一个分布式集群需要多台电脑,在此我选择采用VMWare+CentOS7搭建一个三台虚拟机组成的Hadoop集群. 注:1 ...
初学Hadoop之计算TF-IDF值
1.词频 TF(term frequency)词频,就是该分词在该文档中出现的频率,算法是:(该分词在该文档出现的次数)/(该文档分词的总数),这个值越大表示这个词越重要,即权重就越大. 例如:一篇文 ...
初学Hadoop之中文词频统计
1.安装eclipse 准备 eclipse-dsl-luna-SR2-linux-gtk-x86_64.tar.gz 安装 1.解压文件. 2.创建图标. ln -s /opt/eclipse/ec ...
初学Hadoop之WordCount词频统计
1.WordCount源码将源码文件WordCount.java放到Hadoop2.6.0文件夹中. import java.io.IOException; import java.util.Str ...
分享零基础学习Hadoop方法
(我不是Hadoop专家,也只是一个初学者,这里我也只是就自己的学习体会,站在初学者的角度谈一下如何入门.) 首先我觉得应该思考这样一个问题:Hadoop对于我们来讲,是一种工具,那么Hadoop帮助 ...

随机推荐

golang json数组拼接
2016年06月16日 15:38:25 阅读数:2575 标签: golangjson数组更多个人分类: golang func main() { a := []byte(`{"P ...
windows下GVIM的配置（vimrc)
学习python时想要在gvim中配置python的编译环境,网上找到一个比较好用的vimrc配置,保存下来以备下次有需要. set encoding=utf-8 set termencoding=u ...
SQL宝典
SQL Server 数据库的高级操作 (1) 批处理 (2) 变量 (3) 逻辑控制 (4) 函数 (5) 高级查询 */ (1)批处理将多条SQL语句作为一个整体去编译,生成一个执行计划,然后, ...
EJB的优点有哪些？(选择2项)
EJB的优点有哪些?(选择2项) A.技术领先 B.价格低廉 C.性能优越 D.强大的容器支持解答:CD
js for in
JavaScript中for..in循环陷阱大家都知道在JavaScript中提供了两种方式迭代对象: (1)for 循环: (2)for..in循环: 使用for循环进行迭代数组对象,想必 ...
【爱江山越野跑】ITRA积分认证流程
背景:目前在越野跑领域,高级别的赛事有很多,比如UTMB,TDG等,而想报名参与这些赛事需要一定的积分(ITRA积分), 而这些积分的获得,需要参与获得ITRA认证的赛事,赛事难度不同,获得的积分也不 ...
Extjs4 中date时间格式的问题
在Grid中显示时间,后台传过来的是date格式的数据(PHP date('Y-m-d', time()),一般在Ext model中定义数据的类型和格式: {name:'birth', type:' ...
django用户认证系统——基本设置1
网站提供登录.注册等用户认证功能是一个常见的需求.因此,Django 提供了一套功能完整的.灵活的.易于拓展的用户认证系统:django.contrib.auth.在本教程中,我将向你展示 auth ...
面试题思考：Cookie 和 Session的区别
面试回答: 1.cookie数据存放在客户的浏览器上,session数据放在服务器上. 2.cookie不是很安全,别人可以分析存放在本地的cookie并进行cookie欺骗,考虑到安全应当使用ses ...
java动态编译（java在线执行代码后端实现原理）（二）
在上一篇java动态编译 (java在线执行代码后端实现原理(一))文章中实现了字符串编译成字节码,然后通过反射来运行代码的demo.这一篇文章提供一个如何防止死循环的代码占用cpu的问题. 思路: ...

初学hadoop的个人历程

初学hadoop的个人历程的更多相关文章

随机推荐

热门专题