一、为何要学习Hadoop?

　　这是一个信息爆炸的时代。经过数十年的积累，很多企业都聚集了大量的数据。这些数据也是企业的核心财富之一，怎样从累积的数据里寻找价值，变废为宝炼数成金成为当务之急。但数据增长的速度往往比cpu和内存性能增长的速度还要快得多。要处理海量数据，如果求助于昂贵的专用主机甚至超级计算机，成本无疑很高，有时即使是保存数据，也需要面对高成本的问题，因为具有海量数据容量的存储设备，价格往往也是天文数字。成本和IT能力成为了海量数据分析的主要瓶颈。

　　Hadoop这个开源产品的出现，打破了对数据力量的压制。Hadoop源于Nutch这个小型的搜索引擎项目。而Nutch则出自于著名的开源搜索引擎解决方案Lucene，而Lucene则来源于对Google的学习模仿。在Hadoop身上有着明显的Google的影子。HDFS是GFS的山寨版，Map-Reduce的思想来源于Goolge对Page rank的计算方法，HBase模仿的是Big Table，Zookeeper则学习了Chubby。Google巨人的力量尽管由于商业的原因被层层封锁，但在Hadoop身上得到了完美的重生和发展。

　　从2006年Apache基金会接纳Hadoop项目以来。Hadoop已经成为云计算软件的一个事实标准，以及开源云计算解决方案的几乎唯一选择。对于想用低成本（包括软硬件）实现云计算平台或海量数据分析平台的用户，Hadoop集群是首选的对象。由于Hadoop在各方面都打破了传统关系型数据库的思路和模式，对于新接触Hadoop平台的人，往往会觉得困惑和难以理解，进而转化为畏惧。

　　因此，为了赶上大数据时代的发展，迎接云计算的思维，尽管我做的是.NET的应用开发工作，但我仍然选择业余时间学习Hadoop。我会从Hadoop1.x版本开始学习经典的HDFS与MapReduce，然后了解Hadoop2.x版本与老版本的差异，熟悉一些常见的Hadoop应用场景，并学着实践一个最经典的项目（网站日志数据分析案例）来完成我给自己规划的学习任务。

二、Hadoop笔记系列索引

2.1 基础环境部分：

　　（1）基础介绍与环境搭建

　　（6）Hadoop Eclipse插件的使用

　　（13）分布式集群中节点的动态添加与下架

2.2 HDFS部分：

　　（2）不怕故障的海量存储之HDFS基础入门

　　（3）Hadoop RPC机制的使用

2.3 MapReduce部分：

　　（4）初识MapReduce

　　（5）自定义类型处理手机上网日志

　　（7）计数器与自定义计数器

　　（8）Combiner与自定义Combiner

　　（9）Partioner与自定义Partitioner

　　（10）Reduce阶段中的Shuffle过程

　　（11）MapReduce中的排序和分组

　　（12）MapReduce中的常见算法

2.4 ZooKeeper部分：

　　（14）ZooKeeper环境搭建

2.5 HBase部分：

　　（15）HBase框架学习之基础知识篇

　　（15）HBase框架学习之基础实践篇

2.6 Pig部分：

　　（16）Pig框架学习

2.7 Hive部分：

　　（17）Hive框架学习

2.8 Sqoop部分：

　　（18）Sqoop框架学习

2.9 Flume部分：

　　（19）Flume框架学习

2.10 项目实战部分：

　　（20）网站日志分析项目（一）项目介绍

　　（20）网站日志分析项目（二）数据清洗

　　（20）网站日志分析项目（三）统计分析

2.11 Hadoop2部分：

　　（21）Hadoop2的改进内容简介

　　（22）Hadoop2.x环境搭建与配置

作者：周旭龙

出处：http://www.cnblogs.com/edisonchou/

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文链接。

Hadoop入门学习笔记总结系列文章导航的更多相关文章

Hadoop入门学习笔记---part4
紧接着<Hadoop入门学习笔记---part3>中的继续了解如何用java在程序中操作HDFS. 众所周知,对文件的操作无非是创建,查看,下载,删除.下面我们就开始应用java程序进行操 ...
Hadoop入门学习笔记---part3
2015年元旦,好好学习,天天向上.良好的开端是成功的一半,任何学习都不能中断,只有坚持才会出结果.继续学习Hadoop.冰冻三尺,非一日之寒! 经过Hadoop的伪分布集群环境的搭建,基本对Hado ...
Hadoop入门学习笔记---part2
在<Hadoop入门学习笔记---part1>中感觉自己虽然总结的比较详细,但是始终感觉有点凌乱.不够系统化,不够简洁.经过自己的推敲和总结,现在在此处概括性的总结一下,认为在准备搭建ha ...
Hadoop入门学习笔记---part1
随着毕业设计的进行,大学四年正式进入尾声.任你玩四年的大学的最后一次作业最后在激烈的选题中尘埃落定.无论选择了怎样的选题,无论最后的结果是怎样的,对于大学里面的这最后一份作业,也希望自己能够尽心尽力, ...
Hadoop入门学习笔记（一）
Week2 学习笔记 Hadoop核心组件 Hadoop HDFS(分布式文件存储系统):解决海量数据存储 Hadoop YARN(集群资源管理和任务调度框架):解决资源任务调度 Hadoop Map ...
Hadoop入门学习笔记之一
http://hadoop.apache.org/docs/r1.2.1/api/index.html 适当的利用 null 在map中可以实现对文件的简单处理,如排序,和分集合输出等. 需要关心的内 ...
Hadoop入门学习笔记（二）
Yarn学习 YARN简介 YARN是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度 YARN功能说明资源管理系统:集群的硬件资源,和程序运行相关,比如内存.CPU等. 调度平 ...
Hadoop入门学习笔记-第一天（HDFS：分布式存储系统简单集群）
准备工作: 1.安装VMware Workstation Pro 2.新建三个虚拟机,安装centOS7.0 版本不限配置工作: 1.准备三台服务器(nameNode10.dataNode20.da ...
Hadoop入门学习笔记-第二天（HDFS：NodeName高可用集群配置）
说明:hdfs:nn单点故障,压力过大,内存受限,扩展受阻.hdfs ha :主备切换方式解决单点故障hdfs Federation联邦:解决鸭梨过大.支持水平扩展,每个nn分管一部分目录,所有nn共 ...

随机推荐

vue 中使用 watch 的各种问题
报错: Method "watch" has type "object" in the component definition. Did you refere ...
Vue项目解析
各个文件夹 node_modules:用来放环境依赖 public:用来放公共资源,里面的index.html文件,就是初始的挂载点.被app.vue给取代了. src:放各种资源的. assets: ...
【Python】之format奇技淫巧的输出控制
前置环境:Python3.6.5 探讨点:输出print,字符串format控制, % 控制 print基础控制简单示范: a = 1 b = '@Hello yanshanbei!' print ...
第三章学习Shader所需的数学基础（4）
法线变换法线(normal),也被称为法矢量(normal vector).在以前我们已经讲过如何使用变换矩阵来变换一个顶点或方向矢量,但法线是需要我们特殊处理的一种方向矢量.在游戏中,模型的顶点往 ...
vue中，使用element ui的弹窗与echarts之间的问题
今天项目中有个需求,就是在页面中点击一个图标,弹出一个抽屉式的弹窗(弹窗是element UI的抽屉),弹窗里边是echarts呈现的数据,当我直接用echarts的时候,报错dom没有获取到: 这就 ...
java调用webservice，比较简单方便的方法。
首先,请同学们自行了解webservice的基础知识. 个人理解,webservice约等于使用http+xml技术进行跨平台的数据交互. http和xml我们都很熟悉了,把他们两个组合到一起就是we ...
【nodejs原理&源码赏析（9）】用node-ssh实现轻量级自动化部署
[摘要] node脚本实现轻量级自动化部署示例代码托管在:http://www.github.com/dashnowords/blogs 一. 需求描述前端工程出包后实现简易的自动化部署. 二. ...
【限时免费】从入门到实战，5节课玩转Kafka！赢音箱、书籍好礼！
欢迎添加华为云小助手微信(微信号:HWCloud002 或 HWCloud003),输入关键字"加群",加入华为云线上技术讨论群:输入关键字"最新活动",获取华 ...
Android 内存泄漏原因
Android 手机给应用分配的堆内存通常是8 M 左右, 如果内存处理不当很容易造成 OOM (OutOfMemoryError),OOM 主要由于一下这些原因引起的: 1. 数据库 Cursor ...
mongodb的部署
集群mongdb https://www.cnblogs.com/littleatp/p/8563273.html https://www.mongodb.com/download-center/co ...

Hadoop入门学习笔记总结系列文章导航