Hadoop体系架构简介

　　今天跟一个朋友在讨论hadoop体系架构，从当下流行的Hadoop+HDFS+MapReduce+Hbase+Pig+Hive+Spark+Storm开始一直讲到HDFS的底层实现，MapReduce的模型计算，到一个云盘如何实现，再到Google分布式史上那最伟大的三篇文章。

　　这几个名词刚问到初学者的时候肯定会一脸懵逼包括我自己，整个Hadoop家族成员很多，“势力”很庞大，下面画个图，简单概括下。

到这里本文内容已结束，下文是摘自网络上一些比较经典或者浅显易懂的相关文字，有兴趣的继续往下看。对初学者来说，如果上图能大概看懂，那下面的内容能更有利于你理解。

Google的分布式计算三驾马车：

Hadoop的创始源头在于当年Google发布的3篇文章，被称为Google的分布式计算三驾马车。

Google File System（中文，英文）用来解决数据存储的问题，采用N多台廉价的电脑，使用冗余（也就是一份文件保存多份在不同的电脑之上）的方式，来取得读写速度与数据安全并存的结果。

Map-Reduce说穿了就是函数式编程，把所有的操作都分成两类，map与reduce，map用来将数据分成多份，分开处理，reduce将处理后的结果进行归并，得到最终的结果。但是在其中解决了容错性的问题。

BigTable是在分布式系统上存储结构化数据的一个解决方案，解决了巨大的Table的管理、负载均衡的问题。

Doug Cutting：

Doug Cutting之前是一个非常有名的开源社区的人，创造了nutch与lucene（现在都是在Apache基金会下面的），nutch之前就实现了一个分布式的爬虫抓取系统。等Google的三驾马车发布后，Doug Cutting一看，挖靠这么厉害的技术，于是就实现了一个DFS(distributed file system)与Map-Reduce（大牛风范啊），集成进了Nutch，作为Nutch的一个子项目存在。那时，是2004年左右。

在互联网这个领域一直有这样的说法：

“如果老二无法战胜老大，那么就把老大赖以生存的东西开源吧”

当年与Google还是处在强烈竞争关系的Yahoo!于是招了Doug兄进来，把老大赖以生存的DFS与Map-Reduce开源了。开始了Hadoop的童年时期。差不多在2008年的时候，Hadoop才算逐渐成熟。

GFS+MapReduce+Bigtable之间的关系：

知乎上有个回答的很形象：

Hadoop是很多组件的集合，主要包括但不限于MapReduce，HDFS，HBase，ZooKeeper。MapReduce模仿了Google MapReduce，HDFS模仿了Google File System，HBase模仿了Google BigTable，ZooKeeper或多或少模仿了Google Chubby（没有前3个出名），所以下文就只提MapReduce、HDFS、HBase、ZooKeeper吧。

简单来讲，

HDFS和HBase是依靠外存（即硬盘）的分布式文件存储实现和分布式表存储实现。HDFS是一个分布式的“云存储”文件系统，它会把一个文件分块并分别保存，取用时分别再取出、合并。重要的是，这些分块通常会在3个节点（即集群内的服务器）上各有1个备份，因此即使出现少数节点的失效（如硬盘损坏、掉电等），文件也不会失效。如果说HDFS是文件级别的存储，那HBase则是表级别的存储。HBase是表模型，但比SQL数据库的表要简单的多，没有连接、聚集等功能。HBase的表是物理存储到HDFS的，比如把一个表分成4个HDFS文件并存储。由于HDFS级会做备份，所以HBase级不再备份。
MapReduce则是一个计算模型，而不是存储模型；MapReduce通常与HDFS紧密配合。举个例子：假设你的手机通话信息保存在一个HDFS的文件callList.txt中，你想找到你与同事A的所有通话记录并排序。因为HDFS会把callLst.txt分成几块分别存，比如说5块，那么对应的Map过程就是找到这5块所在的5个节点，让它们分别找自己存的那块中关于同事A的通话记录，对应的Reduce过程就是把5个节点过滤后的通话记录合并在一块并按时间排序。MapReduce的计算模型通常把HDFS作为数据来源，很少会用到其它数据来源比如HBase。
ZooKeeper本身是一个非常牢靠的记事本，用于记录一些概要信息。Hadoop依靠这个记事本来记录当前哪些节点正在用，哪些已掉线，哪些是备用等，以此来管理机群。

相比较而言，

Storm本身主要是一个分布式环境下的实时数据计算模型，没有外存存储部分。Storm的应用场景是，数据来的特别快、并且要求随来随处理。比如Twitter服务器自身每秒收到来自全世界的推能达几千条，并且要求收到后还需立即索引，以供查询。这用传统的方法乃至Hadoop都是比较难的，因为外存的使用会带来较大的延迟，这时可以用Storm。Storm节点对内存中的数据进行操作，然后流出数据到下一个节点，以此来维系节点间的协作、达到高速协同处理。
Storm有一个总的控制节点Nimbus来与ZooKeeper交流、进行集群管理。
Storm还没有做到数据备份，这是它的不足（2013年Update: 较新的Storm已引入了类事务的概念，会有重做的操作来保证数据的处理）。

所以，Hadoop和Storm都是分布式环境下的计算平台，不过前者依赖外存，适应批处理情形，后者依赖内存，适应实时处理、超低延迟、无需大量存储数据情形。前类出现的时间较早（03年GFS的论文），后类出现的时间较晚（10年Yahoo! S4的论文）。我不大赞同“Storm改进了Hadoop的缺点”的说法——这种说法有点像“轮船改进了汽车的哪些缺点”——因为它们本身即不太同类。Storm和Hadoop有很多相似也有很多区别，适用的场景是不一样的，主要取决于使用者自己的需求。

*上面很多叙述方法是为了读者的更好理解，不尽完全准确，比如HBase是有内存缓冲机制的，并非只依赖外存，再比如Nimbus实质上是某个节点上的守护进程，而非节点本身。

大数据技术领域：

大数据平台架构：

数据处理基础架构

技术架构

参考文献:

分布式系统漫谈—Google三驾马车: GFS,mapreduce,Bigtable

大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解

为什么Hadoop将一定会是分布式计算的未来

多图技术贴：深入浅出解析大数据平台架构

HDFS的运行原理

MapReduce框架详解

http://www.oschina.net/p/hbase

Hadoop体系架构简介的更多相关文章

hadoop体系架构
1.1 Hadoop 概念:hadoop是一个由Apache基金会所开发的分布式系统基础架构.是根据google发表的GFS(Google File System)论文产生过来的. ...
Oracle学习笔记—oracle体系架构及状态（nomount、mount和open）简介
oracle体系架构简介先来简要了解一下Oracle数据库体系架构以便于后面深入理解,Oracle Server主要由实例(instance)和数据库(database)组成.实例(instance ...
HBase体系架构和集群安装
大家好,今天分享的是HBase体系架构和HBase集群安装.承接上两篇文章<HBase简介>和<HBase数据模型>,点击回顾这2篇文章,有助于更好地理解本文. 一.HBase ...
SaaS系列介绍之十三: SaaS系统体系架构
1 系统体系架构设计软件开发中系统体系架构决定了一个系统稳定性.健壮性.可扩展性.兼容性和可用性,它是系统的灵魂.体系架构是架构师所关注的核心.良好的体系架构是系统成功的开端,否则,再好的代码与设计 ...
二十六、Hadoop学习笔记————Hadoop Yarn的简介复习
1. 介绍 YARN(Yet Another Resource Negotiator)是一个通用的资源管理平台,可为各类计算框架提供资源的管理和调度. 之前有提到过,Yarn主要是为了减轻Hadoop ...
大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
微信公众号[程序员江湖] 作者黄小斜,斜杠青年,某985硕士,阿里 Java 研发工程师,于 2018 年秋招拿到 BAT 头条.网易.滴滴等 8 个大厂 offer,目前致力于分享这几年的学习经验. ...
面向服务的体系架构（SOA）
面向服务的体系架构(SOA) 1.面向服务的体系架构(SOA) 面向服务的架构(service-oriented architecture)是Gartner于2O世纪9O年代中期提出的面向服务架构的概 ...
Kylin工作原理、体系架构
核心思想:预计算. 对多维分析可能用到的度量进行预计算,将计算好的结果保存成Cube,并存在HBase中,供查询时直接访问将高复杂度的聚合运算.多表连接……操作转换成对预计算结果的查询.决定了Kyl ...
Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
转自:http://blog.csdn.net/iamdll/article/details/20998035 分类: 分布式 2014-03-11 10:31 156人阅读评论(0) 收藏举报 ...

随机推荐

Oracle批量操作数据库
1:批量插入 <insert id="insertBatch" parameterType="Java.util.List" > insert in ...
bzoj1555 KD之死贪心+堆优化
1555: KD之死 Time Limit: 10 Sec Memory Limit: 64 MBSubmit: 124 Solved: 54[Submit][Status][Discuss] D ...
cmd命令报4048错误
解决方法: win10系统:快捷键win+x,找到命令提示符(管理员),打开再下载相应的依赖包. win7/8:打开开始,输入命令提示符,找到管理员权限的命令提示符,打开再下载相应的依赖包. 提示:如 ...
老男孩Python全栈开发（92天全）视频教程自学笔记18
day18课程内容: os模块 import osprint(os.getcwd())#D:\untitled\练习题获取当前工作目录os.chdir(r'D:\untitled\练习题\16.1切 ...
新手福音︱正则表达式小工具RegExr
由于之前在做NLP的内容,势必会接触正则表达式,但是呢,又觉得这个学不明白- 于是,这个工具还是蛮不错的,相当于在线正则速查+验证小工具,对于我这样的新手值得去玩玩. github:https://g ...
阿里舆情︱舆情热词分析架构简述（Demo学习）
本节来源于阿里云栖社区,同时正在开发一个舆情平台,其中他们发布了一篇他们所做的分析流程,感觉可以作为案例来学习.文章来源:觉民cloud/云栖社区平台试用链接:https://prophet.dat ...
阿里开源的热补丁框架AndFix使用教程
阿里巴巴推出的AndFix框架首次给出大家这个框架的地址:https://github.com/alibaba/AndFix 对源码比较感兴趣的同学们可以自行研究代码 AndFix原理介绍 AndF ...
JUnit4测试出错（一）
log4j:WARN No appenders could be found for logger (org.springframework.test.context.junit4.SpringJUn ...
CAN总线基础知识（三）
1．CAN协议 1.1 帧类型通讯时使用下面5个类型的帧: 数据帧遥控帧错误帧过载帧帧间空隙在所有这些帧中,数据帧和遥控帧由用户设置,而其它帧则由CAN硬件设置. 数据和遥控帧有两种格式: ...
基于am3358的led跑马灯测试
#include <sys/ioctl.h> #include<stdio.h> #include <fcntl.h> #include <sys/types ...

Hadoop体系架构简介

Hadoop体系架构简介的更多相关文章

随机推荐

热门专题