Hadoop学习-生态体系(ecosystem)概览

0. 大背景

全球No.1搜索引擎公司谷歌(Google)面临每天海量搜索引擎数据的问题，经过长时间的实践积累，

谷歌形成了自己的大数据框架，但是并没有开源，而是发表了一篇论文，阐述了自己的思想，在论文中

提到了MapReduce的方法。这篇论文，被Doug Cutting也就是后来的Hadoop之父所关注，引起了他极大的兴趣。

因为，这个时候，他正在致力于一个项目，该项目需要多任务并行处理大量的数据，他和伙伴努力了多次，结果都不理想。

于是，Doug和他的团队决定基于Google的MapReduce的思想重新开发一个框架。

经过一段时间的努力，于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入Hadoop项目作为Apache基金会的项目。

Hadoop这个名字不是一个缩写，而是一个虚构的名字。该项目的创建者，Doug Cutting解释Hadoop的得名：“这个名字是我孩子给一个棕黄色的大象玩具命名的。

学习Hadoop建议的参考书：Hadoop权威指南，目前中文版到第3版，英文版已经到Edition 4, 该书的作者Tom White是Hadoop创始团队的核心成员，是Hadoop委员会的成员。

大牛级的人物！！

2. 生态体系概览

经过长时间的发展，Hadoop已经形成了自己的生态体系。

有些框架是诸如一些大公司如Yahoo, Facebook团队所开发的，下面我们来看一下它的生态图：

从上图可以看出，Apache Hadoop包含如下主要组件：

* HDFS and MapReduce: 这是Hadoop的核心框架(也就是Doug Cutting和他的团队所开发的)

* HBase, Hive, Pig: 这3个框架主要负责数据存储和查询，分别由不同公司开发，我们后面会介绍到

* Flume, Sqoop：负责数据的导入/导出

* Mahout: 机器学习和分析

* Zookeeper：分布式协调

* Ambari：　　集群管理

* Avro：数据存储和序列化

* HCatalog: 元数据管理

3. 各组件分别介绍

1）Apache HBase

由于HDFS是只能追加数据的文件系统，它不允许数据的修改。

所以，Apache HBase由此而诞生。

HBase是一个分布式的，随机访问的，面向列的数据库系统。

HBase在HDFS的顶层运行，它允许应用程序开发人员直接读写HDFS数据。

但是，唯一的缺陷在于：HBase并不支持SQL语句。

所以，它也是NOSQL数据库的一种。

然而，它提供了基于命令行的界面以及丰富的API函数来更新数据。

需要提到的是：HBase中的数据是以键值对的形式存储在HDFS文件系统中的。

2）Apache Pig

Apache Pig由Yahoo开发，它提供了在MapReduce之上的抽象层。

它提供了一种叫做Pig Latin的被用来创建MapReduce程序的语言。

Pig Latin被程序员用来编写程序，分析数据，通过它可以创建并行执行的任务，

从而可以更有效地利用Hadoop的分布式集群。

Pig有很多成功的大公司项目案例，如：eBay, LinkedIn, Twitter。

3）Apache Hive

Hive被用来作为大数据的数据仓库，它也使用HDFS文件系统来存储数据。

在Hive中我们不编写MapReduce程序，因为Hive提供了一种类SQL语言，叫做HiveQL,

这让开发者能够迅速写出类似关系型数据SQL查询的点对点(ad-hoc)查询。

4）Apache ZooKeeper

Hadoop通过节点(nodes)的方式提供相互间的通信。

ZooKeeper便是被用来管理这些节点的，它被用来协调各个节点。

除了管理节点以外，它还维护一些配置信息，并且对分布式系统的服务进行分组。

ZooKeeper可以独立于Hadoop来运行，而不像生态系统中的其它组件一样。

由于ZooKeeper是基于内存来管理信息的，因此它的性能相对来说还是挺高的。

5）Apache Mahout

Mahout是一个开源的机器学习库，它能使Hadoop用户高效地进行诸如数据分析，数据挖掘以及集群等一些列操作。

Mahout对于大数据集特别高效，它提供的算法经过性能优化能够在HDFS文件系统上高效地运行MapReduce框架。

6）Apache HCatalog

HCatalog在Hadoop的顶层提供元数据的管理服务。

所有运行在Hadoop之上的软件能够使用HCatalog在HDFS文件系统中存储它们的计划(schema)。

HCatalog以REST API的方式使第三方的软件能够创建，编辑和暴露表格的定义以及生成的元数据。

因此，我们通过HCatalog并不需要知道数据的物理位置在那里。

HCatalog提供了数据定义语句(DDL),通过它们MapReduce, Pig, Hive等的工作任务将以队列的形式等待执行，如有需要

还可以监控它们各自的进度。

7）Apache Ambari

Ambari被用来监控Hadoop集群。

它提供了一些列特性，诸如：安装向导，系统警告，集群管理，任务性能等。

Ambari也提供了RESTful的API以便与其他软件进行整合。

8）Apache Avro

如何用过其它编程语言来有效地组织Hadoop的大数据，Avro便是为了这个目的而生。

Avro提供了各个节点上的数据的压缩以及存储。

基于Avro的数据存储能够轻松地被很多脚本语言诸如Python，或者非脚本语言如Java来读取。

另外，Avro还可被用来MapReduce框架中数据的序列化。

9）Apache Sqoop

Sqoop被用来在Hadoop中高效地加载大数据集，例如它允许开发人员轻松地从一些数据源，如：

关系型数据库，企业级数据仓库，甚至应用程序导入/导出数据数据。

10）Apache Flume

Flume常被用来进行日志的聚合操作，它被用来作为ETL(Extract-Transform-Load) - 解转加(解压-转换-加载）工具来使用。

好了，Hadoop生态体系以及它们的主要组件就大致介绍到这里了！

Hadoop学习-生态体系(ecosystem)概览的更多相关文章

Hadoop生态圈-大数据生态体系快速入门篇
Hadoop生态圈-大数据生态体系快速入门篇作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.大数据概念 1>.什么是大数据大数据(big data):是指无法在一定时间 ...
Hadoop优势，组成的相关架构，大数据生态体系下的模式
Hadoop优势,组成的相关架构,大数据生态体系下的模式一.Hadoop的优势二.Hadoop的组成 2.1 HDFS架构 2.2 Yarn架构 2.3 MapReduce架构三.大数据生态体系 ...
阿里封神谈hadoop学习之路
阿里封神谈hadoop学习之路封神 2016-04-14 16:03:51 浏览3283 评论3 发表于: 阿里云E-MapReduce >> 开源大数据周刊 hadoop 学生 s ...
Hadoop学习路线图
Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括, ...
Hadoop周边生态软件和简要工作原理(一)
转自:http://www.it165.net/admin/html/201307/1531.html 基本都是在群里讨论的时候,别人问的入门问题,以后想到新的问题再补充进来.但是其实入门问题也很重要 ...
Hadoop学习之旅二：HDFS
本文基于Hadoop1.X 概述分布式文件系统主要用来解决如下几个问题: 读写大文件加速运算对于某些体积巨大的文件,比如其大小超过了计算机文件系统所能存放的最大限制或者是其大小甚至超过了计算机整 ...
Hadoop学习笔记—22.Hadoop2.x环境搭建与配置
自从2015年花了2个多月时间把Hadoop1.x的学习教程学习了一遍,对Hadoop这个神奇的小象有了一个初步的了解,还对每次学习的内容进行了总结,也形成了我的一个博文系列<Hadoop学习笔 ...
Hadoop学习之旅三：MapReduce
MapReduce编程模型在Google的一篇重要的论文MapReduce: Simplified Data Processing on Large Clusters中提到,Google公司有大量的 ...
[Hadoop] Hadoop学习历程 [持续更新中…]
1. Hadoop FS Shell Hadoop之所以可以实现分布式计算,主要的原因之一是因为其背后的分布式文件系统(HDFS).所以,对于Hadoop的文件操作需要有一套全新的shell指令来完成 ...

随机推荐

基本套接字编程（5） -- epoll篇
1. epoll技术 epoll是Linux内核为处理大批量文件描述符而作了改进的poll,是Linux下多路复用IO接口select/poll的增强版本,它能显著提高程序在大量并发连接中只有少量活跃 ...
LeetCode（93） Restore IP Addresses
题目 Given a string containing only digits, restore it by returning all possible valid IP address comb ...
Windows 打印控件
Windows窗体的PrintDocument组件用于设置一些属性,这些属性说明,在基于Windows的应用程序中要打印说明内容以及打印文档的能力,可将它与PrintDialog组件一起使用来控制文档 ...
【实战】初识ListView及提高效率
简介: ListView是手机上最常用的控件之一,几乎所有的程序都会用到,手机屏幕空间有限,当需要显示大量数据的时候,就需要借助ListView来实现,允许用户通过手指上下滑动的方式将屏幕外的数据滚动 ...
Servlet中使用Log4j2
因为Servlet常用的版本有两个,即2.5与3.0.要在web application中使用Log4j2,还需要加入log4j-web的jar包.log4j通过web.xml中的context参数l ...
Windows 8.1 应用再出发 (WinJS) - 几种新增控件（1）
Windows 8.1 和 WinJS 引入了以下新控件和功能,分别是:AppBarCommand.BackButton.Hub.ItemContainer.NavBar.Repeater.WebVi ...
android firmware 利用UDP socket发送Magic Packet--c语言版本
android firmware 利用UDP socket发送Magic Packet 1 Magic Packet格式: 6个0xFF + 16个Dst Mac Address 2 代码需要设置目的 ...
解决修改密码报错‘passwd:Authentication token’
1.修改密码时报错: 错误信息:'passwd: Authentication token manipulation error' [root@localhost test]# ' | passwd ...
【译】UNIVERSAL IMAGE LOADER.PART 2---ImageLoaderConfiguration详解
ImageLoader类中包含了所有操作.他是一个单例,为了获取它的一个单一实例,你需要调用getInstance()方法.在使用ImageLoader来显示图片之前,你需要初始化它的配置-Image ...
[C++] socket -8 [命名管道]
::命名管道不但能实现同一台机器上两个进程通信,还能在网络中不同机器上的两个进程之间的通信机制.与邮槽不同,命名管道是采用基于连接并且可靠的传输方式,所以命名管道传输数据只能一对一进行传输. /* 命 ...

Hadoop学习-生态体系(ecosystem)概览

Hadoop学习-生态体系(ecosystem)概览的更多相关文章

随机推荐

热门专题