从问题域出发认识Hadoop生态系统

近些年来Hadoop生态系统发展迅猛，它本身包含的软件越来越多，同时带动了周边系统的繁荣发展。尤其是在分布式计算这一领域，系统繁多纷杂，时不时冒出一个系统，号称自己比MapReduce或者Hive高效几十倍，几百倍。有一些无知的人，总是跟着瞎起哄，说Impala将取代Hive，Spark将取代Hadoop MapReduce等。本文则从问题域触发，解释说明Hadoop中每个系统独特的作用/魅力以及它们的不可替代性。

Hadoop作为一个生态系统，每个系统只解决某一个特定的问题域（甚至可能很窄），这也是Hadoop的魅力所在：不搞统一型的一个全能系统，而是小而精的多个小系统。本文重点讨论分布式计算领域的几个开源系统可以解决的问题域。

（1）MapReduce：古老的分布式计算框架，它的特点是扩展性、容错性好，易于编程，适合离线数据处理，不擅长流式处理、内存计算、交互式计算等领域。MapReduce网址是：http://hadoop.apache.org/

（2）Hive：披着SQL外衣的MapReduce。Hive是为方便用户使用MapReduce而在外面包了一层SQL，由于Hive采用了SQL，它的问题域比MapReduce更窄，因为很多问题，SQL表达不出来，比如一些数据挖掘算法，推荐算法、图像识别算法等，这些仍只能通过编写MapReduce完成。Hive网址是：http://hive.apache.org/

（3）Pig：披着脚本语言外衣的MapReduce，为了突破Hive SQL表达能力的限制，采用了一种更具有表达能力的脚本语言PIG。由于pig语言强大的表达能力，Twitter甚至基于Pig实现了一个大规模机器学习平台（参考Twitter在SIGMOD2012的文章“Large-Scale Machine Learning at Twitter”）。Pig网址是：http://pig.apache.org/

（4）Stinger Initiative（Tez optimized Hive）：Hortonworks开源了一个DAG计算框架Tez，该框架可以像MapReduce一样，可以用来设计DAG应用程序，但需要注意的是，Tez只能运行在YARN上。Tez的一个重要应用是优化Hive和PIG这种典型的DAG应用场景，它通过减少数据读写IO，优化DAG流程使得Hive速度提供了很多倍。（Stinger正在开发中，Tez代码：https://svn.apache.org/repos/asf/incubator/tez/branches/），Tez介绍可参考我的这篇文章：“Apache
Tez：一个运行在YARN之上支持DAG作业的计算框架”。

（5）Spark：为了提高MapReduce的计算效率，伯克利开发了spark，spark可看做基于内存的MapReduce实现，此外，伯克利还在Spark基础上包了一层SQL，产生了一个新的类似Hive的系统Shark，但目前Spark和Shark尚属于实验室产品。Spark网站是：http://spark-project.org/

（6）Storm/S4：Hadoop在实时计算/流式计算领域（MapReduce假设输入数据是静态的，处理过程中不能被修改，而流式计算则假设数据源是流动的，数据会源源不断流入系统），一直比较落后，还好，Twitter开源的Storm和yahoo！开源的S4弥补了这一缺点，Storm在淘宝，mediaV等公司得到广泛的应用。Storm网址是：http://storm-project.net/，S4网址是：http://incubator.apache.org/s4/

（7）Cloudera Impala/Apache drill：Google Dremel的开源实现，也许是因为交互式计算需求太过强烈，发展迅猛，impala仅用了一年左右便推出1.0GA版本。这种系统适用于交互式处理场景，最后产生的数据量一定要少。Impala尽管发布了1.0版本，但在容错性、扩展性、支持自定义函数等方面，有很长的路要走。Cloudera Impala网址是：https://github.com/cloudera/impala，Apache
drill网址是：http://incubator.apache.org/drill/。

Hortonworks将应用需求进行了如下划分：

映射到上面几种系统，可知：

（1）实时应用场景(0~5s)：Storm、S4、Cloudera Impala，Apache Drill等；

（2）交互式场景（5s~1m）：这种场景通常能要求必须支持SQL，则可行系统有：Cloudera Impala、Apache Drill、Shark等；

（3）非交互式场景（1m~1h）：通常运行时间较长，处理数据量较大，对容错性和扩展性要求较高，可行系统有：MapReduce、Hive、Pig、Stinger等；

（4）批处理场景（1h+）：通常运行时间很长，处理数据量很大，对容错性和扩展性要求很高，可行系统有：MapReduce、Hive、Pig、Stinger等。

转载自董的博客

从问题域出发认识Hadoop生态系统的更多相关文章

阿里巴巴飞天大数据架构体系与Hadoop生态系统
很多人问阿里的飞天大数据平台.云梯2.MaxCompute.实时计算到底是什么,和自建Hadoop平台有什么区别. 先说Hadoop 什么是Hadoop? Hadoop是一个开源.高可靠.可扩展的分布 ...
Hadoop概念学习系列之Hadoop 生态系统（十二）
当下 Hadoop 已经成长为一个庞大的生态体系,只要和海量数据相关的领域,都有 Hadoop 的身影.下图是一个 Hadoop 生态系统的图谱,详细列举了在 Hadoop 这个生态系统中出现的各种数 ...
Hadoop生态系统如何选择搭建
Apache Hadoop项目的目前版本(2.0版)含有以下模块: Hadoop通用模块:支持其他Hadoop模块的通用工具集. Hadoop分布式文件系统(HDFS):支持对应用数据高吞吐量访问的分 ...
Hadoop 生态系统
1.概述最近收到一些同学和朋友的邮件,说能不能整理一下 Hadoop 生态圈的相关内容,然后分享一些,我觉得这是一个不错的提议,于是,花了一些业余时间整理了 Hadoop 的生态系统,并将其进行了归 ...
hadoop生态系统的详细介绍
1.Hadoop生态系统概况 Hadoop是一个能够对大量数据进行分布式处理的软件框架.具有可靠.高效.可伸缩的特点. Hadoop的核心是HDFS和MapReduce,hadoop2.0还包括YAR ...
hadoop 之Hadoop生态系统
1.Hadoop生态系统概况 Hadoop是一个能够对大量数据进行分布式处理的软件框架.具有可靠.高效.可伸缩的特点. Hadoop的核心是HDFS和Mapreduce,hadoop2.0还包括YAR ...
04_Apache Hadoop 生态系统
内容提纲: 1)对 Apache Hadoop 生态系统的认识(Hadoop 1.x 和 Hadoop 2.x) 2) Apache Hadoop 1.x 框架架构原理的初步认识 3) Apache ...
Hadoop概念学习系列之Hadoop 生态系统
当下 Hadoop 已经成长为一个庞大的生态体系,只要和海量数据相关的领域,都有 Hadoop 的身影.下图是一个 Hadoop 生态系统的图谱,详细列举了在 Hadoop 这个生态系统中出现的各种数 ...
Apache Kudu： Hadoop生态系统的新成员实现对快速数据的快速分析
A new addition to the open source Apache Hadoop ecosystem, Apache Kudu completes Hadoop's storage la ...

随机推荐

poj2546Circular Area（两圆相交面积）
链接画图推公式这两种情况都可用一种公式算出来就是两圆都求出圆心角求出扇形的面积减掉三角形面积 #include <iostream> using namespace std; # ...
JavaSE复习_6 枚举类
△单例类是指只有一个实例,而枚举类实际上就是有有限个实例的类,在类里已经把实例定义好了. △枚举类的三种创建形式: 1) enum Week { MON,TUE,WED;//枚举类有默认构造函数创建的 ...
Android中Activity、Service和线程之间的通信
Activity.Service和线程应该是Android编程中最常见的几种类了,几乎大多数应用程序都会涉及到这几个类的编程,自然而然的,也就会涉及到三者之间的相互通信,本文就试图简单地介绍一下这三者 ...
JavaWeb 4 XML
4 XML 1 XML入门 1.1 引入 HTML: 负责网页的结构 CSS: 负责网页的样式(美观) Javascript: 负责在浏 ...
velocity基础教程--1.标准使用(zhuan)
http://llying.iteye.com/blog/387253 **************************** velocity是一个非常好用的模板引擎这里不对项目进行详细介绍,可 ...
hiho_1054_滑动解锁
题目大意智能手机九点屏幕滑动解锁,如果给出某些连接线段,求出经过所有给出线段的合法的滑动解锁手势的总数.题目链接: 滑动解锁题目分析首先,尝试求解没有给定线段情况下,所有合法的路径的总数.可以使 ...
OpenCV3编程入门笔记（3）线性滤波、非线性滤波、图像深度、通道
15 遍历图像中的像素,是先for行数后for列数的,也就是一列一列的遍历,matlab中是从1开始计数,opnecv中采用c语言的从0开始计数. 矩阵归一化:normalize()函数,参数 ...
ios开发者证书签发者无效
2月14日以后,由于苹果更新安全证书:会导致本机制作的所有开发者证书无效: 钥匙串里的开发者证书无法使用解决方式: 重新下载苹果公司的安全证书,并安装 1: 先在钥匙串里搜索到老的证书,如果有,请先 ...
如何用腾讯云打造一款微视频APP
版权声明:本文由腾讯云原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/196 来源:腾云阁 https://www.qclo ...
hdu 1075 二分搜索
还是写一下,二分搜索好了这道题开数组比较坑... 二分,需要注意边界问题,例如:左闭右闭,左闭右开,否则查找不到or死循环先上AC代码 #include<iostream> #incl ...

从问题域出发认识Hadoop生态系统

从问题域出发认识Hadoop生态系统的更多相关文章

随机推荐

热门专题