[转] 如何选择正确的Hadoop版本
Gartner:如何选择正确的Hadoop版本
这份报告的全名是《How to Choose the Right Apache Hadoop Distribution》。主要介绍了企业如何引入Hadoop,其中一些内容很好,值得一看。
在文中Gartner分析了Hadoop的由来,并且指出,目前开源项目的方式为使用Apache Hadoop带来了挑战,因为其中的内容都是很多厂家贡献出来的,成熟度不一样,甚至一些中包含了很个性化的代码,这些代码可能只对某些厂家特殊的业务环境有效。
为此Gartner郑重地建议即使开源的版本是免费的,也最好从一个成熟的合作伙伴那里获取一份商业开源的版本来确保对Hadoop的支持。
然后Gartner介绍了如下几个提供商业版本Hadoop的厂商:
Cloudera:第一个提供商业版本的;已经在Oracle的Big Data一体机,NetApp的Open Solution for Hadoop,Dell的Cloudera Hadoop Solution和SGI的Optimized Hadoop Solution中使用,NTT在亚太地区开始支持这个版本的销售。
MapR: 增加了高可用、快照、镜像、通过NFS访问数据、控制系统、管理套件。跟EMC合作销售。跟LUCENE进行合作。
IBM’s InfoSphere BigInsights: 当前版本为1.3,在其中打包了文本分析、用于数据探索的BigSheets、开发工具。IBM扩展了M\R和灵活的调度器。并提供了一个HDFS的替代方案(GPFS),提供了企业级的安全,提供了一个基于WEB的管理界面,提供了高速数据连接器。
Hortonworks:包括了最多的组件,下一代的M\R和HDFS。跟微软合作,放在Azure中。
EMC GreenPlum HD:Greenplum MR基于MapR的M5版本。提供Greenplum Data Computing Appliance,可以跟Greenplum Database和Greenplum Data Integration Accelerator模块整合在一个集群中。1月EMC发布的Isilon储存可以添加对HDFS的自然支持,可以增强高可用和数据共享的能力。
DataStax:提供实时交互和事务分析能力(通过Apache Cassandra而不是HDFS来实现),所以是一个混合负载环境的备选方案。提供内建的容错能力。目标是消灭ETL,通过NOSQL来替代RDBMS。
其他的DBMS厂家提供了一些到Hadoop的连接器,从而将数据引入到他们的数据库中,或者将数据库中的数据导出。Teradata Aster和EMC Greenplum可以调用MR。还有一些开始提供Hadoop的版本,比如ORACLE。
对于许可证模式,Hadoop比较复杂,有的部分采用Apache的许可证模式,有的则采用自己的模式。
对于Hadoop中的组件,Gartner也做了一些描述:
Apache Hadoop和MapReduce,这个就不用介绍了,太熟悉了,是通用的组件。
Apache HDFS,也不说了
Apache Pig,提供Pig Latin的查询语言,以及一个编译器将查询语言转换为MR程序执行
Apache Hive,提供HiveQL查询语言,然后转换为MR程序执行。使得可以想数据仓库一样被查询,也可以在语言中嵌入MR代码。
Jaql,跟前两者相似,不过是IBM自己的,不是Apache中包含的。可以查询结构化和非结构化数据。为使用JSON来设计。最终编译为MR程序执行。
Apache HBase,是列的NoSQL数据库,构建在HDFS上,提供随机读和写。
Apache Cassandra,列、点对点模式的NoSQL数据库,内建复制机制,为广泛的高可用和云支持设计,允许事务和分析负载同时承载。DataStax将其作为HDFS的替代。
Apache ZooKeeper,提供中央的控制信息和同步。通常为Hbase提供节点见的协调。
Apache Flume,孵化中的项目,由Cloudera提供,用于收集来自多个数据源的日志,并将它输入到中央的数据存储中,比如HDFS。
Apache Oozie,孵化中的项目,由Yahoo提供,用于工作流、调度和协调。
Apache Mahout,用于机器学习,是一个数据挖掘算法的库,包括分群、分类和过滤等。
Apache Sqoop,孵化中的项目,由Cloudera提供,提供在RDBMS和Hadoop中的批量数据传输。
Apache Whirr,一组为了运行云服务而设计的代码库,比如可以用来在AWS上部署ZooKeeper
Apache Avro,被IBM和Cloudera使用,用于数据串行化,也就是将数据转换为紧密的二进制格式(JSON)在Hadoop上存储和使用。
Hue,包括在Cloudera中,提供一个基于WEB的Job Tracker,集群监控和文件浏览。IBM在自己的BigInsights管理台中提供了这个功能。
Cascading,包括在MarR中,定义了不依赖于M\R代码的复杂工作流,底层运行在Hadoop的MR上,通常跟Hbase一起提供。非Apache项目
Apache Lucene,一个文本搜索引擎
Apache Hcatalog,孵化项目,由Hortonworks提供,实现中央的元数据和模式管理,跨越Hadoop和RDBMS,利用Pig和Hive提供关系视图
Apache Ambari,提供Hadoop集群的监控、管理和生命周期管理
接着Gartner分析了两种策略,自己建立Hadoop的软件栈和选择一个有支持的商业版本。最终结论是大部分的公司都应该选择后者,除非是像大型互联网公司这种将Hadoop视为核心和长期演进的才应该选择前者。
我的想法:如果选择商业版本的,那么对于以后的标准化有没有影响呢?每次Hadoop底层模块升级或不会涉及上层应用代码的改变啊?如果不被厂商绑定呢?
FORRESTER的企业Hadoop最佳实践
这份报告的全名为《Enterprise Hadoop Best Practices:Concrete Guidelines From Early Adopters In Online Services》。
一开始文中分析了Hadoop的弱点,以及现在EDW在支持Hadoop方面的缺陷。接着他提出了几个最佳实践:
一、用Hadoop来解决大数据的问题
二、将Hadoop和企业的EDW架构进行整合。并提出最好不要建立多个Hadoop环境的竖井来处理多种应用,不要将Hadoop架构仅仅构建在一种存储上(建议用HDFS和NoSQL数据库的混合,也有RDBMS。)
三、采用成熟的企业级Hadoop和工具,建议评估商业版本,进行POC测试,并考察厂商的财务稳定性、策略方向、服务支持、合作环境等。最好问问EDW是否有这样的产品提供或者提供对这样的产品的支持
四、建立一个Hadoop卓越中心来培养技能,保持跟Hadoop社区的联系,引入咨询,雇佣专家。
[转] 如何选择正确的Hadoop版本的更多相关文章
- hadoop再次集群搭建(3)-如何选择相应的hadoop版本
之前接触过很多很多hadoop版本,现在重新搭建平台,面临选择哪个版本的问题. 当我们决定是否采用某个软件用于开源环境时,通常需要考虑以下几个因素: (1)是否为开源软件,即是否免费. (2) 是否有 ...
- HBase各版本对Hadoop版本的支持情况
转载自:http://blog.csdn.net/sunny05296/article/details/54089194 安装HBase时,要考虑选择正确的Hadoop版本,否则可能出现不兼容的情况. ...
- Hadoop版本选择
刚开始学习Hadoop时就曾经一直抱怨Hadoop的安装部署为什么这么麻烦,对于一个新手需要捯饬一天才能把分布式环境安装配置好.而对于一个自学Hadoop而周围又没人交流的菜鸟来说,我对Hadoop的 ...
- 【大数据技术】操作系统和Hadoop版本选择
1.操作系统选择 Hadoop产品是由Java语言开发的,所以推荐的是Linux操作系统,理由很简单开源免费,推荐的操作系统CentOS. CentOS是一个基于Red Hat 企业级 Linux 提 ...
- Hadoop版本的选择问题
自从2013年下半年开始,hadoop的版本开始了快速的更新换代,这和通信和互联网行业(ICT)的发展是密切相关的.随着移动网络的和宽带网络的覆盖以及数据传输速率的提升,线上的数据有了爆炸式的增长.这 ...
- 如何选择正确的DevOps工具
坦白的讲:世界上没有哪种工具能够像DevOps这么神奇(或敏捷,或精益).DevOps在开发和运营团队之间建立了完美的合作与沟通,因此与其说这是一种神奇的工具,不如说是一种文化的转变. 然而,团队之间 ...
- hadoop版本比较 [转]
由于Hadoop版本混乱多变,因此,Hadoop的版本选择问题一直令很多初级用户苦恼.本文总结了Apache Hadoop和Cloudera Hadoop的版本衍化过程,并给出了选择Hadoop版本的 ...
- Pig安装及简单使用(pig版本0.13.0,Hadoop版本2.5.0)
原文地址:http://www.linuxidc.com/Linux/2014-03/99055.htm 我们用MapReduce进行数据分析.当业务比较复杂的时候,使用MapReduce将会是一个很 ...
- 【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型
忘的差不多了, 先补概念, 然后开始搭建集群实战 ... . 一 Hadoop版本 和 生态圈 1. Hadoop版本 (1) Apache Hadoop版本介绍 Apache的开源项目开发流程 : ...
随机推荐
- DAC--使用DAC来导出数据库脚本
//============================================== //功能介绍:使用DAC来导出数据库脚本 //注意事项: //1.本程序涉及到的DLL有: // - ...
- Microsoft.Web.Administration操作IIS7时的权限设置
在用Microsoft.Web.Administration操作IIS7时,你可能会遇到如下权限错误: 文件名: redirection.config错误: 由于权限不足而无法读取配置文件 如下图: ...
- asp.net core 的用户注册功能——Identity上手
首先请using这个类库. using Microsoft.AspNetCore.Identity; 这个类库老牛逼了,首先是包含了一个IdentityUser类.我们可以自己写一个User类继承Id ...
- .NET 简易方法拦截器
伟大的无产阶级Willaim曾说过:"无论你觉得自己多么的了不起,也永远有人比你更强".对,我说过!我就是william. 今天想记录一下在项目中遇到的一个比较有意思的东西,异常拦 ...
- MongoDB的下载、安装与部署方法
1.什么是MongoDB? 它是介于关系型数据库和非关系型数据库之间的一种NoSQL数据库,用C++编写,是一款集敏捷性.可伸缩性.扩展性于一身的高性能的面向文档的通用数据库. 2.为什么要用Mong ...
- Service的学习代码
1. startService(new Intent(MainActivity.this, MyService.class))------->stopService(new Intent(Mai ...
- iOS - 安全
1. CheckList http://www.jianshu.com/p/d3cc2d5c177d a 数据安全.分为数据传输安全和数据存储安全 数据存储安全为保存在App中的数据安全.不允许明文存 ...
- 【javascript】iOS Safari 中点击事件失效的解决办法
问题描述 当使用委托给一个元素添加click事件时,如果事件是委托到 document 或 body 上,并且委托的元素是默认不可点击的(如 div, span 等),此时 click 事件会失效. ...
- [BZOJ2758] [SCOI2012]Blinker的噩梦 扫描线+set
题目大意:有n个圆或凸多边形,这些图形不会相交,每当走入或走出一个图形时需要异或上一个代价,有m组操作: 询问操作,每次询问从一个点走到另一个点时,需要的代价(初始代价为0) 修改操作,每次修改一个图 ...
- #阿里云#云服务器搭建git服务器
前言:大家都知道,git是非常方便的版本控制工具,目前网上有很多免费的git仓库可以给我们使用,但是有些时候我们并不放心将我们的项目寄放在别人的服务器上,这个时候就需要自己搭建一个git服务器,十分的 ...