hadoop版本比较 [转]】的更多相关文章

内容来自<Hadoop技术内幕:深入解析YARN架构设计与实现原理>第2章:http://book.51cto.com/art/201312/422022.htm Hadoop版本变迁 当前Apache Hadoop版本非常多,本小节将帮助读者梳理各个版本的特性以及它们之间的联系.在讲解Hadoop各版本之前,先要了解Apache软件发布方式.对于任何一个Apache开源项目,所有的基础特性均被添加到一个称为“trunk”的主代码线(main codeline),当需要开发某个重要的特性时,会…
由于Hadoop版本混乱多变,因此,Hadoop的版本选择问题一直令很多初级用户苦恼.本文总结了Apache Hadoop和Cloudera Hadoop的版本衍化过程,并给出了选择Hadoop版本的一些建议. 1. Apache Hadoop 1.1  Apache版本衍化 截至目前(2012年12月23日),Apache Hadoop版本分为两代,我们将第一代Hadoop称为Hadoop 1.0,第二代Hadoop称为Hadoop 2.0.第一代Hadoop包含三个大版本,分别是0.20.x…
原文地址:http://www.linuxidc.com/Linux/2014-03/99055.htm 我们用MapReduce进行数据分析.当业务比较复杂的时候,使用MapReduce将会是一个很复杂的事情,比如你需要对数据进行很多预处理或转换,以便能够适应MapReduce的处理模式,另一方面,编写MapReduce程序,发布及运行作业都将是一个比较耗时的事情. Pig的出现很好的弥补了这一不足.Pig能够让你专心于数据及业务本身,而不是纠结于数据的格式转换以及MapReduce程序的编写…
刚开始学习Hadoop时就曾经一直抱怨Hadoop的安装部署为什么这么麻烦,对于一个新手需要捯饬一天才能把分布式环境安装配置好.而对于一个自学Hadoop而周围又没人交流的菜鸟来说,我对Hadoop的理解一直停留在很肤浅的层面,能应用,但对内部的原理知之甚少.最近和一个做这方面的朋友聊天,他问我你学习Hadoop是用的什么版本搭建环境,我说Hadoop版本那么多我也记不太清了,他只是笑笑就没再多问. 回来后我又仔细想了想他问的话,不会是问的别的意思吧,难道Hadoop不是只分1.0.x和2.x这…
忘的差不多了, 先补概念, 然后开始搭建集群实战 ... . 一 Hadoop版本 和 生态圈 1. Hadoop版本 (1) Apache Hadoop版本介绍 Apache的开源项目开发流程 : -- 主干分支 : 新功能都是在 主干分支(trunk)上开发; -- 特性独有分支 : 很多新特性稳定性很差, 或者不完善, 在这些分支的独有特定很完善之后, 该分支就会并入主干分支; -- 候选分支 : 定期从主干分支剥离, 一般候选分支发布, 该分支就会停止更新新功能, 如果候选分支有BUG修…
1.操作系统选择 Hadoop产品是由Java语言开发的,所以推荐的是Linux操作系统,理由很简单开源免费,推荐的操作系统CentOS. CentOS是一个基于Red Hat 企业级 Linux 提供的可自由使用的源代码企业级的 Linux 发行版本. CentOS两年发行一次新版本,每个版本都会获得7年的支持(通过安全更新方式),大概6个月更新一次小版本,以便支持新的硬件. CentOS独有的yum命令支持在线升级,可以即时更新系统,完全免费. 2.Hadoop版本 不收费的Hadoop版本…
转载自:http://blog.csdn.net/sunny05296/article/details/54089194 安装HBase时,要考虑选择正确的Hadoop版本,否则可能出现不兼容的情况. HBase各版本和Hadoop版本的支持情况,官方有相关说明,下面表格中: "S" = 支持 "X" = 不支持 "NT" = 未测试   HBase-0.94.x HBase-0.98.x (Support for Hadoop 1.1+ is…
自从2013年下半年开始,hadoop的版本开始了快速的更新换代,这和通信和互联网行业(ICT)的发展是密切相关的.随着移动网络的和宽带网络的覆盖以及数据传输速率的提升,线上的数据有了爆炸式的增长.这种趋势特别体现在大型的电商平台如淘宝.京东.亚马逊,海量数据的存储和处理问题成为了热门话题,在这种形势下分布式的.云化的解决方案应运而生,hadoop作为大型分布式存储和处理的开源框架自然成为了行业里的热点.以下是hadoop的官方简介. Apache Hadoop软件库是一个框架,允许使用简单的编…
Gartner:如何选择正确的Hadoop版本 这份报告的全名是<How to Choose the Right Apache Hadoop Distribution>.主要介绍了企业如何引入Hadoop,其中一些内容很好,值得一看. 在文中Gartner分析了Hadoop的由来,并且指出,目前开源项目的方式为使用Apache Hadoop带来了挑战,因为其中的内容都是很多厂家贡献出来的,成熟度不一样,甚至一些中包含了很个性化的代码,这些代码可能只对某些厂家特殊的业务环境有效. 为此Gartn…
忘的差不多了, 先补概念, 然后开始搭建集群实战 ... . 一 Hadoop版本 和 生态圈 1. Hadoop版本 (1) Apache Hadoop版本介绍 Apache的开源项目开发流程 : -- 主干分支 : 新功能都是在 主干分支(trunk)上开发; -- 特性独有分支 : 很多新特性稳定性很差, 或者不完善, 在这些分支的独有特定很完善之后, 该分支就会并入主干分支; -- 候选分支 : 定期从主干分支剥离, 一般候选分支发布, 该分支就会停止更新新功能, 如果候选分支有BUG修…
之前接触过很多很多hadoop版本,现在重新搭建平台,面临选择哪个版本的问题. 当我们决定是否采用某个软件用于开源环境时,通常需要考虑以下几个因素: (1)是否为开源软件,即是否免费. (2) 是否有稳定版,这个一般软件官方网站会给出说明. (3) 是否经实践验证,这个可通过检查是否有一些大点的公司已经在生产环境中使用知道. (4) 是否有强大的社区支持,当出现一个问题时,能够通过社区.论坛等网络资源快速获取解决方法. 对于版本选择,dongxicheng在他的博客中做过总结:点击这个链接可以查…
hadoop版本与支持的hbase版本对照表 分类: hbase2013-05-20 17:19 701人阅读 评论(2) 收藏 举报 HbaseHadoop As of Hive 0.9.0 the HBase integration requires at least HBase 0.92, earlier versions of Hive were working with HBase 0.89/0.90 以下内容来自下载的HBASE-0.94.7的book中( $HBASE_HOME/d…
Hadoop版本:CDH, HDP, MapR 学习了:http://dongxicheng.org/mapreduce-nextgen/hadoop-distribution-selection/ https://www.cnblogs.com/jinhaolin/p/6750295.html http://blog.csdn.net/xiangxizhishi/article/details/75711242 CDH: Cloudera Distribution for Hadoop HDP…
目前针对apache hadoop更新的版本较多,由此而产生了两个方面的问题: 1.如何查看运行的集群当中的hadoop的版本的问题. 2.如何查看运行集群当中的hadoop的位数 下面详细的介绍一下 1.查看版本信息 通过在集群上执行:hadoop version  命令可以查看对应的hadoop的版本.如下图所示: 2.查看hadoop集群的位数 执行:cd $HADOOP_HOME/lib/native file  libhadoop.so.1.0.0 此时就可以查看的到hadoop本地库…
# 1 版本相同 hadoop distcp -m 10 -bandwidth 150 hdfs://ns1/user/hive/warehouse/public.db/public_oi_fact hdfs://xxx:8020/user/hive/warehouse # 2 版本不同 hadoop distcp -m 2000 -bandwidth 200 webhdfs://ip:50070/user/hive/warehouse/public.db/* webhdfs://ip:5007…
在hdp的官网上有一个ETL工具叫做Talend Open Studio,然后我就下了,并且在群里询问了一下,突然间冒出来一群ETL高手,经高人指点认识了一款叫做Kettle的软件,经过这两天的试用,从直观感受上,Kettle更容易使用和上手,资料更多,界面更友好... 优点很多,这里不一一列举了,关键是它对hadoop的支持我觉得是很全面的. 但是这里面有一个问题出现了,它不支持我现在用的版本,我用的是Hortonworks的HDP1.3,好吧,经过不懈的努力,终于被我搜索到了,哈哈,原来它可…
     hadoop有两个分支:0.20.x 和0.23.x.其中0.20.x是比较稳定的版本,0.23.x中新特性更多,但相对不稳定. 其中从0.20.x 分支发展出来的是:hadoop1.0,CDH3 从0.23.x 分支发展出来的是:hadoop-alpha,CDH4      下面具体说hadoop1.0.2.0 和CDH3.CDH4:      Apache Hadoop  2012年10月02日发布了 2.0 的第二个 Alpha 版本,版本号 2.0.2.该版本在 2000 个节…
参考文档:http://spark.apache.org/docs/1.6.0/building-spark.html spark安装需要选择源码编译方式进行安装部署,cdh5.10.0提供默认的二进制安装包存在未知问题,如果直接下载spark二进制安装文件,配置完成后会发现启动spark及相关使用均会报错. 编译spark需要联网,spark使用scala语言编写,所以运行spark需要scala语言,上一步已经安装了scala,scala使用java编写,所以安装scala需要jdk支持,上…
hadoop本地库与系统版本不一致引起的错误解决方法 部署hadoop的集群环境为 操作系统 centos 5.8 hadoop版本为cloudera   hadoop-0.20.2-cdh3u3 集群中设置支持gzip lzo压缩后,在对压缩文件进行读取或者对输入文件压缩的时候要使用到hadoop的本地库,本地库的默认位置在 $HADOOP_HOME/lib/native/Linux-amd64-64   (64位操作系统) $HADOOP_HOME/lib/native/Linux-i386…
本文引用自:http://www.aboutyun.com/blog-61-62.html 最新版本: hadoop和hbase版本对应关系: Hbase    Hadoop 0.92.0 1.0.0 0.92.1 1.0.0 0.92.2 1.0.0 0.94.0 1.0.2 0.94.1 1.0.3 0.94.2 1.0.3 0.94.3 1.0.4 0.94.4 1.0.4 0.94.5 1.0.4 0.94.9 1.2.0 0.95.0 1.2.0 Hadoop与hive版本对应关系 h…
Hadoop有三种安装模式,分别为单机模式.伪分布式模式和完全分布式模式(集群模式).本文安装版本是hadoop-1.1.2,hadoop-2.x版本安装请参考:http://www.cnblogs.com/hanganglin/articles/4254931.html. 一.单机模式  单机模式是Hadoop的默认模式,单机模式只有一个节点,不使用HDFS,也不加载任何Hadoop的守护进程,该模式主要用户开发调试MapReduce应用程序逻辑. 二.伪分布式模式  伪分布式hadoop是一…
前言 从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘.开源界及厂商,所有数据软件,无一不向Hadoop靠拢.Hadoop也从小众的高富帅领域,变成了大数据开发的标准.在Hadoop原有技术基础之上,出现了Hadoop家族产品,通过“大数据”概念不断创新,推出科技进步. 目录 Hadoop的发展史 Hadoop的发行版本的选择和介绍 1. Hadoop发展史 1.1Hadoop产生背景 Hadoop 最早起源于Nutch .Nutch 是…
免责声明:     本文转自网络文章,转载此文章仅为个人收藏,分享知识,如有侵权,请联系博主进行删除.     原文作者:阿笨猫      原文地址:http://www.cnblogs.com/xuxm2007/archive/2013/04/04/2999741.html 现在hadoop的版本比较乱,常常搞不清楚版本之间的关系,下面简单的摘要了,apache hadoop和cloudera hadoop 的版本的演化. apache hadoop官方给出的版本说明是: 1.0.X - cu…
如何去找到历史版本的Hadoop发行包 找到Hadoop历史版本 这里我需要的Hadoop版本是2.0.3.打开hadoop的下载页面 http://www.apache.org/dyn/closer.cgi/hadoop/common/ 随便打开一个下载镜像,我们都找不到2.0.3这个版本. 具体怎么找到历史版本的Hadoop发行包,步骤如下: http://hadoop.apache.org/releases.html https://archive.apache.org/dist/hado…
1.Hadoop的生态系统: (1)图1: (2)图2: 图1 和 图2 都是形象说明了Hadoop的生态圈. 2.举例介绍Hadoop生态圈的小工具: (1)Hive工具(中文意思:小蜜蜂) 利用Hive这个工具,不用编写复杂的Hadoop程序,只需要编写一个SQL语句,Hive就会把你编写的SQL语句转化为Hadoop任务去执行. 这样降低使用Hadoop的门槛. (2)hbase 存储结构化数据的分布式数据库 图1: 图2: (3)zookeeper(中文意思:动物管理员) zookeep…
1.Hadoop的主要应用场景: a.数据分析平台. b.推荐系统. c.业务系统的底层存储系统. d.业务监控系统. 2.开发环境:Linux集群(Centos64位)+Window开发模式(window10,64位操作系统).   使用技术:hadoop,hbase,hive,flume,oozie,sqoop,nginx,tomcat,spring,mybatis,springmvc,mysql等等.Hdfs为海量的数据提供存储,MapReduce为海量的数据提供计算.     此项目使用…
Hadoop是一个能够对大量数据进行分布式处理的软件框架. Hadoop 以一种可靠.高效.可伸缩的方式进行数据处理.Hadoop的发行版除了有Apache hadoop外cloudera,hortonworks,mapR,华为,DKhadoop等都提供了自己的商业版本.商业发行版主要是提供了更为专业的技术支持,这对于大型企业更为重要,不同发行版都有自己的一些特点,本文就各发行版做简单对比介绍. 对比版选择:DKhadoop发行版.cloudera发行版.hortonworks发行版.MAPR发…
记得刚接触到hadoop的时候跟大部分人一样都会抱怨hadoop的安装部署问题,对于一个新手来说这这的是个头疼的问题,可能需要花费一整天的时间才能把分布式环境安装配置好.在刚接触hadoop的一段时间里,可以说对于hadoop的理解一直都是停留在相对较肤浅的层面.后来随着自己的不断摸索以及向圈内的前辈大神请教交流(主要是向大神请教学来的),自己对于hadoop的认识以及应用也就更加娴熟. 作为一个过来人,在这里给新人分享一些关于hadoop版本选择的问题,希望别像我当时傻乎乎的只知道hadoop…
一.Hadoop是什么? 首次听到hadoop这次单词,相信很多人跟我当时是一样,不免心中画上一个大大的问号——这是什么东西?Hadoop是什么?百度百科的解释是:Hadoop是一个由Apache基金会所开发的分布式系统基础架构.换句话说就是hadoop是一个能够对大量数据进行分布式处理的软件框架. Hadoopd之所谓会诞生,主要是由于进入到大数据时代,计算机需要处理的数据量太过庞大.这时就需要将这些庞大数据切割分配到N台计算机进行处理.当大量信息被分配到不同计算机进行处理时,要确保最终得到的…
Hadoop对于从事互联网工作的朋友来说已经非常熟悉了,相信在我们身边有很多人正在转行从事hadoop开发的工作,理所当然也会有很多hadoop入门新手.Hadoop开发太过底层,技术难度远比我们想象的要大,对新手而言选择一个合适的hadoop版本就意味着上手更快! Hadoop是由Apache基金会所开发的分布式系统基础架构,它最核心的设计就是HDFS和MapReduce.HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算.国内互联网的飞速发展催生了大数据技术的快速成长…