程序员必须要知道的Hadoop的一些事实
程序员必须要知道的Hadoop的一些事实。现如今,Apache Hadoop已经无人不知无人不晓。当年雅虎搜索工程师Doug Cutting开发出这个用以创建分布式计算机环境的开源软......

1:Hadoop是由多个产品组成的。
人们在谈论Hadoop的时候,常常把它当做单一产品来看待,但事实上它由多个不同的产品共同组成。
Russom说:“Hadoop是一系列开源产品的组合,这些产品都是Apache软件基金会的项目。”
一提到Hadoop,人们往往将其与MapReduce放在一起,但其实HDFS和MapReduce一样,也是Hadoop的基础。
2:Apache Hadoop是开源技术,但专有厂商也提供Hadoop产品。
由于Hadoop属于开源技术,可免费下载,所以IBM、Cloudera和EMC Greenplum等厂商都可以推出他们各自的Hadoop特别发行版本。
这些特别发行版本一般都会有一些附加特性,比如高级管理工具及相关的支持维护服务。有人可能对此嗤之以鼻:既然开源社区是免费的,那么我们为什么还要为它的服务付费?Russom解释道,这些版本的HDFS对一些IT部门更合适,特别是企业IT系统已经相对成熟的用户。
3:Hadoop是一个生态系统,而非一个产品。
Hadoop是由开源社区和各个厂商共同开发和推动的。具体说来,厂商的Hadoop的产品其结构化和关系性更强一些。
Russom说:“一直以来报表平台、数据集成平台在为更新的平台提供各种各样的接口,Hadoop当然也不例外。”
4:HDFS是文件系统,而不是数据库管理系统。
Russom最无法忍受的,就是人们常常把二者混为一谈。能够对数据集进行管理是数据管理系统很重要的特性之一,这一点HDFS是不具备的。
数据库管理系统中,我们通过查询索引可以实现对数据的随机访问,它往往处理的是结构化的数据,而在Hadoop中不会处理这样的数据类型。
5:Hive与SQL类似,却非标准SQL。
传统获取数据的业务工具大多都是基于SQL的,这比较让人头疼,因为Hadoop使用的是一种类似SQL但不是SQL的语言——Apache Hive和HiveQL。
Russom说:“我常听到别人说,‘Hive学起来非常简单,直接学Hive就行。’但这并不能解决与SQL工具兼容的根本问题。”
Russom认为兼容性只是一个短时间问题,但却阻碍了Hadoop的普及。
6:Hadoop与MapReduce相互关联,但不相互依赖。
MapReduce早在HDFS出现以前就由Google开发推出。除此之外,诸如MapR一类的厂商一直在宣传MapReduce功能的多样性,无需HDFS支持。
尽管如此,Russom却认为它们具有很好的互补性。HDFS的大部分价值都体现在可层叠到分布式文件系统的工具上。
7:MapReduce提供的是对分析的控制,而不是分析本身。
MapReduce是一种通用执行驱动引擎,可协助大数据分析。它能读取手写代码数据,对其进行并行自动处理,并将结果映射到单一集合中。然而我们需要明确一点,MapReduce自身并不进行分析工作。
Russom说:“MapReduce可以看作是升级版的MPP架构。你无论怎样编写代码,它都可以把它们并行化,非常强大。”
8:Hadoop的意义不仅仅在于数据量,更在于数据的多样化。
有人把Hadoop归类为海量数据处理技术,但是Hadoop真正的价值却是对多样化数据处理的能力。
Russom说:“Hadoop的处理范围为大多数数据仓库所不及,比如针对半结构化与完全非结构化的数据。”
9:Hadoop是数据仓库的补充,不是数据仓库的替代品。
Hadoop对多样化数据类型进行管理的能力使得“数据仓库将死”的言论四起,然而Russom却进行了反驳。
他反问道:“在IT领域,人们多久替换一项技术?几乎从来没有过。”
数据仓库在其领域中的性能仍然出色,Hadoop可起到对数据仓库技术进行补充的作用。数据仓库和其他系统的架构越来越多地开始向分布式靠拢,Hadoop在这里将发挥其作用。
10:Hadoop不仅仅是Web分析。
Hadoop在互联网中的运用非常普遍,Russom认为Hadoop普及趋势的部分原因是因为它可以处理更多类型的分析。
Russom举了铁路公司、机器人和零售业的例子。铁路公司可使用传感器对异常高温的轨道车辆进行探测,以阻止事故的发生。
Russom尽管十分看好Hadoop的前景,但同时认为它的普及还需要数年时间。
11:大数据不一定非Hadoop不可。
别看现在大数据和Hadoop已经密不可分,Russom却认为Hadoop并不是大数据的“唯一”。他提到了许多其他厂商的产品,如Teradata、Sybase IQ(被SAP收购)和Vertica(被HP收购)等。
除此之外,在Hadoop没有诞生之时,一些企业就已经开始研究大数据了。例如,电信行业多年以前就有呼叫明细记录。
12:Hadoop不是“免费午餐”。
虽然Hadoop属于开源技术,但是软件的安装部署是需要花钱的。Russom称,由于Hadoop在管理工具与支持服务方面的不足,企业在使用过程中很容易产生额外费用。另外,由于它没有优化程序,我们只能请专业人士在运行环境中手写输入代码,而这些专业人士的薪酬价码都不菲。
更不用提部署Hadoop集群的硬件和相关配置的成本。
最后告知大家:“千万别以为Hadoop是免费的或者很便宜,它背后的隐性开销你是一下子看不到的。”
程序员必须要知道的Hadoop的一些事实的更多相关文章
- 关于Unicode,字符集,字符编码,每个程序员都应该知道的事
关于Unicode,字符集,字符编码,每个程序员都应该知道的事 作者:Jack47 李笑来的文章如何判断一个人是否聪明?中提到: 必要.清晰.且准确的概念,是一切思考的基石.所谓思考,很大程度上,就是 ...
- 每个php程序员都应该知道的15个最佳PHP库
PHP是一种功能强大的web站点脚本语言,通过PHP,web网站开发者可以更容易地创建动态的引人入胜的web页面.开发人员可以使用PHP代码与一些网站模板和框架来提升功能和特性.然而,编写PHP代码是 ...
- 每个JavaScript程序员都需要知道的5个数组方法
Array.forEach() .forEach() 方法能够方便的让你 遍历数组里的每个元素,你可以在回调函数里对每个元素进行操作..forEach()方法没有返回值,你不需要在回调函数里写retu ...
- 每一位想有所成就的程序员都必须知道的15件事(走不一样的路,要去做,实践实践再实践,推销自己,关注市场)good
从 为之漫笔作者:为之漫笔 有超过 100 人喜欢此条目 原文地址:How to advance your career? Read the Passionate Programmer! 我刚看完Ch ...
- 谦先生的程序员日志之我的hadoop大数据生涯一
从一个初级程序员到高级程序员的经历 你好!我是谦先生,我是茫茫程序猿中的一猿,平凡又执着. 刚入行的时候说实话,啥都不懂,就懂点皮毛的java,各种被虐狗的感觉.又写js又写css又写后台...慢慢被 ...
- (转)C系程序员面试必知必会之大端小端
C程序员经常被问及的一道面试题是:什么是大端/小端,怎么样判断是大端/小端?大端小端问题对于嵌入式程序员绝对不会陌生(否则,别告诉我你是搞嵌入式的),它与CPU体系结构有关.比如常见的X86处理器 ...
- 程序员与数据库打交道的JDBC知识概要
1.JDBC全称:Java database connectivity,Java数据库连接. (1) JDBC是一种用于执行SQL语句的Java API,为多种关系数据库提供多种统 ...
- 后端程序员之路 47、Hadoop hdfs
Hadoop的核心是HDFS和MapReduce,而两者只是理论基础,不是具体可使用的高级应用,Hadoop旗下有很多经典子项目,比如HBase.Hive等,这些都是基于HDFS和MapReduce发 ...
- 每个新手程序员都必须知道的Python技巧
当下,Python 比以往的任何时候都更加流行,人们每天都在实践着 Python 是多么的强大且易用. 我从事 Python 编程已经有几年时间了,但是最近6个月才是全职的.下面列举的这些事情,是我最 ...
随机推荐
- 搞个这样的APP要多久?
这是一个“如有雷同,纯属巧合”的故事,外加一些废话,大家请勿对号入座.开始了…… 我有些尴尬地拿着水杯,正对面坐着来访的王总,他是在别处打拼的人,这几年据说收获颇丰,见移动互联网如火如荼,自然也想着要 ...
- .NET Core的日志[1]:采用统一的模式记录日志
记录各种级别的日志是所有应用不可或缺的功能.关于日志记录的实现,我们有太多第三方框架可供选择,比如Log4Net.NLog.Loggr和Serilog 等,当然我们还可以选择微软原生的诊断框架(相关A ...
- Swift enum(枚举)使用范例
//: Playground - noun: a place where people can play import UIKit var str = "Hello, playground& ...
- 基于改进人工蜂群算法的K均值聚类算法(附MATLAB版源代码)
其实一直以来也没有准备在园子里发这样的文章,相对来说,算法改进放在园子里还是会稍稍显得格格不入.但是最近邮箱收到的几封邮件让我觉得有必要通过我的博客把过去做过的东西分享出去更给更多需要的人.从论文刊登 ...
- Atitit.attilax软件研发与项目管理之道
Atitit.attilax软件研发与项目管理之道 1. 前言4 2. 鸣谢4 3. Genesis 创世记4 4. 软件发展史4 5. 箴言4 6. 使徒行传 4 7. attilax书 4 8. ...
- EChart系列:在echart3中使用百度地图扩展之后,如何获取到百度地图对象
最近做项目想要在百度地图上叠加显示echart的散点图,然后根据地图的缩放等级和区域范围要显示不同的散点图,这中间折腾了好久.功能要求包括: (1)底图使用百度地图: (2)可以在地图上叠加显示ech ...
- ABP理论之CSRF
返回总目录 本篇目录 介绍 ASP.NET MVC ASP.NET WEB API ASP.NET Core[以后补上] 客户端类库 内部原理 介绍 CSRF[Cross-Site Request F ...
- subline text3 使用总结
安装:http://www.sublimetext.com/3 插件扩展: 安装package control组件 按Ctrl+`调出console(注:安装有QQ输入法的这个快捷键会有冲突的,输入 ...
- 【JavaScript吉光片羽】遭遇IE8
最初对做兼容性的认知只停留在UI层面,但其实UI层面都还好,因为毕竟你可以直接看得见现象,更为重要的是在JavaScript层面,因为这个部分涉及到功能性,前者最多是体验性的问题.下面扯一下这几天遇到 ...
- 基于 SailingEase WinForm Framework 开发客户端程序(3:实现菜单/工具栏按钮的解耦及状态控制)
本系列文章将详细阐述客户端应用程序的设计理念,实现方法. 本系列文章以 SailingEase WinForm Framework 为基础进行设计并实现,但其中的设计理念及方法,亦适用于任何类型的客 ...