转载http://www.dwway.com/portal.php?mod=view&aid=9065

在过去三年,Hadoop生态系统已经大范围扩展,很多主要IT供应商都推出了Hadoop连接器,以增强Hadoop的顶层架构或是供应商自己使用的Hadoop发行版。鉴于Hadoop的部署率呈指数级的增长,以及其生态系统不断地深入而广泛地发展,我们很想知道Hadoop的崛起是否会导致传统数据仓库解决方案的终结呢。

我们也可以将这个问题放到一个更大的环境中去讨论:在何种程度上,大数据会改变传统数据分析的环境?

数据仓库是技术和软件套件,它能够从操作系统收集数据,并将这些数据整合,并统一到中央数据库中,然后对数据仪表盘上指标进行分析、可视化和追踪关键性能处理。

数据仓库和Hadoop之间的主要区别是:数据仓库通常部署在单个关系数据库中,而这个数据库则起到中央存储的作用。相比之下,Hadoop及其Hadoop文件系统是跨多个机器,并用来处理海量数据的,而这是任何单台机器都达不到的能力。

此外,Hadoop生态系统包括构建在Hadoop核心之上的数据仓库层/服务,而Hadoop上层服务包括SQL(Presto)、SQL-Like(Hive)和NoSQL(Hbase)类型的数据存储。相比之下,在过去的十年中,大型数据仓库转移到使用自定义多处理器设备来扩展数据量,像Netezza(被IBM收购)和Teradata所提供的数据仓库。然而,这些设备都非常昂贵,大多数中小企业都负担不起。

在这种背景下,我们很自然地要问:Hadoop是否是数据仓库的终结者?

为了回答这个问题,我们需要将数据仓库技术与数据仓库部署分开来看。Hadoop(和NoSQL数据库的出现)将预示着数据仓库设备和传统数据仓库单一数据库部署的消亡。

而在这方面就有过实例。Hadoop供应商Cloudera将其平台作为“企业数据枢纽”,这在本质上将传统数据管理解决方案的纳入了需求。ReadWrITe.com在最近发表的一篇题为“为什么专有大数据技术没有希望与Hadoop竞争”的文章中也发表了类似的看法。同样地,最近一篇华尔街日报文章描述了Hadoop如何挑战甲骨文和Teradata。

Hadoop或NoSQL生态系统仍将继续发展。很多大数据环境开始选择NoSQL、SQL甚至是NewSQL数据仓库的混合方法。此外,MapReduce并行处理引擎也有变化和改进,例如Apache的Spark项目。虽然这个故事还远远没有结束,但可以说,传统的单一服务器关系型数据库或数据库设备并不是大数据或数据仓储的未来。

另一方面,数据仓库技术(包括提取—转换—和—加载、三维建模和商业智能)将会应用到新的Hadoop/NoSQL环境。此外,这些技术也将变身来支持更多的混合环境。主要原则是因为并不是所有数据都是平等的,所以IT经理们应该选择数据存储和访问机制来适应数据的使用。混合环境将包括关键价值存储、关系型数据库、图形存储、文档存储、柱状存储、XML数据库、元数据目录等等。

正如你所看到的,这并不是一个简单的问题,也不可能简单地得出一个答案。然而,一般情况下,虽然大数据在未来五年内将会改变数据仓库的部署,但它不会导致数据仓库的概念和做法过时。

对于向数据仓库投入巨资的联邦政府这意味着什么呢?

首先,当现有数据仓库的容量不够时,数据仓库将被转移到基于Hadoop、多机器或云托管的解决方案。其次,企业并不会选择“放之四海而皆准”的做法,而会将目光转向适合其企业内部数据容量的混合存储方法。

Hadoop对数据仓库的影响的更多相关文章

  1. Hive和SparkSQL: 基于 Hadoop 的数据仓库工具

    Hive: 基于 Hadoop 的数据仓库工具 前言 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,将类 SQL 语句转 ...

  2. 基于Hadoop的数据仓库Hive

    Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理.特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hi ...

  3. 大数据之路week07--day05 (一个基于Hadoop的数据仓库建模工具之一 HIve)

    什么是Hive? 我来一个短而精悍的总结(面试常问) 1:hive是基于hadoop的数据仓库建模工具之一(后面还有TEZ,Spark). 2:hive可以使用类sql方言,对存储在hdfs上的数据进 ...

  4. 基于hadoop的数据仓库工具:Hive概述

    Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.其优点是学习成本低,可以通过类 ...

  5. Hive -- 基于Hadoop的数据仓库分析工具

    Hive是一个基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库 ...

  6. HIVE---基于Hadoop的数据仓库工具讲解

    Hadoop: Hadoop是一个由Apache基金会所开发的分布式系统基础架构.用来开发分布式程序.充分利用集群的威力进行高速运算和存储.Hadoop实现了一个分布式文件系统(Hadoop Dist ...

  7. Hive和SparkSQL:基于 Hadoop 的数据仓库工具

    Hive 前言 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,将类 SQL 语句转换为 MapReduce 任务执行. ...

  8. Hadoop整理五(基于Hadoop的数据仓库Hive)

    数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合.它是单个数据存储,出于分析性报告和决策支持目的而创建. 为需要业务智能的企业,提供指导业务流程改进.监视时间.成本.质量以及控 ...

  9. Hadoop生态系统—数据仓库Hive的安装

    一.数据仓库 数据仓库是一个面向主题的.集成的.随时间变化,但信息本身相对稳定的数据集合,相比于传统型数据库,它主要用于支持企业或组织的决策分析处理.主要有以下3个特点: 数据仓库是面向主题的: 数据 ...

随机推荐

  1. nmap 扫描工具

    Nmap 7.30 ( https://nmap.org ) 使用方法: nmap [扫描类型(s)] [选项] {目标说明}目标说明:通过主机名称, IP 地址, 网段, 等等.协议: scanme ...

  2. 剑指offer-第四章解决面试题的思路(从上往下打印二叉树)

    题目:从上往下打印二叉树的每一个节点,同一层的节点按照从左到右的顺序打印 思路:这是一个层序遍历的问题,因此要借用到队列.我们可以在打印第一个节点的同时将这个节点的左右子节点都放入队列,同样打印左右子 ...

  3. 解决Maven报Plugin execution not covered by lifecycle configuration问题

    问题: 在eclipse neon 中引入maven项目时,弹出两个错误,一个是jacco-maven-plugin,一个是项目中的插件ota-schema-plugin 如果忽略这两个错误,点击fi ...

  4. is is not == !=之间的区别

    简单来说,python中的is与is not运算符可判断两个对象是否为同一对象.若为同一个对象,则对象1 is 对象2为True .反正,若非同一个对象,则对象1 is not 对象2为True 要理 ...

  5. Python 函数 min()

    min() 函数 作用:  min() 方法返回给定参数的最小值,参数可以为序列.x-数值表达式.y-数值表达式.z-数值表达式.返回给定参数的最小值. 语法: min( x, y, z, .... ...

  6. ADO连接ACCESS数据库

    首先在StdAfx.h中加入 建立连接:(在xxApp文件中) 1  声明变量 2 建立连接 (1) AfxOleInit 初始化 OLE 为应用程序的支持. BOOL AFXAPI AfxOleIn ...

  7. heartbeat测试

    节点名: node-master 192.168.1.77 node-slave 192.168.1.88 VIP 192.168.1.234 带下划线的不允许作为节点名 修改节点名字 gvim /e ...

  8. Cassandra学习六 一些知识点

    http://www.flyml.net/2016/09/08/cassandra-tutorial-java-api-example/ Cassandra对查询的支持很弱,只支持主键列及索引列的查询 ...

  9. 关系数据库SQL复习

    1.1 SQL的概述 SQL(Structured Query Language)结构化查询语言,是关系数据库的标准语言 SQL是一个通用的.功能极强的关系数据库语言 1.2 SQL的特点 1. 综合 ...

  10. python中对 函数 闭包 的理解

    最近学到 函数 闭包的时候,似懂非懂.迷迷糊糊的样子,很是头疼,今天就特意查了下关于闭包的知识,现将我自己的理解分享如下! 一.python 闭包定义 首先,关于闭包,百度百科是这样解释的: 闭包是指 ...