Hadoop对数据仓库的影响

转载http://www.dwway.com/portal.php?mod=view&aid=9065

在过去三年，Hadoop生态系统已经大范围扩展，很多主要IT供应商都推出了Hadoop连接器，以增强Hadoop的顶层架构或是供应商自己使用的Hadoop发行版。鉴于Hadoop的部署率呈指数级的增长，以及其生态系统不断地深入而广泛地发展，我们很想知道Hadoop的崛起是否会导致传统数据仓库解决方案的终结呢。

我们也可以将这个问题放到一个更大的环境中去讨论：在何种程度上，大数据会改变传统数据分析的环境？

数据仓库是技术和软件套件，它能够从操作系统收集数据，并将这些数据整合，并统一到中央数据库中，然后对数据仪表盘上指标进行分析、可视化和追踪关键性能处理。

数据仓库和Hadoop之间的主要区别是：数据仓库通常部署在单个关系数据库中，而这个数据库则起到中央存储的作用。相比之下，Hadoop及其Hadoop文件系统是跨多个机器，并用来处理海量数据的，而这是任何单台机器都达不到的能力。

此外，Hadoop生态系统包括构建在Hadoop核心之上的数据仓库层/服务，而Hadoop上层服务包括SQL（Presto）、SQL-Like（Hive）和NoSQL（Hbase）类型的数据存储。相比之下，在过去的十年中，大型数据仓库转移到使用自定义多处理器设备来扩展数据量，像Netezza（被IBM收购）和Teradata所提供的数据仓库。然而，这些设备都非常昂贵，大多数中小企业都负担不起。

在这种背景下，我们很自然地要问：Hadoop是否是数据仓库的终结者？

为了回答这个问题，我们需要将数据仓库技术与数据仓库部署分开来看。Hadoop（和NoSQL数据库的出现）将预示着数据仓库设备和传统数据仓库单一数据库部署的消亡。

而在这方面就有过实例。Hadoop供应商Cloudera将其平台作为“企业数据枢纽”，这在本质上将传统数据管理解决方案的纳入了需求。ReadWrITe.com在最近发表的一篇题为“为什么专有大数据技术没有希望与Hadoop竞争”的文章中也发表了类似的看法。同样地，最近一篇华尔街日报文章描述了Hadoop如何挑战甲骨文和Teradata。

Hadoop或NoSQL生态系统仍将继续发展。很多大数据环境开始选择NoSQL、SQL甚至是NewSQL数据仓库的混合方法。此外，MapReduce并行处理引擎也有变化和改进，例如Apache的Spark项目。虽然这个故事还远远没有结束，但可以说，传统的单一服务器关系型数据库或数据库设备并不是大数据或数据仓储的未来。

另一方面，数据仓库技术（包括提取—转换—和—加载、三维建模和商业智能）将会应用到新的Hadoop/NoSQL环境。此外，这些技术也将变身来支持更多的混合环境。主要原则是因为并不是所有数据都是平等的，所以IT经理们应该选择数据存储和访问机制来适应数据的使用。混合环境将包括关键价值存储、关系型数据库、图形存储、文档存储、柱状存储、XML数据库、元数据目录等等。

正如你所看到的，这并不是一个简单的问题，也不可能简单地得出一个答案。然而，一般情况下，虽然大数据在未来五年内将会改变数据仓库的部署，但它不会导致数据仓库的概念和做法过时。

对于向数据仓库投入巨资的联邦政府这意味着什么呢？

首先，当现有数据仓库的容量不够时，数据仓库将被转移到基于Hadoop、多机器或云托管的解决方案。其次，企业并不会选择“放之四海而皆准”的做法，而会将目光转向适合其企业内部数据容量的混合存储方法。

Hadoop对数据仓库的影响的更多相关文章

Hive和SparkSQL：基于 Hadoop 的数据仓库工具
Hive: 基于 Hadoop 的数据仓库工具前言 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,将类 SQL 语句转 ...
基于Hadoop的数据仓库Hive
Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理.特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hi ...
大数据之路week07--day05 （一个基于Hadoop的数据仓库建模工具之一 HIve）
什么是Hive? 我来一个短而精悍的总结(面试常问) 1:hive是基于hadoop的数据仓库建模工具之一(后面还有TEZ,Spark). 2:hive可以使用类sql方言,对存储在hdfs上的数据进 ...
基于hadoop的数据仓库工具：Hive概述
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.其优点是学习成本低,可以通过类 ...
Hive -- 基于Hadoop的数据仓库分析工具
Hive是一个基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库 ...
HIVE---基于Hadoop的数据仓库工具讲解
Hadoop: Hadoop是一个由Apache基金会所开发的分布式系统基础架构.用来开发分布式程序.充分利用集群的威力进行高速运算和存储.Hadoop实现了一个分布式文件系统(Hadoop Dist ...
Hive和SparkSQL：基于 Hadoop 的数据仓库工具
Hive 前言 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,将类 SQL 语句转换为 MapReduce 任务执行. ...
Hadoop整理五（基于Hadoop的数据仓库Hive）
数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合.它是单个数据存储,出于分析性报告和决策支持目的而创建. 为需要业务智能的企业,提供指导业务流程改进.监视时间.成本.质量以及控 ...
Hadoop生态系统—数据仓库Hive的安装
一.数据仓库数据仓库是一个面向主题的.集成的.随时间变化,但信息本身相对稳定的数据集合,相比于传统型数据库,它主要用于支持企业或组织的决策分析处理.主要有以下3个特点: 数据仓库是面向主题的: 数据 ...

随机推荐

FZU Problem 2129 子序列个数
看了 dp 方程之后应该是妙懂每次加入一个数,×2 然后剪掉重复的: 重复的个数维前面那个数,,,,, #include<iostream> #include<stdio.h ...
pod上传私有spec文件库
一.验证 function podlint() { pod lib lint $1.podspec --use-libraries --allow-warnings --verbose --sourc ...
剑指offer-第六章面试中的各项能力（n个骰子的点数）
题目:把n个骰子扔到地上,骰子之和为S,输入n,打印s所有可能的值出现的概率. 思路:由于骰子的点数为1~6,因此n个骰子之和的大小为n~6n之间.故可以定义一个数组来存放这6n-n+1个数出现的次数 ...
通信对象System.ServiceModel.Channels.ServiceChannel 无法用于通信，因为其处于“出错”状态。
问题描述:在客户端站点访问WCF服务后,在页面停留时间过长,客户端站点将会报错.报错内容如下: 通信对象System.ServiceModel.Channels.ServiceChannel 无法用于 ...
BZOJ5340: [Ctsc2018]假面
BZOJ5340: [Ctsc2018]假面 https://lydsy.com/JudgeOnline/problem.php?id=5340 分析: 背包,只需要求$g_{i,j}$表示强制活 ...
使用PHP判断是否为微信、支付宝等移动设备访问代码
在开发过程中经常遇到根据不同的设备显示不同的数据或者在页面样式上做不同的布局,另外在做支付接口的时候也可能会判断当前是什么设备访问,例如判断如果是微信内置浏览器访问则只启用微信支付功能,如果是支付宝内 ...
2、Flume1.7.0入门：安装、部署、及flume的案例
一.什么是Flume? flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用. flume的特点: flume是一个分布式.可靠.和高可用的海量日志采集.聚合和传输的 ...
java求10!的阶乘
package com.aaa; //求10!的阶乘 public class Cheng { public static void main(String[] args) { int s=1; fo ...
FTP,FTPS,FTPS与防火墙
昨天搭建了一台FTPS服务器,过程中学习了很多不清楚的知识点,还有遇到的问题,记录一下. (大部分内容汇集.整理自网络) 一. 关于FTP传输模式众所周知,FTP传输有两种工作模式,Active M ...
Java-API-Package：java.net百科
ylbtech-Java-API-Package:java.net百科并非所有系统都支持 IPv6 协议,而当 Java 网络连接堆栈尝试检测它并在可用时透明地使用它时,还可以利用系统属性禁用它.在 ...

Hadoop对数据仓库的影响

Hadoop对数据仓库的影响的更多相关文章

随机推荐

热门专题