http://blog.sina.com.cn/s/blog_7ca5799101013dtb.html

目前,虽然大数据与数据库一体机都很火热,但相当一部分人却无法对深入了解这两者的本质区别。这里便对大数据技术(如Hadoop等,主要指MapReduce与NoSQL)与数据库一体机(新一代的主流关系数据库)技术对比如下:

硬件架构

从本质上来讲,两者的硬件架构基本相同,都是采用x86服务器集群的分布式并行模式来应对大规模的数据与计算。但是,数据库一体机的商家大都会对硬件体系进行面向产品化的、系统性的整体调优,同时也会有各自的特色手段,如Oracle ExaData的Infiniband,Flash Cache,IBM Nettezza的FPGA等。

软件体系

大数据与数据库一体机最核心的区别在软件体系上。

数据库一体机的核心是SQL体系,这不只是指SQL解析,更重要的是指包括SQL优化引擎、索引、锁、事务、日志、安全以及管理等在内的完整庞大的技术体系。它是成熟的,面向产品的;

大数据技术的MapReduce则提供了一个面向海量数据处理的分布式编程框架,而使用者需要自行编制所需要的计算逻辑。MapReduce对数据的读写是批量连续的,而不是随机的;而大数据技术的另一体系NoSQL则大都只是提供了海量数据的分布式存储与基于索引的快速读取机制,为使用者提供的大多是编程API(虽然也有类SQL的语言,但其本质并不是完整的SQL体系)。

由于SQL体系的复杂性与处理逻辑的整体关联性,导致数据库一体机在扩展性上是还是远不及大数据技术的,虽然数据库一体机已经在很大程度上改善了传统关系数据库垂直扩展的瓶颈。MapReduce与NoSQL的单个集群往往可以扩展到数千个节点,而数据库一体机如果在硬件上扩展到这个规模,从软件上来讲,已经是没有意义了!

特征表现

以上软件体系的本质不同,导致两者有不同的特征表现:

数据库一体机往往适合于存储关系复杂的数据模型(如企业核心业务数据),并且需要限制为基于二维表的关系模型;同时适合进行一致性与事务性要求高的计算,以及复杂的BI计算;

大数据技术则更适合于存储较简单的数据模型,并且可以不受模式的约束。因而其可存储管理的数据类型更丰富;大数据技术同时适合进行一致性与事务性要求不高的计算(主要是指NoSQL的查询操作),以及对超大规模海量数据的、批量的分布式并行计算(MapReduce)。

需要注意的是,NoSQL数据库由于摆脱了繁琐的SQL体系约束,其查询与插入的效率比数据库一体机要更高;大数据技术比数据库一体机所能处理的数据量也要相对大些,这主要是因为其集群可以扩展得更大。

本质描述

本质上讲,MapReduce是对海量数据分布式计算领域的一个重要创新,但也只是在适合于并行处理的大规模批量处理问题上更占优势,而对些例如复杂Join的操作,则不一定有优势;

而NoSQL本质上可以看做是对传统关系数据库进行简化的结果:由于NoSQL数据库的设计思想只是具备了关系数据库中的主索引特征,并加了上分布存储,而将SQL体系中那些对“某些特殊问题”来讲并不需要的东西统统不要了,因而达到了更优秀的效率、扩展性与灵活性。

于是可以很明显地看到,在实践中,有很多问题(特别是流行的大数据问题),关系数据库中的许多设计并不需要,这才是NoSQL出现的根本立足点。

关系与协作

于是,结论应该是:大数据技术与数据库一体机技术应该是相辅相成的,而不是互相替代的。它们针对不同的应用场景设计,并相互补充与合作。具体来讲:

大数据技术可以:

1. 处理企业内海量的、模型简单、类型多样的非结构化与半结构化数据(如社会化数据、各种日志甚至图片、视频等),其处理结果可以被直接使用;

2.  以上处理结果也同时可以被当成是新的输入存储到企业级数据仓库中,这时大数据技术相当于是面向大数据源的新的ETL手段;

3.  针对海量数据的、不太适合SQL操作的存储或计算。

而数据库一体机技术则应该还是做为企业数据仓库的主流技术,至少在很长一段时间内应该是这样,它存储与计算最主要的、有重大价值的企业关键业务数据。

一些误区

有人认为:虽然大数据技术的原始开源状态还不适合充当企业级数据仓库主平台的要求,但经过开发、补充,应该是可以的。

其实这个观点没有错。而实际上,对开源的大数据技术进行补充开发,所要补充的正是大数据技术在原始设计上就去除了的那些本属于关系数据库体系的东西,如果这样做:

1.  开发量有多大难以估计;

2.  一个企业难以像专业的数据库厂商那样实现这些工作的理论化、产品化与体系化;

3.  从纯技术上讲,当然开发什么都有可能!但您的企业如果这样做,是准备开发另一个商业化的关系数据库吗?

很明显,这违反了大数据技术的设计初衷!

大数据技术 vs 数据库一体机[转]的更多相关文章

  1. 除Hadoop大数据技术外,还需了解的九大技术

    除Hadoop外的9个大数据技术: 1.Apache Flink 2.Apache Samza 3.Google Cloud Data Flow 4.StreamSets 5.Tensor Flow ...

  2. 大数据技术人年度盛事! BDTC 2016将于12月8-10日在京举行

    2016年12月8日-10日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所和CSDN共同协办的2016中国大数据技术大会(Big Data Technology ...

  3. 2016中国大数据技术大会( BDTC ) 共商大数据时代发展之计

    中国大数据技术大会(BDTC)的前身是Hadoop中国云计算大会(HadoopinChina,HiC).从2008年仅60余人参加的技术沙龙发展到当下数千人的技术盛宴,目前已成为国内最具影响力.规模最 ...

  4. 大数据技术生态圈形象比喻(Hadoop、Hive、Spark 关系)

    [摘要] 知乎上一篇很不错的科普文章,介绍大数据技术生态圈(Hadoop.Hive.Spark )的关系. 链接地址:https://www.zhihu.com/question/27974418 [ ...

  5. TOP100summit:【分享实录-WalmartLabs】利用开源大数据技术构建WMX广告效益分析平台

    本篇文章内容来自2016年TOP100summitWalmartLabs实验室广告平台首席工程师.架构师粟迪夫的案例分享. 编辑:Cynthia 粟迪夫:WalmartLabs实验室广告平台首席工程师 ...

  6. Google大数据技术架构探秘

    原文地址:https://blog.csdn.net/bingdata123/article/details/79927507 Google是大数据时代的奠基者,其大数据技术架构一直是互联网公司争相学 ...

  7. 开源大数据技术专场(上午):Spark、HBase、JStorm应用与实践

    16日上午9点,2016云栖大会“开源大数据技术专场” (全天)在阿里云技术专家封神的主持下开启.通过封神了解到,在上午的专场中,阿里云高级技术专家无谓.阿里云技术专家封神.阿里巴巴中间件技术部高级技 ...

  8. 利用大数据技术处理海量GPS数据

    我秀中国物联网地图服务平台目前接入的监控车辆近百万辆,每天采集GPS数据7亿多条,产生日志文件70GB,使用传统的数据处理方式非常耗时. 比如,仅仅对GPS做一些简单的统计分析,程序就需要几个小时才能 ...

  9. 【学习笔记】大数据技术原理与应用(MOOC视频、厦门大学林子雨)

    1 大数据概述 大数据特性:4v volume velocity variety value 即大量化.快速化.多样化.价值密度低 数据量大:大数据摩尔定律 快速化:从数据的生成到消耗,时间窗口小,可 ...

随机推荐

  1. js实现睡眠

    //js暂停函数 function Pause(obj, iMinSecond) { if (window.eventList == null) window.eventList = new Arra ...

  2. poj 2771 最大独立集

    这道题又无耻的抄袭了别人的代码. 刚开始以为是最大匹配,把条件不相符的人连一起,然后求最大匹配,感觉麻烦,然后看了别人的解题报告,是把相符的人连一起,然后减去,其实就是最大独立集. 最大独立集=|G| ...

  3. 进程间通信机制IPC

    进程通信是指进程之间的信息交换.PV操作是低级通信方式,例如信号量,主要是进程间以及同一进程内不同线程之间的同步手段.髙级通信方式是指以较高的效率传输大量数据的通信方式.高级通信方法主要有以下三个类. ...

  4. leetcode Longest Valid Parentheses python

    class Solution(object): def longestValidParentheses(self, s): """ :type s: str :rtype ...

  5. leetcode Valid Parentheses python

    # 解题思路: # 创建一个字典映射关系 dicts# 使用一个栈stk 遍历字符串s 得到一个新的字符串curItem 如果lastItem在dicts中的value和它相等 不做任何操作# 如果不 ...

  6. Linux软连接与硬连接 .

    http://blog.csdn.net/ningxinghai/article/details/7342338 Linux的软连接相当于window系统的快捷方式,如我们桌面的QQ等. 硬连接相当于 ...

  7. zxing源码分析——QR码部分

    Android应用横竖屏切换 zxing源码分析——DataMatrix码部分 zxing源码分析——QR码部分 2013-07-10 17:16:03|  分类: 默认分类 |  标签: |字号大中 ...

  8. php将xml文件转化为数组:simplexml_load_string

    <?php $str = <<<XML <?xml version="1.0" encoding="ISO-8859-1"?> ...

  9. php配置redis支持

    在php.ini里面添加下面两行,注意这两行的顺序一定不要颠倒(扩展库下载网址https://github.com/phpredis/phpredis/downloads),同时注意这2个文件的版本一 ...

  10. centos之jdk安装

    1.环境说明 系统:centos6.7, 2.6.32-573.el6.x86_64; jdk:jdk1.7.0_80 2.下载jdk并上传      下载jdk-7u80-linux-x64.tar ...