我们一直强调,大数据和传统的关系数据库并不对立,未来公司的的业务将会是大数据和关系型数据库的整合。微软的PolyBase打响了SQL Server和Hadoop整合的第一枪。

2012年度的SQL Server(PASS)峰会(SQL Server专业人士的技术会议)上,微软公布了代码名为”PolyBase”的新功能。微软鲜明地阐述了未来大数据和传统的关系数据库的紧密联系。微软或许不是第一个试图整合关系型数据库和Hadoop的公司,但毫无疑问将会是最具冲击力的一个。

PolyBase 将于 2013 年上半年中发布,作为SQL 服务器 PDW 的下一个版本的一部分。PDW是SQL Server数据仓库的一体机。Polybase 允许使用SQL (结构化查询语言)直接查询存储在Hadoop的数据,甚至可以和本地的关系型的表进行join的操作(如下图所示)  
  

PolyBase的吸引力在于它的两个特点

  1. 在第一阶段PolyBase支持使用SQL语言对HDFS进行查询, 第二阶段Polybase将引进基于成本的优化器。优化器基于性能分析,可以决定是否利用MapReduce进行查询或者直接使用SQL对HDFS进行查询. 请注意当前类SQL的Hadoop应用象Hive,Pig或着Sqoop都是依赖于MapReduce的分布式计算引擎来抽取数据。直接访问HDFS被认为具有更好的性能和效率。当然这只是总体而言,某些查询用MapReduce可能效率更高些,例如如果源数据的量太大的时候,不用MapReduce来抽取这些数据会导致读取端较大的负担。所以PolyBase必须有较好的优化器来决定最优的查询计划,这是PolyBase第二阶段主要工作
  2. 虽然PolyBase目前首先只在SQL Server PDW出现,但它极有可能也集成到下一个版本的 SQL Server里面.

整合SQL Server和Hadoop将给一些BI应用带来难以想象的广阔前景。试想一下你的报表和分析服务将会是一个数据源独立的应用,可以随心所欲地从Hadoop或者关系数据库里面抽取数据并搭建商业智能应用。商业智能的领域将会变得更广更实用。虽然微软没有正式承诺PolyBase除了PDW也会出现在下个版本的SQL Server里面,但我想不出微软不这么做的理由。在未来的企业里面,大数据将会和关系数据库整合在一起,成为企业数据系统的一部分。PolyBase已经迈出了第一步。

PolyBase--整合SQLServer和Hadoop的更多相关文章

  1. java整合spring和hadoop HDFS

    http://blog.csdn.net/kokjuis/article/details/53586406 http://download.csdn.net/detail/kokjuis/970932 ...

  2. 搭建ganglia集群而且监视hadoop CDH4.6

    前言 近期在研究云监控的相关工具,感觉ganglia颇有亮点,能从一个集群总体的角度来展现数据. 但是安装过程稍过复杂,相关依赖稍多,故写此文章与大家分享下. 本文不解说相关原理,若想了解请參考其它资 ...

  3. 零基础学习hadoop到上手工作线路指导(中级篇)

    此篇是在零基础学习hadoop到上手工作线路指导(初级篇)的基础,一个继续总结. 五一假期:在写点内容,也算是总结.上面我们会了基本的编程,我们需要对hadoop有一个更深的理解: hadoop分为h ...

  4. 零基础学习hadoop到上手工作线路指导初级篇:hive及mapreduce

      此篇是在零基础学习hadoop到上手工作线路指导(初级篇)的基础,一个继续总结.五一假期:在写点内容,也算是总结.上面我们会了基本的编程,我们需要对hadoop有一个更深的理解:hadoop分为h ...

  5. PolyBase 指南

    PolyBase 是一种可通过 t-sql 语言访问数据库外部数据的技术.PolyBase is a technology that accesses data outside of the data ...

  6. Oozie-1-安装、配置 让Hadoop流动起来

    版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/wl101yjx/article/details/27881739 写在前面一: 本文总结 基于Had ...

  7. 浅析基于微软SQL Server 2012 Parallel Data Warehouse的大数据解决方案

    作者 王枫发布于2014年2月19日 综述 随着越来越多的组织的数据从GB.TB级迈向PB级,标志着整个社会的信息化水平正在迈入新的时代 – 大数据时代.对海量数据的处理.分析能力,日益成为组织在这个 ...

  8. 转:浅析基于微软SQL Server 2012 Parallel Data Warehouse的大数据解决方案

    综述 随着越来越多的组织的数据从GB.TB级迈向PB级,标志着整个社会的信息化水平正在迈入新的时代 – 大数据时代.对海量数据的处理.分析能力,日益成为组织在这个时代决胜未来的关键因素,而基于大数据的 ...

  9. 【转】Hive导入10G数据的测试

    原博文出自于: http://blog.fens.me/hadoop-hive-10g/ 感谢! Hive导入10G数据的测试 让Hadoop跑在云端系列文章,介绍了如何整合虚拟化和Hadoop,让H ...

随机推荐

  1. struts2中,OGNL访问值栈的时候查找的顺序是什么?请排序:模型对象、临时对象、固定名称的对象、Action对象

    struts2中,OGNL访问值栈的时候查找的顺序是什么?请排序:模型对象.临时对象.固定名称的对象.Action对象 解答:struts2的值栈排列顺序为:1).临时对象:2).模型对象:3).Ac ...

  2. 更改Ubuntu的默认开机启动项

    终端下: sudo vim /etc/default/grub 修改以下红色语句即可,注意是从0开始: GRUB_DEFAULT=5 #GRUB_HIDDEN_TIMEOUT= GRUB_HIDDEN ...

  3. AWS系列-修改RDS时间(time_zone)

    1.1 需求 数据库时间和北京时间相差8小时 开发人员发现app的时间与国内时间相差12小时,需要修改RDS的time_zone参数 1.2 打开RDS参数组 1.3 创建新的参数组 由于默认的参数组 ...

  4. Amazon Virtual Private Cloud(虚拟专有网络)官方文档通读

    一.什么是Amazon VPC? 参考资料: 官网文档 https://docs.aws.amazon.com/zh_cn/AmazonVPC/latest/UserGuide/VPC_Introdu ...

  5. const在指针中的用法

    一.指向const对象的指针---对象不能修改 方式1 int value1 = 3; const int *p1 = &value1; *p1 = 5; //错误,不能修改const指向对象 ...

  6. 一次显式GC导致的High CPU问题处理过程(转)

    项目现场反馈系统出现性能问题,具体表现为:所有的客户端响应极其卡顿. 第一反应推测,难道是DB层面出现阻塞?检查v$session会话状态及等待类型未见异常,应该可以排除DB层面原因导致的可能. 继续 ...

  7. xcode 运行 lua版本崩溃 解决方案

    问题描述:运行到LuaStack::init() 崩溃 原因: luajit不支持arm64 解决方案:编译luajit64位静态库 a.可以直接下载别人编译好的库,然后直接覆盖cocos2d\ext ...

  8. cxGrid 隔行换色

    新建一个cxStyleRepository,分别建立几种Styles,如cxgrid_odd,cxgrid_even,cxgrid_selection等,并设置好它们的背景色.字体属性等. 在cxGr ...

  9. Kotlin——高级篇(二):高阶函数详解与标准的高阶函数使用

    在上面一个章节中,详细的讲解了Kotlin中关于Lambda表达式的语法以及运用,如果还您对其还不甚理解,请参见Kotlin--高级篇(一):Lambda表达式详解.在这篇文章中,多次提到了Kotli ...

  10. SpringCloud落地实践

    这几年微服务架构越来越火.伴随着微服务概念的提示,越来越多的组织为了方便开发,结合实际提供很多微服务机构, 之前工作中一直使用dubbo作为微服务框架, dubbo只是专注于服务之间的通讯,所以更灵活 ...