CarbonData：大数据融合数仓新一代引擎

【摘要】 CarbonData将存储和计算逻辑分离，通过索引技术让存储和计算物理上更接近，提升CPU和IO效率，实现超高性能的大数据分析。以CarbonData为融合数仓的大数据解决方案，为金融转型打造新一代数仓引擎。

金融领域随着数据与日俱增(如国内某大行，平均3亿笔业务/天，峰值6亿/天)；业务驱动下的数据分析灵活性要求越来越高，不同业务的数据分系统构建，导致冗余严重，缺乏高效、统一的融合数仓，阻碍企业快速转型。如何对浪涌式的数据进行整合分析，发挥最大价值，金融机构对数据的处理提出了相应诉求具体表现如下：

第一,数据统一存储：为了节约成本，企业希望一份数据支持多种使用场景；减少数据孤岛和冗余，通过数据共享产生更大价值。

第二,高效：金融业务数据分析要求越来越高效、实时。

第三,易集成：提供标准接口，新的大数据方案与企业已采购的工具和IT系统要能无缝集成，支撑老业务快速迁移。

第四,大集群：区别于以往的单机系统，企业客户希望新的大数据方案能应对日益增多的数据，随时可以通过增加资源的方式横向扩展，无极扩容。

第五,开放生态：通过开源开放，让更多的客户和合作伙伴的数据连接在一起，发挥更大的价值。

存储和计算逻辑分离，开发CarbonData创新项目，满足上述诉求

华为针对上述典型诉求，从2013年开始调研分析业界大数据方案，发现每种技术都只能解决某种场景的诉求，不能同时满足上述的所有诉求，如：MPP数据库技术不能有效与Hadoop生态集成，数据不能统一共享存储；搜索类技术提升了性能，但是数据膨胀很大，不支持标准SQL、不能兼容老的业务，这促使了华为着手开发CarbonData项目。整个大数据时代的开启，可以说是源自于Google的MapReduce论文，他引发了Hadoop开源项目以及后续一系列的生态发展。他的“伟大”之处在于计算和存储解耦的架构，使企业的部分业务（主要是批处理）从传统的垂直方案中解放出来，计算和存储可以按需扩展极大提升了业务发展的敏捷性，让众多企业普及了这一计算模式，从中受益。CarbonData借鉴了这一理念，存储和计算逻辑上分离，通过索引技术让存储和计算物理上更接近，提升CPU和IO效率，实现超高性能的大数据分析：

列式存储：高效的列式数据组织，区别于行存，可以实现列裁剪和过滤下压，使OLAP查询性能更高。同时，CarbonData针对明细数据查询实现了深度优化，在需要返回所有列的场景下性能优于其他列存方案。

丰富的索引支持：支持全局多维索引、文件索引、Min/Max、倒排索引等多种索引技术，从表级，文件级，列级等多个层级逐级快速定位数据，避免SQL-on-Hadoop引擎常见的“暴力扫描“，从而大幅提升性能，实现十年数据秒级响应，三百维字段任意组合查询。

全局字典编码：除了常见的Delta、RLE、BitPacking等编码外，CarbonData应用了全局字典编码来实现免解码的计算，计算框架可以直接使用经过编码的数据来做聚合，排序等计算，这对需要做跨节点数据交换的业务来说性能提升非常明显(3倍以上)。

自适应类型转换：CarbonData针对分析型应用中大量使用的数值类型（Double/Decimal/Numeric/BigInt）实现存储内数据类型转换，配合列式数据压缩，使得压缩非常高效，数据压缩率基于应用场景不同一般在2到8之间。

标准SQL兼容：在SparkSQL基础上，支持标准SQL99/2003/存储过程语法，TPC-DS标准测试用例全部无修改运行通过；支持数据批量更新、删除，适用于OLAP场景下数据的周期性刷新，例如拉链表更新、维表数据同步。

数据生态集成：支持与Hadoop、Spark等大数据生态系统集成，支持和商业BI工具无缝对接。既满足传统数仓、数据集市、BI应用要求，也提供大数据生态丰富多样的API支持，覆盖从GB级到EB级应用。

开源开放： CarbonData于2016年6月3日全票通过进入大数据领域全球最大的开源社区Apache，目前特性贡献来自于华为、Intel、Talend、Ebay、Inmobi、阿里、美团、乐视、滴滴等公司资深架构师和开发人员。

以CarbonData为融合数仓的大数据方案为金融转型打造新一代数仓引擎

1）XX银行针对交易流水记录做审计业务，针对140亿的大数据量，老的方案经过多次优化查询仍需700多秒且系统不稳定，采用了CarbonData方案后平均性能提升10+倍，分行的明细查询平均在10秒内。

2）XX银行的行长手机项目(亿级数据)，行长可通过手机终端随时查询各分行利润、营收报表等，客户原有系统查询需要等待10秒以上，采用了CarbonData方案后，平均性能提升了4-10倍，且支持数据线性增加，查询性能保持在小于3秒。

华为将依托社区开发模式，通过开放、共赢的方式，推动大数据技术生态持续发展，为金融业务转型，打造高性能多业务融合部署的新一代数仓引擎，为客户快速创造价值。

作者：EI技术布道师-陈亮

CarbonData：大数据融合数仓新一代引擎的更多相关文章

大数据系列之分布式计算批处理引擎MapReduce实践-排序
清明刚过,该来学习点新的知识点了. 上次说到关于MapReduce对于文本中词频的统计使用WordCount.如果还有同学不熟悉的可以参考博文大数据系列之分布式计算批处理引擎MapReduce实践. ...
分布式大数据多维分析（OLAP）引擎Apache Kylin安装配置及使用示例【转】
Kylin 麒麟官网:http://kylin.apache.org/cn/download/ 关键字:olap.Kylin Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的 ...
GooseFS助力大数据业务数倍提升计算能力
前言 GooseFS是由腾讯云推出的一款分布式缓存方案,主要针对包括需要缓存加速的数据湖业务场景,提供基于对象存储COS服务的近计算端数据加速层. GooseFS 基于开源大数据缓存方案 Alluxi ...
大数据系列之分布式计算批处理引擎MapReduce实践
关于MR的工作原理不做过多叙述,本文将对MapReduce的实例WordCount(单词计数程序)做实践,从而理解MapReduce的工作机制. WordCount: 1.应用场景,在大量文件中存储了 ...
分布式大数据多维数据分析(olap)引擎kylin[转]
Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay 开发并贡献至开源社区.它能在亚秒内查询巨大的Hiv ...
【云+社区极客说】新一代大数据技术：构建PB级云端数仓实践
本文来自腾讯云技术沙龙,本次沙龙主题为构建PB级云端数仓实践在现代社会中,随着4G和光纤网络的普及.智能终端更清晰的摄像头和更灵敏的传感器.物联网设备入网等等而产生的数据,导致了PB级储存的需求加大 ...
基于MaxCompute的数仓数据质量管理
声明本文中介绍的非功能性规范均为建议性规范,产品功能无强制,仅供指导. 参考文献 <大数据之路——阿里巴巴大数据实践>——阿里巴巴数据技术及产品部著. 背景及目的数据对一个企业来说已 ...
追本溯源解析“大数据生态环境”发展现状(CSDN)
程学旗先生是中科院计算所副总工.研究员.博士生导师.网络科学与技术重点实验室主任.本次程学旗带来了中国大数据生态系统的基础问题方面的内容分享.大数据的发展越来越快,但是对于大数据的认知大都还停留在最初 ...
Tapdata 实时数据融合平台解决方案（一）：现代企业数据架构及痛点
作者介绍:TJ,唐建法,Tapdata 钛铂数据 CTO,MongoDB中文社区主席,原MongoDB大中华区首席架构师,极客时间MongoDB视频课程讲师. "怎样可以来搭建一个数据中台? ...

随机推荐

【并发编程】ThreadLocal其实很简单
什么是ThreadLocal ThreadLocal有点类似于Map类型的数据变量.ThreadLocal类型的变量每个线程都有自己的一个副本,某个线程对这个变量的修改不会影响其他线程副本的值.需要注 ...
【洛谷】P2371 [国家集训队]墨墨的等式（屠版题）
先讲讲曲折的思路吧...... 首先,应该是CRT之类的东西,乱搞不行......打了打草稿,发现有解的情况是gcd(a1,a2.....an)|B,于是可以求gcd然后O(n)查询?但是B的范围直 ...
StringBuffer 和 StringBuilde
String 字符串常量StringBuffer 字符串变量(线程安全)StringBuilder 字符串变量(非线程安全) 简要的说, String 类型和 StringBuffer 类型的主要性能 ...
[转载]2.7 UiPath Flowchart的介绍和使用
一.Flowchart的介绍用于更复杂的业务逻辑. 与序列不同的是, 流程图提供了多个分支逻辑运算符, 可以使用流程图创建复杂的业务流程并以多种方式连接每个活动. 二.在UiPath 使用Flowc ...
.net core 对象序列化为Json及Json反序列化关于DataContractJsonSerializer和Newtonsoft使用的完整案例，源码已更新至开源模板
很多人告诉你怎么用,但是却不会告诉你用什么好.不知道在进行序列化和反序列化Json时用那个好,因为有太多选择,如.NET Framework下可以选DataContractJsonSerializer ...
python——inspect模块
inspect模块常用功能 import inspect # 导入inspect模块 inspect.isfunction(fn) # 检测fn是不是函数 inspect.isgenerator((x ...
Java开发者入职必备条件
01．基础技术体系我认为知识技能体系化是判断技术是否过关的第一步.知识体系化包含两层含义: 1. 能够知道技术知识图谱(高清版图谱扫文末二维码)的内容比如分布式系统中常用的RPC技术,其背后就涉及 ...
Linux线上与本地的httpd搭建【制作本地yum源】
当前时间 2019-10-24-10:53:12 制作本地yum源我用的VMware Workstation 系统环境: CentOS 7.5 首先我们先要挂载系统镜像 [root@laopa ~] ...
mysql的属性zerofill
一.字段中zerofill属性的类似定义方式 SQL语句:字段名 int(M) zerofill 二.zerofill属性的作用 1.插入数据时,当该字段的值的长度小于定义的长度时,会在该值的前面补上 ...
模块-time模块
time模块 time翻译过来就是时间,这个模块是与时间相关的模块,那么言外之意,如果我们在工作中遇到了对时间的需求(比如获取当前时间,获取时间戳等等)就要先想到time模块. time模块中对于时 ...

CarbonData：大数据融合数仓新一代引擎

CarbonData：大数据融合数仓新一代引擎的更多相关文章

随机推荐

热门专题