阿里巴巴电商业务中历史数据存储与查询相关业务, 大量采用基于列存储技术的HiStore数据库,双11当天HiStore引擎处理数据记录超过6万亿条、原始存储数据量超过5PB。从单日数据处理量上看,该系统已成为全球最大列存储数据库。

“历史数据查询和分析,数据仓库和数据挖掘类系统,都是典型的查询密集型业务,随着数据驱动模式在业务中的大量使用,这样的需求会越来越多。”HiStore项目负责人叶建林表示,“刚刚过去的双11全民购物狂欢节,包括天猫、淘宝和菜鸟网络在内的阿里巴巴核心业务平台,产生了大量的商品、用户及物流数据,这些海量数据查询和分析的主要特点是:数据实时插入和更新少;多维查询和并发查询量大。”

面对这样的应用场景,传统的行存储数据库产品一直不能很好地解决数据量大,多维查询性能低等问题,阿里巴巴自研分布式低成本分析型数据库HiStore凭借高性价比、高压缩比、数据处理量大,以及独特的列存储技术特点,为对海量历史数据存储和查询有强烈需求的客户提供了功能完备的技术解决方案。

依托阿里中间件Aliware)世界级挑战

“作为一款面向分析型应用领域的数据库产品,HiStore架构设计充分满足了海量数据查询和分析需求,以列为基本存储方式和数据运算对象,结合列数据压缩处理、并行处理、Snapshot并发控制、智能索引等数据处理技术,在成本、查询、统计、分析以及批量加载性能上具备突出的优势。”叶建林介绍,HiStore的研发依托于阿里中间件(Aliware)团队,该团队面对全球规模最大的阿里电商平台所带来的巨大流量和海量数据,以及电商平台固有的稳定性要求,去处理各种复杂业务场景,迎接世界级的技术挑战。

OLAP场景HiStore性能突出

据了解,目前市场上列存储数据库产品也有不少,诸如SAP HANA、HP Vertica、Teradata DB等商业产品,还有InfiniDB,MonetDB、ClickHouse等开源项目。叶建林表示,HiStore虽是后来者,但产品功能十分丰富,支持高性能多维查询,多核并发查询,DML支持,alter table,临时表支持,实例高可用,异构数据源导入,高速数据Load,压缩算法和MVCC等多项特性。相比传统的事务型关系数据库,HiStore在OLAP场景下具有无可比拟的优势:

1、 大幅降低硬件成本:依靠列存储和透明压缩技术,能有效对数据进行压缩; 常规场景下平均压缩比>10:1,远高于常规压缩算法,部分场景压缩比甚至可达40:1,极大地节省了数据存储空间;

2、 存储数据量大:依靠高速数据加载工具(2TB/小时)和高压缩比(>10:1)数据处理技术,可实现TB级数据大小,百亿条记录的存储解决方案;

3、 支持高并发和实时多维度查询:比如支持任意列组合的多维ad-hoc查询,实现海量数据下秒级检索能力;

4、 符合MySQL技术生态的标准,完全兼容MySQL语法和通讯协议,无缝支持绝大部分MySQL生态圈的工具和应用;

5、 线性扩展:结合TDDL/DRDS,可实现存储容量和处理能力的线性提升;

6、 在海量历史数据存储与查询等业务场景下, 和业界竞品相比,HiStore的查询性能和存储性价比优势明显:亿级别数据场景下,查询性能相当的情况下存储成本仅为infinidb的1/3,单机数据加载速度是infinidb两倍。

高压缩比+列存储,鹰眼系统硬件成本降低90%

作为列存储数据库,高效的压缩算法是其降低整体成本的利器,叶建林表示,阿里内部最重要的历史数据存储和查询系统-- EagleEye(鹰眼),之前日处理记录数万亿条,日产生数据数百TB,采用HiStore后,利用其高速写入和高压缩比能力,集群机器规模缩减90%,压缩比例达到20:1,成本得到大幅削减。此外,集团安全部风险控制中心的数据存储,采用HiStore后平均压缩比10:1,并可提供毫秒级多维度聚合分析查询。

实时多维查询,人社上云查询性能优秀

支持实时多维度查询是HiStore的另一个重要优势。从2016年2月起,人社部信息中心组织核心厂商共同研发人社部LEAF6云应用平台。据叶建林介绍,在阿里云提供的人社上云测试方案中,HiStore协助完成上云之后几百个数据分库的建立、数据导入,数据同步等各种复杂配置及性能调优(分库分表、小表广播、异构索引等)。在5000万社保人口,大概800亿条记录,单表记录330亿条的数据背景下,测试查询以在线分组统计,多表join为主,HiStore性能表现优秀。

针对不断增长的海量数据存储和查询需求及更苛刻的业务场景,作为阿里中间件(Aliware)其中一员的HiStore也面临诸多挑战,未来将持续深挖高性能,高性价比,高可用的三高优势,依托阿里集团内外广泛的业务场景不断打磨提升产品质量; 同时产品服务化体系也会不断完善,推出人性化管控平台,打造企业级互联网产品。

应运而生! 双11当天处理数据5PB—HiStore助力打造全球最大列存储数据库的更多相关文章

  1. 第八章 交互技术,8.4 Weex 双11会场大规模应用的秒开实战和稳定性保障(作者:鬼道)

    8.4 Weex 双11会场大规模应用的秒开实战和稳定性保障 前言 Native 开发的诸多亮点中,流畅体验和系统调用是最多被提及的.流畅体验体现在页面滚动/动画的流畅性,背后是更好的内存管理和更接近 ...

  2. 深入探访支付宝双11十年路,技术凿穿焦虑与想象极限 | CYZONE特写

    小蚂蚁说: 双11十年间,交易规模的指数级增长不断挑战人们的想象力,而对蚂蚁技术团队来说,这不仅是一场消费盛宴,而是无数次濒临压力和焦虑极限的体验,更是技术的练兵场.如今双11对蚂蚁金服而言,已经绝不 ...

  3. 最强CP!阿里云联手支付宝小程序如何助力双11?

    作为首次“全面上云”的双11,阿里云征服了每秒订单峰值54.4万笔的世界新记录.正是在阿里云的保驾护航下,即使访问量是平时的5到6倍,小程序也鲜少出现卡顿或者宕机的现象,“依靠阿里云,我们整个天猫双1 ...

  4. 媲美5G的Wifi网速、“备战”资产一键领……揭秘双11小二背后的保障力量

    如今,双11不光是购物狂欢节,更是对技术的一次“大考”,对于阿里巴巴企业内部运营的基础保障技术而言,亦是如此. 回溯双11历史,这背后也经历过“小米加步枪”的阶段:作战室从随处是网线,交换机放地上的“ ...

  5. 使用Spark加载数据到SQL Server列存储表

    原文地址https://devblogs.microsoft.com/azure-sql/partitioning-on-spark-fast-loading-clustered-columnstor ...

  6. 我们知道CDN护航了双11十年,却不知道背后有那么多故事……

    情不知如何而起,竟一往情深.恰如我们.十年前,因为相信,所以看见.十年后,就在眼前,看见一切. 当2018天猫双11成交额2135亿元的大屏上,打出这么一段字的时候,参与双11护航的阿里云CDN技术掌 ...

  7. 淘宝应对"双11"的技术架构分析

    原文地址:http://kb.cnblogs.com/page/193670/ 双“11”最热门的话题是TB ,最近正好和阿里的一个朋友聊淘宝的技术架构,发现很多有意思的地方,分享一下他们的解析资料: ...

  8. 2684亿!阿里CTO张建锋:不是任何一朵云都撑得住双11

    2019天猫双11 成交额2684亿! "不是任何一朵云都能撑住这个流量.中国有两朵云,一朵是阿里云,一朵叫其他云."11月11日晚,阿里巴巴集团CTO张建锋表示,"阿里 ...

  9. 第四章 电商云化,4.2 集团AliDocker化双11总结(作者: 林轩、白慕、潇谦)

    4.2 集团AliDocker化双11总结 前言 在基础设施方面,今年双11最大的变化是支撑双11的所有交易核心应用都跑在了Docker容器中.几十万Docker容器撑起了双11交易17.5万笔每秒的 ...

随机推荐

  1. 数据类型---->Number

    Javascript中有六种数据类型 1.undefined:这个值未定义 2.boolean:这个值是布尔值 3.number:这个值是数值 4.function:这个值是函数 5.object:这 ...

  2. css image-set 让浏览器自动切换1x,2x图片

    方法一: <img src="img.png" srcset="path/img.png 2x,path/img.png.png 3x"/> 方法二 ...

  3. SPU、SKU、ARPU是什么,我来记录一下我的理解

    在电商系统里经常会提到“商品”.“单品”.“SPU”.“SKU”这几个词,那么这几个词到底是什么意思呢? 既然不知道是什么,那么我们就查一下:SPU = Standard Product Unit ( ...

  4. VS2015 建立一个C++的MFC简易窗体程序项目

    一开始建立的窗体工程都是带很多窗口,而且自己拉到窗体的控件,一调试就看不到了,是因为新建立工程项目时勾选了太多其他的了,这里记录分享一下建立一个单纯的窗体程序项目步骤给有需要的人也可以学习. 第一步: ...

  5. Leetcode45:Intersection of Two Linked Lists

    Write a program to find the node at which the intersection of two singly linked lists begins. For ex ...

  6. 【待解决】maven创建web报Cannot read lifecycle mapping metadata for artifact org.apache.maven.plugins

    Cannot read lifecycle mapping metadata for artifact org.apache.maven.plugins:maven-war-plugin:maven- ...

  7. 【有奖征资源,分享有内涵】贡献你的CSDN博文和下载资源,不断更新中

    我们收集了CSDN热心博主的博文 和相关下载资源.这些可爱博主上传了免积分的CSDN资源,并贡献了相关的用法,改进策略,进行了翔实的分析.感谢博主的贡献.并期待有很多其它这种好人! 我们特推出活动&q ...

  8. c++迭代器失效问题

    参考两篇文章:https://blog.csdn.net/skyroben/article/details/70877008 https://lichanghao.github.io/2016/08/ ...

  9. Local Response Normalization作用——对局部神经元的活动创建竞争机制,使得其中响应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增强了模型的泛化能力

    AlexNet将LeNet的思想发扬光大,把CNN的基本原理应用到了很深很宽的网络中.AlexNet主要使用到的新技术点如下. (1)成功使用ReLU作为CNN的激活函数,并验证其效果在较深的网络超过 ...

  10. 软件开发 —— 重构(refactor)

    0. 代码坏味道 Large Class,过大的类:Large method,过长的(成员)函数: 1. 基本内涵 在不改变代码外在行为的前提下对代码做出修改,以改进代码的内部结构的过程. -- &l ...