更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号回复【1】进入官方交流群。
 
性能在数据分析中至关重要,它直接决定数据处理的效率与及时性,进一步对数据驱动的企业决策造成影响。
 
举个例子来看,某个大型电商公司每天产生海量的交易数据,数据分析团队需要通过这些数据了解客户的购买行为、热门商品、销售趋势等,来制定营销策略和优化运营。当分析团队获取过去一个月的销售数据报告时,由于数据量庞大,系统处理速度缓慢,需要几十分钟到几小时才能得出结果。而在某些促销活动期间,如果不能及时获取最新的销售数据来评估活动效果,就无法及时调整策略,错失营销机会。
 
随着数字化转型的深入,不仅仅是电商领域,各行业都需要基于实时数据做出关键决策。而对企业底层数据系统来说,在处理复杂的数据分析任务,如多维度的关联分析或数据挖掘时,可能出现延迟、崩溃、错误等问题,导致数据不准确、不完整、时效性差。
 
作为火山引擎推出的一款OLAP产品,ByteHouse具备原生的高性能优势,广泛应用于字节跳动和外部企业的数据分析场景。早在2022年2月,ByteHouse在字节跳动的部署规模已超1万8000台,单集群超2400台。针对数据分析中常见的实时吞吐慢、BI报表慢、在线/离线分析慢等情况,ByteHouse推出六大场景的性能提升方案,进一步提升OLAP性能,助力企业更快速、更准确实施决策。
第一,在实时吞吐的场景中,首先,ByteHouse支持 Upsert的部分列更新能力,确保每秒百万数据入库前提下的落盘即更新。其次,基于自研uniqueMergeTree引擎,ByteHouse为数据写入即去重提供性能保障,特别是满足了 IoT 场景下的高性能诉求。此外,ByteHouse自研的 Flink Connector 能更好对接 Flink,为数据写入建立更高效、流畅的通路。以某畅销游戏公司的实践举例,该公司每秒需要写入 220 万条游戏平台日志数据,相当于每秒写入约 4GB 数据,而在ByteHouse的支持下,该公司的底层数据引擎能很好满足以上诉求,且性能实现线性增长。
 
第二,在BI报表分析场景中,数据分析师、运营团队等经常会遇到报表生成慢、指标平台响应慢、管理驾驶舱显示速度慢等问题。一方面,ByteHouse通过增强MV物化视图和Projection功能,实现对复杂查询、计算逻辑的预聚合,提升应用层的性能表现,另一方面基于Query Cache来缓存数据和复杂查询中的结果集。在某娱乐型公司的应用实践中,ByteHouse支撑该公司每天15亿数据记录,每秒6万TPS峰值,使报表时效性从过去的 T+1 方式直接压缩到分钟级,甚至秒级。
 
第三,在在线、离线复杂分析场景中,ByteHouse则针对CBO、RBO等进行自研优化器增强。此外,对于Runtime Filter 这一对大关联场景性能提升有关键影响的技术,ByteHouse自研分布式缓存能够进一步解决分离架构带来的性能损失问题。
 
第四,在湖仓联邦分析场景中,ByteHouse基于 Native Reader 技术压缩 IO 访问路径,提升外表访问性能。通过进一步与优化器进行融合,ByteHouse能持续提高湖仓分析速度。
 
第五,在人群圈选与行为分析场景中,ByteHouse 具备 BitEngine/BitMap64/BitMap indexDe 等自研引擎和增强功能,通过与增长分析DataFinder、客户数据平台VeCDP等应用紧密结合,ByteHouse针对业务场景开发了大量内置分析函数,如留存分析、路径分析等。即使在 10 亿级的用户圈选的场景下, P99 响应时间也能达到秒级到毫秒级。
 
第六,在以图搜图场景中,ByteHouse推出了Vector引擎,即向量检索能力。通过支持多种向量检索算法以及高效的执行链路,ByteHouse可以支撑级大规模向量检索场景,达到毫秒级的查询延迟。在某舆情监测企业的实践中,行业相关产品的查询效率在几秒到十多秒之间,而优化后的ByteHouse只需150-200 毫秒内,就能从大规模数据中查找出近似的 1000 张图片,并完成相似度评分。
 
在整体性能数据上,通过使用SSB、TPC-H 和 TPC-DS 三种数据集进行性能测试,并以性能著称的某开源OLAP为基准测试产品,ByteHouse在不同查询项上都有显著的性能提升。以TPC-H 数据集举例,在相同硬件和软件环境下, ByteHouse 查询效率高于本次基准测试产品几十倍。
 
目前,ByteHouse应用于互联网、游戏、金融、汽车、气象等领域,持续为企业提供极致的数据分析能力,助推数智化转型升级。
 
点击跳转 火山引擎云原生数据仓库ByteHouse 了解更多。
 

聚焦OLAP性能提升,火山引擎ByteHouse发布六大场景解决方案的更多相关文章

  1. 高性能、快响应!火山引擎 ByteHouse 物化视图功能及入门介绍

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 物化视图是指将视图的计算结果存储在数据库中的一种技术.当用户执行查询时,数据库会直接从已经预计算好的结果中获取数据 ...

  2. 火山引擎 DataLeap 的 Data Catalog 系统公有云实践

      Data Catalog 通过汇总技术和业务元数据,解决大数据生产者组织梳理数据.数据消费者找数和理解数的业务场景.本篇内容源自于火山引擎大数据研发治理套件 DataLeap 中的 Data Ca ...

  3. 还原火山引擎 A/B 测试产品——DataTester 私有化部署实践经验

      作为一款面向ToB市场的产品--火山引擎A/B测试(DataTester)为了满足客户对数据安全.合规问题等需求,探索私有化部署是产品无法绕开的一条路.   在面向ToB客户私有化的实际落地中,火 ...

  4. 火山引擎 A/B 测试产品——DataTester 私有化架构分享

    作为一款面向 ToB 市场的产品--火山引擎A/B测试(DataTester)为了满足客户对数据安全.合规问题等需求,探索私有化部署是产品无法绕开的一条路. 在面向 ToB 客户私有化的实际落地中,火 ...

  5. 火山引擎MARS-APM Plus x 飞书 |降低线上OOM,提高App性能稳定性

    通过使用火山引擎MARS-APM Plus的memory graph功能,飞书研发团队有效分析定位问题线上case多达30例,线上OOM率降低到了0.8‰,降幅达到60%.大幅提升了用户体验,为飞书的 ...

  6. M内核迎来大BOSS,ARM发布Cortex-M55配NPU Ethos-U55 ,带来无与伦比的性能提升

    说明: 全球顶级嵌入式会展Embedded Word2020这个月底就开了,各路厂家都将拿出看家本领. 先回顾下去年的消息: 1.去年年初的时候ARM发布Armv8.1-M架构,增加了Arm Heli ...

  7. 存算分离下写性能提升10倍以上,EMR Spark引擎是如何做到的?

    ​引言 随着大数据技术架构的演进,存储与计算分离的架构能更好的满足用户对降低数据存储成本,按需调度计算资源的诉求,正在成为越来越多人的选择.相较 HDFS,数据存储在对象存储上可以节约存储成本,但与此 ...

  8. 重构、插件化、性能提升 20 倍,Apache DolphinScheduler 2.0 alpha 发布亮点太多!

    点击上方 蓝字关注我们 社区的小伙伴们,好消息!经过 100 多位社区贡献者近 10 个月的共同努力,我们很高兴地宣布 Apache DolphinScheduler 2.0 alpha 发布.这是 ...

  9. CAT 3.0 开源发布,支持多语言客户端及多项性能提升

    项目背景 CAT(Central Application Tracking),是美团点评基于 Java 开发的一套开源的分布式实时监控系统.美团点评基础架构部希望在基础存储.高性能通信.大规模在线访问 ...

  10. 火山引擎 DataLeap:揭秘字节跳动数据血缘架构演进之路

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维 ...

随机推荐

  1. 纯代码搭建iOS三级结构(UITabbarController+UINavigationController+UIViewController)

    声明:这里所指的三级结构不是网上百度中所经常提及的三级框架或者MVC模式,而是指UITabbarController+UINavigationController+UIViewController. ...

  2. 天翼云安装nexus3.37.1

    有点操蛋,官网网络太慢了! 百度了不少网友的内容,综合如下 总体是个皮毛,但已经可以用于开发了! 一.下载和安装 https://download.sonatype.com/nexus/3/nexus ...

  3. 13-flex

    01 flex2个重要的概念 02 flex布局模型 03 flex相关属性 04 flex container相关属性 4.1 flex direction 不同的值会改变主轴的方向 4.2 fle ...

  4. idea远程debug(物理机、docker、k8s)

    IDEA远程DEBUG 1:物理机部署的Springboot项目远程DEBUG 1.1:idea配置 点击"Edit Configurations",再点击+,选择Remote, ...

  5. 创业型公司和BAT大厂招聘要求有什么不同?

    背景 很多Java初学都关心这么一个问题,Java学到什么程度以后可以找到第一份工作.大家的目标都很明确,也很实在,学习Java无非就是为了找工作,那到底我要学多少Java知识,才可以找到第一份工作呢 ...

  6. Qt 学习笔记 - 第四章 - Qt的三驾马车之 - 网络编程

    Qt 学习笔记全系列传送门: Qt 学习笔记 - 第一章 - 快速开始.信号与槽 Qt 学习笔记 - 第二章 - 添加图片.布局.界面切换 Qt 学习笔记 - 第三章 - Qt的三驾马车之一 - 串口 ...

  7. JSON 的了解?

    1., JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式.(为了和其他语言进行交互)2. 数据格式简单, 易于读写, 占用带宽小{'age':'12', ' ...

  8. 拆解LangChain的大模型记忆方案

    之前我们聊过如何使用LangChain给LLM(大模型)装上记忆,里面提到对话链ConversationChain和MessagesPlaceholder,可以简化安装记忆的流程.下文来拆解基于Lan ...

  9. [oeasy]python0072_修改字体前景颜色_foreground_color_font

    修改颜色 回忆上次内容 m 可以改变字体样式 0-9 之间设置的都是字体效果 0 重置为默认 1 变亮 2 变暗 3 斜体 4 下划线 5 慢闪 6 快闪 7 前景背景互换 8 隐藏 9 中划线 叠加 ...

  10. 数据结构:Deuque

    #include <iostream> #include <stdio.h> #include <string> using namespace std; stru ...