更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号回复【1】进入官方交流群。
 
性能在数据分析中至关重要,它直接决定数据处理的效率与及时性,进一步对数据驱动的企业决策造成影响。
 
举个例子来看,某个大型电商公司每天产生海量的交易数据,数据分析团队需要通过这些数据了解客户的购买行为、热门商品、销售趋势等,来制定营销策略和优化运营。当分析团队获取过去一个月的销售数据报告时,由于数据量庞大,系统处理速度缓慢,需要几十分钟到几小时才能得出结果。而在某些促销活动期间,如果不能及时获取最新的销售数据来评估活动效果,就无法及时调整策略,错失营销机会。
 
随着数字化转型的深入,不仅仅是电商领域,各行业都需要基于实时数据做出关键决策。而对企业底层数据系统来说,在处理复杂的数据分析任务,如多维度的关联分析或数据挖掘时,可能出现延迟、崩溃、错误等问题,导致数据不准确、不完整、时效性差。
 
作为火山引擎推出的一款OLAP产品,ByteHouse具备原生的高性能优势,广泛应用于字节跳动和外部企业的数据分析场景。早在2022年2月,ByteHouse在字节跳动的部署规模已超1万8000台,单集群超2400台。针对数据分析中常见的实时吞吐慢、BI报表慢、在线/离线分析慢等情况,ByteHouse推出六大场景的性能提升方案,进一步提升OLAP性能,助力企业更快速、更准确实施决策。
第一,在实时吞吐的场景中,首先,ByteHouse支持 Upsert的部分列更新能力,确保每秒百万数据入库前提下的落盘即更新。其次,基于自研uniqueMergeTree引擎,ByteHouse为数据写入即去重提供性能保障,特别是满足了 IoT 场景下的高性能诉求。此外,ByteHouse自研的 Flink Connector 能更好对接 Flink,为数据写入建立更高效、流畅的通路。以某畅销游戏公司的实践举例,该公司每秒需要写入 220 万条游戏平台日志数据,相当于每秒写入约 4GB 数据,而在ByteHouse的支持下,该公司的底层数据引擎能很好满足以上诉求,且性能实现线性增长。
 
第二,在BI报表分析场景中,数据分析师、运营团队等经常会遇到报表生成慢、指标平台响应慢、管理驾驶舱显示速度慢等问题。一方面,ByteHouse通过增强MV物化视图和Projection功能,实现对复杂查询、计算逻辑的预聚合,提升应用层的性能表现,另一方面基于Query Cache来缓存数据和复杂查询中的结果集。在某娱乐型公司的应用实践中,ByteHouse支撑该公司每天15亿数据记录,每秒6万TPS峰值,使报表时效性从过去的 T+1 方式直接压缩到分钟级,甚至秒级。
 
第三,在在线、离线复杂分析场景中,ByteHouse则针对CBO、RBO等进行自研优化器增强。此外,对于Runtime Filter 这一对大关联场景性能提升有关键影响的技术,ByteHouse自研分布式缓存能够进一步解决分离架构带来的性能损失问题。
 
第四,在湖仓联邦分析场景中,ByteHouse基于 Native Reader 技术压缩 IO 访问路径,提升外表访问性能。通过进一步与优化器进行融合,ByteHouse能持续提高湖仓分析速度。
 
第五,在人群圈选与行为分析场景中,ByteHouse 具备 BitEngine/BitMap64/BitMap indexDe 等自研引擎和增强功能,通过与增长分析DataFinder、客户数据平台VeCDP等应用紧密结合,ByteHouse针对业务场景开发了大量内置分析函数,如留存分析、路径分析等。即使在 10 亿级的用户圈选的场景下, P99 响应时间也能达到秒级到毫秒级。
 
第六,在以图搜图场景中,ByteHouse推出了Vector引擎,即向量检索能力。通过支持多种向量检索算法以及高效的执行链路,ByteHouse可以支撑级大规模向量检索场景,达到毫秒级的查询延迟。在某舆情监测企业的实践中,行业相关产品的查询效率在几秒到十多秒之间,而优化后的ByteHouse只需150-200 毫秒内,就能从大规模数据中查找出近似的 1000 张图片,并完成相似度评分。
 
在整体性能数据上,通过使用SSB、TPC-H 和 TPC-DS 三种数据集进行性能测试,并以性能著称的某开源OLAP为基准测试产品,ByteHouse在不同查询项上都有显著的性能提升。以TPC-H 数据集举例,在相同硬件和软件环境下, ByteHouse 查询效率高于本次基准测试产品几十倍。
 
目前,ByteHouse应用于互联网、游戏、金融、汽车、气象等领域,持续为企业提供极致的数据分析能力,助推数智化转型升级。
 
点击跳转 火山引擎云原生数据仓库ByteHouse 了解更多。
 

聚焦OLAP性能提升,火山引擎ByteHouse发布六大场景解决方案的更多相关文章

  1. 高性能、快响应!火山引擎 ByteHouse 物化视图功能及入门介绍

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 物化视图是指将视图的计算结果存储在数据库中的一种技术.当用户执行查询时,数据库会直接从已经预计算好的结果中获取数据 ...

  2. 火山引擎 DataLeap 的 Data Catalog 系统公有云实践

      Data Catalog 通过汇总技术和业务元数据,解决大数据生产者组织梳理数据.数据消费者找数和理解数的业务场景.本篇内容源自于火山引擎大数据研发治理套件 DataLeap 中的 Data Ca ...

  3. 还原火山引擎 A/B 测试产品——DataTester 私有化部署实践经验

      作为一款面向ToB市场的产品--火山引擎A/B测试(DataTester)为了满足客户对数据安全.合规问题等需求,探索私有化部署是产品无法绕开的一条路.   在面向ToB客户私有化的实际落地中,火 ...

  4. 火山引擎 A/B 测试产品——DataTester 私有化架构分享

    作为一款面向 ToB 市场的产品--火山引擎A/B测试(DataTester)为了满足客户对数据安全.合规问题等需求,探索私有化部署是产品无法绕开的一条路. 在面向 ToB 客户私有化的实际落地中,火 ...

  5. 火山引擎MARS-APM Plus x 飞书 |降低线上OOM,提高App性能稳定性

    通过使用火山引擎MARS-APM Plus的memory graph功能,飞书研发团队有效分析定位问题线上case多达30例,线上OOM率降低到了0.8‰,降幅达到60%.大幅提升了用户体验,为飞书的 ...

  6. M内核迎来大BOSS,ARM发布Cortex-M55配NPU Ethos-U55 ,带来无与伦比的性能提升

    说明: 全球顶级嵌入式会展Embedded Word2020这个月底就开了,各路厂家都将拿出看家本领. 先回顾下去年的消息: 1.去年年初的时候ARM发布Armv8.1-M架构,增加了Arm Heli ...

  7. 存算分离下写性能提升10倍以上,EMR Spark引擎是如何做到的?

    ​引言 随着大数据技术架构的演进,存储与计算分离的架构能更好的满足用户对降低数据存储成本,按需调度计算资源的诉求,正在成为越来越多人的选择.相较 HDFS,数据存储在对象存储上可以节约存储成本,但与此 ...

  8. 重构、插件化、性能提升 20 倍,Apache DolphinScheduler 2.0 alpha 发布亮点太多!

    点击上方 蓝字关注我们 社区的小伙伴们,好消息!经过 100 多位社区贡献者近 10 个月的共同努力,我们很高兴地宣布 Apache DolphinScheduler 2.0 alpha 发布.这是 ...

  9. CAT 3.0 开源发布,支持多语言客户端及多项性能提升

    项目背景 CAT(Central Application Tracking),是美团点评基于 Java 开发的一套开源的分布式实时监控系统.美团点评基础架构部希望在基础存储.高性能通信.大规模在线访问 ...

  10. 火山引擎 DataLeap:揭秘字节跳动数据血缘架构演进之路

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维 ...

随机推荐

  1. org.springframework.beans.BeanUtils属性赋值 Date类型处理转换为LocalDateTime, Date不能直接赋值给LocalDateTime

    Date createTime = book.getCreateTime(); Date updateTime = book.getUpdateTime(); //属性值处理 BeanUtils.co ...

  2. 基于 .NET CORE + VUE 前后端项目打包,实现批处理安装,一键部署

    2023年7月18日 目前基于已完成了基于WPF界面的全自动部署小工具 自动判断相关.net core环境和依赖,自动部署mysql数据库,自动部署前后端web服务的功能. 有疑问的可以直接评论. - ...

  3. springboot支持http2

    现在http/3都出来了,但是很多项目还是没有采用https,这个是说不过去的. http3在2022/06/06 正式发布,具体见https://www.163.com/dy/article/H9B ...

  4. k8s健康检查(探针Probe)之LivenessProbe、ReadinessProbe和StartupProbe

    背景 集群正常服务时,会出现容器死掉问题,如宿主机故障.资源不足.下游故障等.这个时候容器需要从endpoints摘除(容器挂了就不能接流了),并执行它的restart策略. LivenessProb ...

  5. Linux特殊权限之SBIT

    简单点,说话的方式简单点: 用于修饰目录 其他用户x位替换成t 作用:目录属主在该目录下创建的文件只有该属主能删除

  6. .NET 高效灵活的API速率限制解决方案

    前言 FireflySoft.RateLimit是基于.NET Core和.NET Standard构建,支持多种速率限制算法和策略,包括固定窗口.滑动窗口.漏桶.令牌桶等.通过简单的配置和集成,开发 ...

  7. DVT:华为提出动态级联Vision Transformer,性能杠杠的 | NeurIPS 2021

    论文主要处理Vision Transformer中的性能问题,采用推理速度不同的级联模型进行速度优化,搭配层级间的特征复用和自注意力关系复用来提升准确率.从实验结果来看,性能提升不错 来源:晓飞的算法 ...

  8. Nuxt3 的生命周期和钩子函数(十)

    title: Nuxt3 的生命周期和钩子函数(十) date: 2024/6/30 updated: 2024/6/30 author: cmdragon excerpt: 摘要:本文详细介绍了Nu ...

  9. virtualbox ubuntu拓展存储空间

    1. 关闭虚拟机,右键点击virtualbox图标,选择打开文件位置,记录下路径: 2. 找到需要拓容的ubuntu虚拟机的.vdi文件,记录下路径: 3. windows命令行转到virtualbo ...

  10. 洛谷P1747

    这个题被坑麻了,题目居然不给棋盘的范围,评论区居然有人说棋盘是无限大的,我想说的是如果真是这样那么第9个点答案应该是2而不是3,这个棋盘绝对是有大小的. #include<iostream> ...