查询速度最高提升50倍！火山引擎ByteHouse在广告投放领域实践分享

更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群

据QuestMobile报告显示，移动互联网已经进入了下半场，在使用人数和使用时长方面已经没有明显增长，互联网已经流量趋于饱和。

作为广告投放主要阵地，由于互联网平台流量红利逐渐消退，越来越多的广告企业和从业者开始探索精细化营销的新路径，取代以往的全流量、粗放式的广告轰炸。精细化营销意味着要在数以亿计的人群中优选出那些最具潜力的目标受众，这无疑对提供基础引擎支持的数据仓库能力，提出了极大的技术挑战。

在人群圈选分析中，分析师一般利用各种标签组合，挑选出最合适的人群，进而完成广告推送，达到精准投放的效果。但由于人群查询在不同标签组合下的结果集大小不同，在一次广告投放中，分析师需要经过多次的逻辑调整，以获得"最好"的人群包。抖音集团拥有广泛的广告投放场景，在日常实践中，我们发现以下痛点问题：

首先，数据预估。广告主需要对选定的人群组合进行预估，以便判断投放情况并确定投放预算。但广告平台用户越来越多，有的平台DAU达到上亿，使得人群包数据量过大，技术上只能采用1/10抽样存储，将导致10%误差。
其次，性能问题。为了保证人群圈选精准度，广告主往往会设定多样、复杂的人群圈选条件，导致底层计算逻辑复杂，比如单次计算可能包含几百，甚至上千个人群包。Hive和Elasticsearch等方案在处理大数据量时，查询速度慢。如果研发人员查询某个广告主的所有用户，该方案需要扫描整个用户库，整个过程需要几分钟甚至几个小时，无法满足广告主实时性要求。
最后，存储问题。Hive和Elasticsearch等方案需要额外的索引结构，使得存储空间变大，导致成本增加。

在以往，研发团队通常使用两种方案来解决以上问题：

方案一：将每个人群包存储为一个Array类型的数据结构，每次查询需要从Array中找到某一个特定ID。

方案二：使用一个表来存储用户ID，在查询的时使用In/Join计算多个人群的交集。

经过内部长期使用经验，无论是方案一或方案二，都存在当数据量逐渐增大，查询速度无法满足实时分析需求的问题。基于高性能、分布式特点，ClickHouse可以满足大规模数据的分析和查询需求，因此研发团队以开源ClickHouse为基础，研发出火山引擎云原生数据仓库ByteHouse，并在其中定制一套处理模型——BitEngine，用于解决集合的交并补计算在实时分析场景中的性能提升问题。

据介绍，BitEngine是一个高效集合数据处理模型，底层基于MergeTree Family存储引擎，并在此基础上引入了BitMap64类型，开发了系列相关运算函数。BitEngine提供的BitMap64类型适合表达具有特定关系的大量实体ID的集合，将集合的交并补运算转化为bitmap之间的交并补运算，从而达到远超普通查询的性能指标。

那么，BitEngine如何应用在人群圈选场景中？举个例子，广告主需求为圈选出“人群包A”和“人群包B”的交集人群，完成广告精准投放。

人群包情况：

人群包A = [10001, 20001，30001，40001，50001]，人群包B = [10001, 20001，20002，20003，20004]

期望结果：

通过BitEngine计算A&B = [10001, 20001]

首先，人群包按照一定规则划分为多个区间，任意两个区间之间的人群包没有交集，由BitEngine保障数据的读取和计算是严格按照区间进行；其次，BitEngine在数据读取时会为每一个文件构建一个读任务，由一个线程调度模块完成整个任务调度和读取；最后，BitEngine完成所有中间结果计算后，按照结果的输出要求做一次数据合并，由此完成交集计算。已上线业务的测试表明，相比普通和Array或者用户表方式，BitEngine在查询速度上有10-50倍提升。

BitEngine上线前后查询耗时监控

BitEngine不仅仅在抖音集团海量广告投放场景中使用，目前更是集成在火山引擎云原生数据仓库ByteHouse中对外输出。火山引擎ByteHouse主要为用户提供极速分析体验，能够支撑实时数据分析和海量数据离线分析，具备便捷的弹性扩缩容能力，极致分析性能和丰富的企业级特性，目前已经与中国地震台网中心、海王集团、莉莉丝游戏、极客邦科技等诸多行业企业达成合作，深度助力各个行业数字化转型。

点击跳转火山引擎ByteHouse了解更多

查询速度最高提升50倍！火山引擎ByteHouse在广告投放领域实践分享的更多相关文章

高性能、快响应！火山引擎 ByteHouse 物化视图功能及入门介绍
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群物化视图是指将视图的计算结果存储在数据库中的一种技术.当用户执行查询时,数据库会直接从已经预计算好的结果中获取数据 ...
通过非聚集索引让select count(*) from 的查询速度提高几十倍、甚至千倍
通过非聚集索引,可以显著提升count(*)查询的性能. 有的人可能会说,这个count(*)能用上索引吗,这个count(*)应该是通过表扫描来一个一个的统计,索引有用吗? 不错,一般的查询,如果用 ...
50倍时空算力提升，阿里云RDS PostgreSQL GPU版本上线
2019年3月19日,阿里云RDS PostgreSQL数据库GPU规格版本正式上线,开启了RDS异构计算并行加速之路.该版本在RDS(关系型数据库服务)的云基础设施层面首次完成了与阿里云异构计算产品 ...
查询效率提升10倍！3种优化方案，帮你解决MySQL深分页问题
开发经常遇到分页查询的需求,但是当翻页过多的时候,就会产生深分页,导致查询效率急剧下降. 有没有什么办法,能解决深分页的问题呢? 本文总结了三种优化方案,查询效率直接提升10倍,一起学习一下. 1. ...
oracle 索引提升查询速度, in 和 exist 效率
做记录: 今天有一个有153万条数据的表,发现查询很慢: select count(y) as transfereeNum,x from t_ast_subject_invest_order GROU ...
如何将 iOS 工程打包速度提升十倍以上
如何将 iOS 工程打包速度提升十倍以上过慢的编译速度有非常明显的副作用.一方面,程序员在等待打包的过程中可能会分心,比如刷刷朋友圈,看条新闻等等.这种认知上下文的切换会带来很多隐形的时间浪费. ...
nginx缓存静态资源，只需几个配置提升10倍页面加载速度
nginx缓存静态资源,只需几个配置提升10倍页面加载速度首先我们看图说话这是在没有缓存的情况下,这个页面发送了很多静态资源的请求: 1.png 可以看到,静态资源占用了整个页面加载用时的90 ...
Web 应用性能提升 10 倍的 10 个建议
转载自http://blog.jobbole.com/94962/ 提升 Web 应用的性能变得越来越重要.线上经济活动的份额持续增长,当前发达世界中 5 % 的经济发生在互联网上(查看下面资源的统计 ...
Elasticsearch Reindex性能提升10倍+实战
文章转载自: https://mp.weixin.qq.com/s?__biz=MzI2NDY1MTA3OQ==&mid=2247484134&idx=1&sn=750249a ...
并行查询提高sql查询速度
新项目在使用Oracle开发中遇到测试库千万级数据导致数据慢,除去加索引和存储过程可以明显提速外,使用并行也可以提速 select /*+parallel(a,8)*/ a.* from a 加上/* ...

随机推荐

CF1401B [Ternary Sequence]
Problem 题目简述两个序列 \(A, B\).这两个序列都是由 \(0,1,2\) 这三个数构成. \(x_1,y_1,z_1\) 和 \(x_2,y_2,z_2\) 分别代表 \(A\) 序 ...
HTTP请求中浏览器的缓存机制（转）
摘要:在Web开发过程中,我们可能会经常遇到浏览器缓存的问题.本文作者详细解释了浏览器缓存的机制,帮助读者更深层次的认识浏览器的缓存. 流程当资源第一次被访问的时候,HTTP头部如下 (Reques ...
3种web会话管理的方式（session）
阅读目录 https://www.cnblogs.com/lyzg/p/6067766.html 1. 基于server端session的管理 2. cookie-based的管理方式 3. tok ...
Excel 数据处理
博客地址:https://www.cnblogs.com/zylyehuo/ 2023 年高教社杯全国大学生数学建模竞赛题目 -- B 题多波束测线问题图表格式 import numpy as n ...
Wampserver搭建DVWA和sqli-labs问题总结
Wampserver 搭建 DVWA 和 sqli-labs 问题总结遇到问题解决的思路方法百度,博客去搜索相关的问题,人工智能 chatgpt 查看官方文档,查看注释. 本次解决方法就是在文档的 ...
C++ 通过CryptoPP计算Hash值
Crypto++ (CryptoPP) 是一个用于密码学和加密的 C++ 库.它是一个开源项目,提供了大量的密码学算法和功能,包括对称加密.非对称加密.哈希函数.消息认证码 (MAC).数字签名等.C ...
【scikit-learn基础】--『数据加载』之玩具数据集
机器学习的第一步是准备数据,好的数据能帮助我们加深对机器学习算法的理解. 不管是在学习还是实际工作中,准备数据永远是一个枯燥乏味的步骤.scikit-learn库显然看到了这个痛点,才在它的数据加载子 ...
文心一言 VS 讯飞星火 VS chatgpt （149）-- 算法导论12.2 4题
五.用go语言,证明:如果一棵二叉搜索树中的一个结点有两个孩子,那么它的后继没有左孩子,它的前驱没有右孩子. 灵捷3.5 . 文心一言: 为了证明这个性质,我们首先需要明确二叉搜索树(BST)的定义和 ...
0x04.信息收集
探针被动:借助网上的一些接口查询或者网上已经获取到的,查看历史信息. 主动:使用工具,从本地流量出发,探测目标信息,会发送大量流量到对方服务器上. 谷歌语法懒人语法:https://pentest ...
Net 高级调试之十五：经典的锁故障
一.简介今天是<Net 高级调试>的第十五篇文章,这个系列的文章也快结束了,但是我们深入学习的脚步还不能停止.上一篇文件我们介绍了C# 中一些锁的实现逻辑,并做到了眼见为实的演示给大家它 ...

查询速度最高提升50倍！火山引擎ByteHouse在广告投放领域实践分享

查询速度最高提升50倍！火山引擎ByteHouse在广告投放领域实践分享的更多相关文章

随机推荐

热门专题