单日30PB量级！火山引擎ByteHouse云原生的数据导入这么做

更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群

近期，火山引擎ByteHouse技术专家受邀参加DataFunCon2023（深圳站）活动，并以“火山引擎ByteHouse基于云原生架构的实时导入探索与实践”为题进行了技术分享。在分享中，火山引擎ByteHouse技术专家以Kafka和物化MySQL两种实时导入技术为例，介绍了ByteHouse的整体架构演进以及基于不同架构的实时导入技术实现。

随着企业降本增效、智能化数据决策需求的增强，传统的商业数据库已经难以满足和响应快速增长的业务诉求。在此背景下，云原生数据库成为大势所趋。云原生数据库基于云平台构建、部署和分发，具有高可用性、高性能、高可靠等特点，可以帮助企业更好地实现数据智能化决策。

火山引擎ByteHouse是基于开源ClickHouse进行技术优化和升级的一款云原生数据仓库。ClickHouse原有的分布式架构具有无中心多主节点以及存储方便的优势。但它也存在节点故障处理成本高、读写冲突、扩容成本高以及一致性欠缺等架构痛点。基于此，ByteHouse在社区分布式架构基础上，演进并开源了ClickHouse新型云原生架构。并且ByteHouse在新架构下也做了实时导入技术的设计与实现。

不同架构实时导入技术比较(Kafka)

据介绍，火山引擎ByteHouse云原生架构分为三层：第一层是云服务入口，负责承接所有的用户请求；第二层是执行层，主要负责查询和导入的功能，实现读写分离；第三层是数据存储层，支持多种云存储组件。在云原生架构下，ByteHouse不仅具有运维成本和门槛低的架构优势，还通过读写分离等手段解决了查询高峰导致导入停滞等问题，并且得益于架构优势引入了弹性扩缩容能力以及高可用性。

火山引擎ByteHouse云原生架构图

由于云原生架构的应用，面对字节跳动内部激增的业务量以及处理庞大数据量的需求，ByteHouse在实时导入技术方面进行了相应的优化升级。目前，ByteHouse以Kafka和物化MySQL作为实时导入的主要数据源。

在Kafka导入实现中，ByteHouse可以实现秒级数据延时和单表GiB级吞吐，支持绝大部分在线实时分析业务场景。相比社区版本，其优势在于高可用性和容错机制，并支持Exactly-Once消费语义，保证数据的可靠性和完整性。

物化MySQL是一种将MySQL数据库中的数据按库级别同步到ByteHouse中的能力，主要工作流程为基于MySQL数据库创建一个物化库引擎，该引擎初始化时从MySQL拉取指定库的所有存量数据，后续通过binlog同步回放的方式持续同步增量数据。其优势在于，不仅保证数据的一致性和完整性，还可以对数据实时分析和处理，提高处理的速度和效率。

目前，火山引擎ByteHouse云原生架构已经全面服务内、外部多种业务场景，实时导入已支持超过2500个服务节点，每天实时导入数据规模超过30PB。未来，火山引擎ByteHouse团队还将持续探索更通用的实时导入技术解决方案，进一步提升数据导入的性能和通用性。

点击跳转火山引擎ByteHouse了解更多

单日30PB量级！火山引擎ByteHouse云原生的数据导入这么做的更多相关文章

高性能、快响应！火山引擎 ByteHouse 物化视图功能及入门介绍
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群物化视图是指将视图的计算结果存储在数据库中的一种技术.当用户执行查询时,数据库会直接从已经预计算好的结果中获取数据 ...
火山引擎 DataLeap 的 Data Catalog 系统公有云实践
Data Catalog 通过汇总技术和业务元数据,解决大数据生产者组织梳理数据.数据消费者找数和理解数的业务场景.本篇内容源自于火山引擎大数据研发治理套件 DataLeap 中的 Data Ca ...
ByteHouse云数仓版查询性能优化和MySQL生态完善
ByteHouse云数仓版是字节跳动数据平台团队在复用开源 ClickHouse runtime 的基础上,基于云原生架构重构设计,并新增和优化了大量功能.在字节内部,ByteHouse被广泛用于各类 ...
从 Spark 到 Kubernetes — MaxCompute 的云原生开源生态实践之路
2019年5月14日,喜提浙江省科学技术进步一等奖的 MaxCompute 是阿里巴巴自研的 EB 级大数据计算平台.该平台依托阿里云飞天基础架构,是阿里巴巴在10年前做飞天系统的三大件之分布式计算部 ...
JuiceFS 在火山引擎边缘计算的应用实践
火山引擎边缘云是以云计算基础技术和边缘异构算力结合网络为基础,构建在边缘大规模基础设施之上的云计算服务,形成以边缘位置的计算.网络.存储.安全.智能为核心能力的新一代分布式云计算解决方案. 01- 边 ...
使用 Iceberg on Kubernetes 打造新一代云原生数据湖
背景大数据发展至今,按照 Google 2003年发布的<The Google File System>第一篇论文算起,已走过17个年头.可惜的是 Google 当时并没有开源其技术,& ...
AI加持的阿里云飞天大数据平台技术揭秘
摘要:2019云栖大会大数据&AI专场,阿里云智能计算平台事业部研究员关涛.资深专家徐晟来为我们分享<AI加持的阿里云飞天大数据平台技术揭秘>.本文主要讲了三大部分,一是原创技术优 ...
开放融合 | “引擎级”深度对接！POLARDB与SuperMap联合构建首个云原生时空平台
阿里巴巴新一代自研云数据库POLARDB与超图软件SuperMap GIS实现 “引擎级”深度对接,构建了自治.弹性.高可用的云原生时空数据管理平台联合解决方案,推出了业界首个“云原生数据库+云原生G ...
OpenKruise - 云原生应用自动化引擎正式开源
2019 年 6 月 24 日至 26 日, 由 Cloud Native Computing Foundation (CNCF) 主办的云原生技术大会 KubeCon + CloudNativeCo ...
waf 引擎云原生平台tproxy 实现调研
了解了基本云原生架构,不清楚的查看之前的文章:https://www.cnblogs.com/codestack/p/13914134.html 现在来看看云原生平台tproxy waf引擎串联实现 ...

随机推荐

C函数指针和回调函数
函数指针函数指针是指向函数的指针变量. 通常我们说的指针变量是指向一个整型.字符型或数组等变量,而函数指针是指向函数. 函数指针可以像一般函数一样,用于调用函数.传递参数. 函数指针变量的声明: t ...
2023-11-11：用go语言，字符串哈希+二分的例题。给定长为 n 的源串 s，以及长度为 m 的模式串 p，要求查找源串中有多少子串与模式串匹配， s‘ 与 s 匹配，当且仅当 s‘ 与 s
2023-11-11:用go语言,字符串哈希+二分的例题. 给定长为 n 的源串 s,以及长度为 m 的模式串 p, 要求查找源串中有多少子串与模式串匹配, s' 与 s 匹配,当且仅当 s' 与 s ...
GPTs Hunter 是什么？
原文: https://openaigptguide.com/openai-gpts-hunter/ GPTs Hunter 是一个功能强大的免费导航网站,支持多语言,提供用户友好的界面. GPTs ...
Android 11 后的应用数据和文件
Android应用数据的保存方式有四种,分别是应用专属存储空间.共享存储.偏好设置.数据库. 应用专属存储空间应用专属存储空间:存放应用专属文件,主要包括两个空间,卸载后移除内部存储空间:位于系统 ...
A组Day7
A. 放置石子我们设第一格的东西为 \(x\) ,则接下来的格数为 \[2:1+x\\ 3:2x+1\\ 4:3x+2\\ 5:5x+3\\ ... \] 易得x的系数就是原来的斐波那契额数列,而后 ...
UIPath初识和安装
即使没有人为你鼓掌,也要优雅的谢幕,感谢自己的认真付出. 一. UiPath组成学习UiPath,我们一定先要了解Studio,Robot和Orchestrator这3个重要组成部分. UiPa ...
C语言根据公式Cnm= 算出从n个不同元素中取出m个元素（m≤n）的组合数。建议定义和调用函数fact(n)计算n!，其中n的类型是int，函数类型是double。
/* 开发者:慢蜗牛开发时间:2020.5.28 程序功能:开发公式Cnm */ #include<stdio.h> long fact_1(int m); long fact_2(in ...
飞腾E2000板载以太网适配
飞腾E2000板载以太网适配 e20005.4.18macbyt8521 1. 设备树移植 2. MACB驱动移植 3. 网络连通性调试 3-1. MACB驱动环回测试 3-2. YT8521 PHY ...
ERP大作业进度(一)
ERP和进销存的区别 ERP(企业资源计划)和进销存(进货.销售和库存管理)是两个不同的概念,尽管它们在企业管理中通常存在交集.以下是它们之间的主要区别: 范围: ERP:ERP系统是一个综合性的.集 ...
Kotlin协程系列(三)
1.前言前面两节,我们运用了kotlin提供的简单协程去实现了一套更易用的复合协程,这些基本上是以官方协程框架为范本进行设计和实现的.虽然我们还没有直接接触kotlin官方协程框架,但对它的绝大多数 ...

单日30PB量级！火山引擎ByteHouse云原生的数据导入这么做

单日30PB量级！火山引擎ByteHouse云原生的数据导入这么做的更多相关文章

随机推荐

热门专题