更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群
 
计算机领域一直流传一句话——“没有银弹”,这句话出自计算机科学家布鲁克斯《没有银弹》一书,意思是软件工程是一个超级复杂系统,没有任何特效的方法,可以一直提高效率。
 
在数据库选型当中也是如此。一款面向实时查询场景的计算引擎,在离线场景的表现可能会稍显逊色。
 
以某内容APP对OLAP引擎选型为例。该内容APP基于OLAP引擎构建了支持全公司的数据平台,覆盖业务线多、复杂度高,对数据分析的要求也非常高。在APP的直播场景中,主播、商家需要直播间核心实时数据,在直播过程中依据数据做相关决策,比如在流量下降时投流、发福袋等。而OLAP引擎具备高性能、时效性强、弹性扩容的特点,能满足实时查询的诉求,成为该内容APP对计算引擎的首选。
 
但在一些不需要实时数据的场景中,例如内容APP日报、周报、月报等数据,往往是T+1时间产出,OLAP引擎就很难满足需求,反而需要再搭配Spark、Hive、MapReduce等批处理平台共同使用。
 
一方面,这样的组合方案会导致数据链路复杂,操作成本高。为了保证OLAP引擎和其他批处理平台的数据一致性, 研发团队要建立稳定的数据同步管道,这将增加开发成本,造成系统复杂度高,对日常运维和故障排查带来难题。另一方面,两者都需要占用一定的计算和存储资源,导致资源消耗较大,同时也会造成数据延迟。
 
近期,火山引擎云原生数据仓库ByteHouse上线的“离线加工”能力则一举解决这一问题。
 
ByteHouse 云数仓版一直具备强大的实时数据消费能力,通过设计新的实时消费执行流程、实现 Exactly—Once 语义以及对 Memory buffer 的优化,ByteHouse 具备了对 Kafka 流数据的集成能力。
 
据介绍,ByteHouse 在云数仓版的全新版本中支持了完整的离线加工能力,使得作为轻载数仓的 ByteHouse能同时兼顾实时数据的查询效率和离线加工任务的稳定性,大大降低运维压力,简化数据开发链路,为用户提供更优越的企业级数仓体验。
 
性能、效率、成本在行业中一直被认为是“不可能三角”,如果用户将ByteHouse作为统一的数据分析平台,则可以最大程度实现性能、效率、成本的“三赢”。
 
ByteHouse“离线加工”能力架构图
 
从性能层面来看,作为高性能的列式数据库,ByteHouse的查询引擎和聚合能力能提升离线计算速度,帮助用户更快进行离线数据处理、聚合和转换,缩短任务执行时间,提高数据处理效率。
 
从效率层面来看,ByteHouse将实时查询、交互式分析与离线数据加工的处理流程整合在同一个平台,不仅仅能保证数据的一致性和准确性,避免数据在系统流转中出现不一致的问题,还可以简化数据处理架构,研发人员不再需要维护和管理多个工具、系统。另外,ByteHouse使用SQL作为查询语言,研发人员可以利用熟悉的SQL语法进行数据查询、聚合和转换操作,无需学习新的编程语言或框架。
 
从成本层面来看,ByteHouse的列式存储和压缩算法在提升查询速度、缩短响应时间的同时,还可以减少数据存储的占用空间,降低存储成本。
 
随着数据分析和计算的场景愈多,链路愈加复杂,企业更需要统一的平台、简单的架构、便捷的运维,才能支撑业务快速发展。ByteHouse不仅专注于强化实时计算能力,还补齐了离线任务加工场景,通过结合任务编排和开发工具,支持复杂的 ETL 处理流程,适用于企业用户行为分析、人群圈选、风控等更丰富的场景。
 
此次“离线加工”新能力的发布,仅仅只是ByteHouse产品迭代版图上的一环。作为源于字节跳动多年积累的云原生数据仓库,ByteHouse不断提升用户体验,帮助企业更好地构建交互式大数据分析平台和云原生数据仓库。目前,中国地震台网中心、海王集团等已与火山引擎ByteHouse达成合作,率先通过海量数据实时分析的极速体验,辅助决策落地,加速业务洞察,实现自身数字化升级的进一步加速。
 

点击跳转火山引擎ByteHouse了解更多
 
 
 

补齐OLAP引擎短板!ByteHouse 是如何实现流批一体的?的更多相关文章

  1. 带你玩转Flink流批一体分布式实时处理引擎

    摘要:Apache Flink是为分布式.高性能的流处理应用程序打造的开源流处理框架. 本文分享自华为云社区<[云驻共创]手把手教你玩转Flink流批一体分布式实时处理引擎>,作者: 萌兔 ...

  2. 个人永久性免费-Excel催化剂功能第22波-Excel文件类型、密码批量修改,补齐PowerQuery短板

    Excel的多工作薄.多工作表批量合并功能,Excel用户很多这方面的使用场景,也促使了各大Excel各大插件们都在此功能上有所开发,体验程度不一,但总体能够满足大多数的应用场景,本人之前也开发个单独 ...

  3. 这份数据安全自查checklist请拿好,帮你补齐安全短板的妙招全在里面!

    企业数据安全自查Checklist! 快来对照表单,看看你的数据安全及格了吗? 一.京东云安全Checklist建议 京东云安全拥有业界领先的安全研究团队,经过多年实践与经验积累,京东云已面向不同业务 ...

  4. CentOS 7下的Vim自动补齐插件YouCompleteMe安装及配置

    备注:现在对于 YouCompleteMe 的安装应采用更为简单的方法,即利用 Vundle 来安装这个插件.具体方法可见: Vundle 主页 YouCompleteMe 主页 而 .vimrc 的 ...

  5. IT建设如何面对“短板”和“孤峰”?

    在与很多企业探讨信息化建设时,很多IT负责人都提出过一个问题,企业信息化建设的资源是有限的,信息化的资源是先强化企业的“孤峰”还是先支持“短板”?   企 业虽说是一个整体,但不同的领域如研发.生产. ...

  6. 开源OLAP引擎对比

    什么是olap 01.绝大多数请求都是读请求 02.数据以相当大的批次(>1000行)更新,而不是单行更新;或者它根本没有更新 03.数据已添加到数据库,但不会进行修改 04.对于读取,每次查询 ...

  7. js获取系统时间时自动补齐日期带零

    最近在开发中发现有日期不规范的问题,正常规则应该是yy-mm-dd,而在输出时候却变成yy-mm-d,这是js的date()方法在作怪 解决思路是若在10号前,则自动给它补齐一个0,下面给出解决方法, ...

  8. CocoaPods 导入第三方库头文件自动补齐

    使用了一段时间CocoaPods来管理Objective-c的类库,方便了不少.但是有一个小问题,当我在xcode输入import关键字的时候,没有自动联想补齐代码的功能,需要手工敲全了文件名,难以适 ...

  9. 为Debian/Ubuntu的apt-get install添加自动补齐/完成功能

    Debian/Ubuntu的apt-get太常用了,不过偶尔可能也会碰到不太熟悉,想不起来的包的名称,除了去debian packages去查找,另外的方法就是给Debian/Ubuntu添加自动补齐 ...

  10. Delphi中字符串补齐方法

    函数功能:当Str不满Len长度时,在Str前自动填充PadStr以补足长度,例子如下: Str:原字符串 Len:补多长 PadStr:用什么补齐,比如‘0’ function PadString( ...

随机推荐

  1. JVM-JVM如何加载类

    一.Java 语言的类型可以分为两大类: 基本类型(primitive types) 引用类型(reference types):类.接口.数组类和泛型参数(泛型参数会在编译中被擦除),因此Java虚 ...

  2. JAVA类的加载(1) ——类的加载及类加载器介绍

    过程:当程序主动使用某个类时,如果该类还未被加载到内存中,系统会通过加载.连接.初始化三个步骤来对该类进行初始化,有时候称为类加载(类初始化)   类加载 定义:类加载 指的是将类的class文件读入 ...

  3. 【PySide6】QChart笔记(一)—— 用QDateTimeAxis作为x轴绘制多条折线图

    一.QDateTimeAxis简介 1. 官方描述 https://doc.qt.io/qtforpython-6/PySide6/QtCharts/QDateTimeAxis.html QDateT ...

  4. FDA周五发布的药物安全警示信息相对会较少地被媒体传播

    The Friday Effect: Firm Lobbying, the Timing of Drug Safety Alerts, and Drug Side Effects 周五发布的药物安全警 ...

  5. 使用 PPO 算法进行 RLHF 的 N 步实现细节

    当下,RLHF/ChatGPT 已经变成了一个非常流行的话题.我们正在致力于更多有关 RLHF 的研究,这篇博客尝试复现 OpenAI 在 2019 年开源的原始 RLHF 代码库,其仓库位置位于 o ...

  6. 聊聊分布式 SQL 数据库Doris(二)

    Doris中,Leader节点与非Leader节点和Observer节点之间的元数据高可用和一致性,是通过bdbje(全称:Oracle Berkeley DB Java Edition)的一致性和高 ...

  7. 3种Sentinel自定义异常,你用过几种?

    Spring Cloud Alibaba Sentinel 是目前主流并开源的流量控制和系统保护组件,它提供了强大的限流.熔断.热点限流.授权限流和系统保护及监控等功能.使用它可以轻松的保护我们微服务 ...

  8. 解锁 ElasticJob 云原生实践的难题

    发生了什么 最近在逛 ElasticJob 官方社区时发现很多小伙伴都在头疼这个 ElasticJob 上云的问题,ElasticJob 本就号称分布式弹性任务调度框架,怎么在云原生环境就有了问题了呢 ...

  9. Bert-vits2新版本V2.1英文模型本地训练以及中英文混合推理(mix)

    中英文混合输出是文本转语音(TTS)项目中很常见的需求场景,尤其在技术文章或者技术视频领域里,其中文文本中一定会夹杂着海量的英文单词,我们当然不希望AI口播只会念中文,Bert-vits2老版本(2. ...

  10. springMvc报错

    这个报错困扰了我大概一天,主要是刚开始没抓到主要原因,是因为自己的项目结构出现了问题, 导致找不到应有的东西,另一方面就是maven的问题,将maven解决后这个就能用了. 具体解决在https:// ...