更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群
 
近日,联合火山引擎开发者社区,火山引擎数智平台(VeDI)《数智化转型背景下的火山引擎大数据技术揭秘》主题Meetup暨超话数据特别场正式在深圳举办,邀请到了Datasail、DataLeap、 ByteHouse、EMR、LAS等多条数智平台(VeDI)产品线的专家带来大数据技术干货分享。
 
如今各个企业面临的是更变幻莫测的市场、更复杂的内部架构、更进退失据的现状。在这种现状下各个企业如何顺利的完成数字化转型?
 
今年4月上海举办的春季 FORCE 原动力大会上,火山引擎正式提出了“数据飞轮”的数字化建设模式,获得了业界广泛关注。火山引擎数据飞轮是企业数智化升级的新范式,基于对字节跳动十余年数据驱动实践经验的提炼,以数据消费为核心驱动力,使企业数据流充分融入业务流,实现数据资产的业务应用的飞轮效应。其中数据资产轮的理念是在被频繁数据消费的推动下,变得更高质量、更低成本、更快响应的支撑业务应用。
 
这里涉及资产丰富、质量优化、研发提效三个核心齿轮:
  • 资产丰富:数据消费推动更丰富的数据资产融合统一的建设
  • 质量优化:数据消费推动数据资产建设治理具备更高的质量
  • 研发提效:数据基础建设过程中的成本优化和效率提升
 
全域数据集成 DataSail是火山引擎数智平台下数据采集和同步引擎,支持全场景异构数据源集成,助力企业数据资产融合统一建设,本次活动上火山引擎DataSail高级研发工程师李延加分享了DataSail CDC数据整库实时入仓入湖方面的实践。
 
 
在线数据库数据导入到数仓分析的链路已经存在多年,随着近年来实时计算的发展,业界期待有延迟更低、运维更便捷、效率更高的CDC同步通道。李延加在现场介绍了DataSail实现CDC整库实时同步的技术方案和业务实践。
 
随着数字化转型的推进以及业务数仓建设不断完善,大数据开发体量及复杂性逐步上升,如何保证数据稳定、正确、持续产出成为数据开发者核心诉求,也成为平台建设面临的挑战之一。
 
火山引擎DataLeap 产品经理黄虹现场分享了字节跳动基于大数据研发治理套件DataLeap的DataOps实践,阐述了DataOps理念在字节的具象以及DataOps敏捷规范研发平台。DataOps是数据开发的新范式,通过对数据相关人员、工具和流程的重新组织,打破协作壁垒,构建集开发、治理、运营于一体的自动化数据流水线,不断提高数据产品交付效率与质量,才能实现高质量数字化发展。
 
数据基础建设过程中的成本优化和效率提升是困扰在很多大数据相关企业的难题,本次活动上基于研发提效的角度,来自 ByteHouse、EMR、LAS研发和产品专家从不同技术细节方向给大家带来干货分享。
 
火山引擎 ByteHouse 产品经理孔柏林现场分享了基于ByteHouse引擎的增强型数据导入技术实践,作为一款云原生数据仓库ByteHouse基于自研引擎HaUniqueMergeTree,构建增强MaterializedMySQL、HaKafka引擎,实现数据生产-应用一体化,通过案例分析与总结让与会者理解一体化解决方案的实践及业务价值。
 
 
目前大数据量分析场景下面临着如下核心挑战:HDFS与对象存储之间的语义差异;存算分离之后带来的较大性能损耗。火山引擎 EMR 研发工程师吴志平从基于Proton的存算分离角度带来了相关技术实践。
 
云原生开源大数据平台EMR团队针对这些挑战自研了Proton加速引擎,深度优化对象存储读写能力,与Hive/Spark/Trino等计算引擎集成后,在不改变用户使用习惯的前提条件下,可提供对象存储数据集的透明加速服务。在离线场景下,其性能基本持平存算一体架构。
 
 
当前Spark、Presto等引擎原Java执行的性能优化进入瓶颈期,无法满足业务需求,而基于向量化和编译优化的native引擎,可获两倍性能加速比,降低资源成本。
 
火山引擎LAS高级研发工程师杨嘉义在现场向大家介绍了火山引擎LAS底层的湖仓一体加速引擎Bolt的架构及在在LAS的应用实践,据了解Bolt已经在字节跳动内部SparkSQL、Presto大规模上线,加速效果显著,其特色有:面向多场景统一加速、端到端向量化执行。
 
本次 Meetup 不仅为技术爱好者们提供了一个互动交流的平台,也让大家更深入地了解了火山引擎数智平台(VeDI)各产品在数智化转型时代背景下,如何更高质量、更低成本、更快响应的支撑业务应用。
 
期待下一次的 Meetup,让我们再次相聚,共同探讨技术的魅力。
 
点击跳转大数据研发治理套件 DataLeap了解更多

线下Meetup:在数智化转型背景下,火山引擎VeDI的大数据技术揭秘的更多相关文章

  1. 【云+社区极客说】新一代大数据技术:构建PB级云端数仓实践

    本文来自腾讯云技术沙龙,本次沙龙主题为构建PB级云端数仓实践 在现代社会中,随着4G和光纤网络的普及.智能终端更清晰的摄像头和更灵敏的传感器.物联网设备入网等等而产生的数据,导致了PB级储存的需求加大 ...

  2. 大数据技术之_16_Scala学习_08_数据结构(下)-集合操作+模式匹配

    第十一章 数据结构(下)-集合操作11.1 集合元素的映射-map11.1.1 map 映射函数的操作11.1.2 高阶函数基本使用案例1+案例211.1.3 使用 map 映射函数来解决11.1.4 ...

  3. 大数据技术之HBase原理与实战归纳分享-下

    @ 目录 整合Phoenix 定义 为何要使用 安装 SHELL操作 表的映射 简易JDBC示例 二级索引 二级索引配置文件 全局索引 包含索引 本地索引(local index) HBase与 Hi ...

  4. R You Ready?——大数据时代下优雅、卓越的统计分析及绘图环境

    作者按:本文根据去年11月份CSDN举办的“大数据技术大会”演讲材料整理,最初发表于2012年2月期<程序员>杂志. 0  R 的安装

  5. CarbonData:大数据融合数仓新一代引擎

    [摘要] CarbonData将存储和计算逻辑分离,通过索引技术让存储和计算物理上更接近,提升CPU和IO效率,实现超高性能的大数据分析.以CarbonData为融合数仓的大数据解决方案,为金融转型打 ...

  6. 大数据下基于Tensorflow框架的深度学习示例教程

    近几年,信息时代的快速发展产生了海量数据,诞生了无数前沿的大数据技术与应用.在当今大数据时代的产业界,商业决策日益基于数据的分析作出.当数据膨胀到一定规模时,基于机器学习对海量复杂数据的分析更能产生较 ...

  7. GIS+=地理信息+行业+大数据——基于云环境流处理平台下的实时交通创新型app

    应用程序已经是近代的一个最重要的IT创新.应用程序是连接用户和数据之间的桥梁,提供即时訪问信息是最方便且呈现的方式也是easy理解的和令人惬意的. 然而,app开发人员.尤其是后端平台能力,一直在努力 ...

  8. 转型大数据之学前准备,掌握linux(一)

    导语:为什么要学习linux?学到什么程度? 大数据技术是运行在集群,且是linux操作系统这样的集群当中的,所以学习大数据之前,你得先掌握了linux的简单操作,没错,我们不是专门的做linux工作 ...

  9. BAT推荐免费下载JAVA转型大数据开发全链路教程(视频+源码)价值19880元

    如今随着环境的改变,物联网.AI.大数据.人工智能等,是未来的大趋势,而大数据是这些基石,万物互联,机器学习都是大数据应用场景! 为什么要学习大数据?我们JAVA到底要不要转型大数据? 好比问一个程序 ...

  10. 本周六 Apache DolphinScheduler & Doris 将联合线上 Meetup

    活动背景 2020年,大数据成为国家基建的一个重要组成,大数据在越来越多的领域展现威力.随着大数据的应用场景越来越多,大家对数据的响应速度和数据加工工作流的方便程度也提出了更高的要求.在这种背景下,相 ...

随机推荐

  1. 前端JavaScript编码规范 和react编码规范

    JavaScript编码规范 点击链接查看:https://github.com/ecomfe/spec/blob/master/javascript-style-guide.md 前端React编码 ...

  2. CSS必学:元素之间的空白与行内块的幽灵空白问题

    作者:WangMin 格言:努力做好自己喜欢的每一件事 CSDN原创文章 博客地址 WangMin 我们在开发的过程中,难免会出现一些难以预料的问题.那么其中,CSS空白现象就是非常常见的问题之一.虽 ...

  3. ST-Link v2 刷写 GNUK,年轻人的第一个 OpenPGP 智能卡!

    前言 看到了这篇文章 想搞 PGP 智能卡玩,但是 yubikey 死贵 还涉及到某些傻逼政治问题 于是就想找找有无开源实现什么的. 然后就看见了 smartcard 的制作教程,可惜能找到的便宜 j ...

  4. ReverseMe-120

    一道好题,没解出来但是收获很多 贴两位大牛的题解 [精选]攻防世界逆向高手题之ReverseMe-120-CSDN博客 攻防世界ReverseMe-120详解_攻防世界reverseme基本思路-CS ...

  5. AcWing 178. 第K短路

    题意 给定一张 \(N\) 个点(编号 \(1,2-N\)),\(M\) 条边的有向图,求从起点 \(S\) 到终点 \(T\) 的第 \(K\) 短路的长度,路径允许重复经过点或边. 注意: 每条最 ...

  6. .NET中有多少种定时器

    .NET中至少有6种定时器,每一种定时器都有它的用途和特点.根据定时器的应用场景,可以分为UI相关的定时器和UI无关的定时器.本文将简单介绍这6种定时器的基本用法和特点. UI定时器 .NET中的UI ...

  7. 机密计算如何引领AI开发的安全未来

    机密计算如何引领AI开发的安全未来 PrimiHub一款由密码学专家团队打造的开源隐私计算平台,专注于分享数据安全.密码学.联邦学习.同态加密等隐私计算领域的技术和内容. 先进的AI模型比如机器学习和 ...

  8. windows Server 2008 r2 无法通过update更新的解决方法

    注意:目前windows Server系列操作系统已经完全停止支持. 1,安装 SP1补丁 KB976932 点击:微软补丁下载网站 搜索KB976932,手动下载安装. 2,安装 KB4474419 ...

  9. Silverlight工作流控件功能缺失,Windows Server操作系统 IIS添加WCF功能

    注: Silverlight工作流控件,如果在网页中打不开,则要判断是否缺少Silverlight工作流控件的插件程序,如果不是则可以进行一下步骤检查,如果是以下原因则是:由于IIS版本问题,安装后可 ...

  10. C++ Qt开发:MdiArea多窗体组件

    Qt 是一个跨平台C++图形界面开发库,利用Qt可以快速开发跨平台窗体应用程序,在Qt中我们可以通过拖拽的方式将不同组件放到指定的位置,实现图形化开发极大的方便了开发效率,本章将重点介绍MdiArea ...