作者 | 代立冬,白鲸开源科技联合创始人&CTO

引言

在AI驱动的商业世界中,DataOps作为连接数据与洞察的桥梁,正迅速成为企业数据战略的核心。

在WOT全球技术创新大会2024·北京站白鲸开源联合创始人&CTO 代立冬 在「大数据技术与基础设施」专场深入分析DataOps的核心理念、AI大模型开发流程,并通过白鲸开源科技的实践案例,展望了DataOps的未来。

DataOps核心理念

DataOps是一种新兴的数据管理和开发方法论,旨在通过自动化和协作,提高数据管道的效率和质量。

DataOps 在大模型开发中的作用

大模型训练关键要素:

  • 数据集:大量、多样化、高质量的数据是训练和微调大模型的基础
  • 模型架构:包括网络层数、隐藏层的大小、参数的类型等
  • 算力:大模型训练需要极其强大计算资源,包括高性能的GPU,如 A100 等

DataOps与AI模型开发的融合,将加速AI模型的开发周期,提升模型的准确性和效率。

大模型训练流程

大模型训练是一个多阶段过程,涉及数据工程、算法工程和运维。

数据工程阶段包括:

  • 数据源:确定数据起点,包括云、SaaS、本地等混合数据源。
  • 数据准备与数据流管理:涉及数据抽取、转换、加载(ETL)和数据质量管理。
  • 大模型训练:利用高质量数据训练模型,包括模型评估与测试。
  • 数据质量管理:包括数据版本管理、数据质量管控、数据影响分析

算法工程阶段包括大模型训练、模型评估预测试,其中,经过预训练、指令微调、增强学习的步骤,并完成性能评估、模型验证和模型优化,训练编排的pipeline才算完成,最终将训练完成的模型应用于实际业务场景。

企业面临的数据挑战

企业在新技术环境下,面临数据源多样化、数据处理流程复杂化等挑战,具体包括:

  • 企业内拥有多组 “数据平台”,数据资源和流程分散在各部门,难以掌控;
  • 企业大数据开发处于“野蛮生长状态”,整体研发管理距离应用开发DevOps流程相差甚远;
  • 大数据、流数据、AI数据加工缺乏工具管控形成了企业新的“蜘蛛网”;
  • 多种新兴数据引擎、云原生、新数据架构的变化缺乏管控,数据血缘、同步、调度与数据发展严重落后。

新技术环境下EtLT架构出现

云、SaaS、本地混合数据源让传统的数据处理流程从ETL、ELT变为能更加快速满足业务需求的EtLT架构,EtLT能更加敏捷地应对离线/实时数据湖、数据仓库、AI模型训练当中的复杂多变的数据需求场景,从而解决以上企业面临的诸多数据挑战。

白鲸开源是一家开源原生的DataOps商业公司,由多个Apache Member成立,80%员工都是Apache Committer,主导2个 Apache顶级开源项目(Apache DolphinScheduler, Apache SeaTunnel),同时根据全球最佳实践发布商业版本 --WhaleStudio,帮助企业在大数据和AI时代智能化地完成多数据源、多云及信创环境的数据集成,数据开发、工作流编排运维及部署、数据质量管控、团队敏捷协作等一系列问题,已在 6000多家企业中得到实践和使用。

DataOps关键实践之任务调度平台

  • Apache DolphinScheduler:云原生调度引擎

作为云原生的调度引擎,DolphinScheduler支持大数据工作流,解决企业级场景中的多个任务单元、高执行频率、数据量大等痛点。

DataOps关键实践之数据集成工具

  • Apache SeaTunnel:新一代实时多源数据同步工具

在数据集成领域,企业面临的技术和业务挑战同样严峻:

  • 数据源多达几百种,版本间不兼容,而且不断有新的出现;
  • 数据丢失与重复,无法一致性
  • 出现问题无法回滚或者断点继续执行
  • 同步过程不透明,缺少监控
  • 频繁读取 binlog 对数据源端影响大
  • 大事务、Schema 变更影响下游
  • 低吞吐高时延导致数据无法及时到达
  • 离线同步和实时同步常被分开管理,维护困难
  • 数据割接人工进行

Apache SeaTunnel是新一代实时多源数据同步工具,支持130+种数据源,提供批量和实时数据集成。可以有效地解决以上企业面临的困境。

  • Apache SeaTunnel特点

同时,为了实现更高效的数据集成,Apache SeaTunnel社区还“重复造轮子”,自研了专门为数据引擎而设计的SeaTunnel Zeta Engine。

与Spark、Flink等流行引擎相比,Apache SeaTunnel在数据同步上的优势显而易见:

  • 典型案例

同样地,Apache SeaTunnel以其强大的数据同步和集成性能在数千家企业的大数据处理中作为重要的一环,发挥着不可替代的作用。典型的用户包括美国醉的商业银行摩根大通银行和哔哩哔哩,两者分别利用Apache SeaTunnel高效解决了跨云数据准备和异构数据实时数据同步的巨大挑战。

白鲸开源DataOps实践

白鲸开源科技是DataOps领域的领先实践者,提供开源解决方案和商业产品,为企业数据打造全流程DataOps闭环。

稳定高效的企业级dDataOps平台——WhaleStudio

WhaleStudio基于Apache DolphinScheduler和Apache SeaTunnel,是一个分布式、云原生并带有强大可视化界面的 DataOps系统,增加了商业客户所需的企业级特性:

  • 完全自主研发,上下游生态圈广阔,支持 160+ 种数据源
  • 全面支持云原生—云、仓、湖 实时/离线批流一体化任务管控
  • 低代码实现企业大数据的操作系统和高速公路
  • 完善的DataOps流程可无缝集成代码工具
  • 丰富的数据源对接和传统ETL数据组件支持
  • 一站式完成从开发-》测试-》上线-》的运维闭环



WhaleStudio技术架构

工作流编排能力

WhaleStudio具有强大的工作流编排能力:

  1. 支持各类计算任务组件:Amazon DMS、Azure Datafactory,Amazon Datasync、Apache Linkis,DataX,Sqoop,SeaTunnel等
  2. 支持各类云数据库和计算架构,支持 K8S、MLDB。
  3. 平台采用插件式设计,支持自由扩展数据源支持。
  4. 可视化的数据源管理,数据源统一集中管理,一次配置,到处使用,大大减少配置修改带来的工作量。
  • 支持160种数据源接口,多种数据集成方式

支持160+种数据源

WhaleTunnel支持160+种数据源,例如MySQL,SAP Hana,Oracle,DB2,SQLServer,Gbase,Kafka,ClickHouse,RedShift、达梦等。平台采用插件式设计,支持自由扩展数据源。

  • 支持多种数据同步方式:

    • 批量数据全量、增量集成
    • 实时数据集成
    • 批量无主键增量集成等
  • 支持商业数据库实时CDC

  • Mysql
  • PostGreSQL
  • SQLServer
  • Oracle
  • DB2
  • AWS Aurora
  • 翰高
  • StarRocks
  • 达梦
  • 人大金仓
  • PolarDB

实时数据同步支持DDL变更触发暂停、报警以及延迟告警

实时数据处理支持多种实时数据监测处理:

  • DDL变更暂停
  • DDL变更告警
  • DDL暂停加表
  • DDL手工处理

支持多种方式控制&监测速率:

  • 数据采集速率控制
  • 并发控制
  • 数据延迟告警
  • 数据全量完成告警
  • 数据CDC增量启动告警

数据开发能力-在线IDE&集成,实现DataOps

数据质量把控–数据工作流血缘关系

  • 全局跨工作流的任务和及实例间的依赖关系
  • 结合任务与表定义,实现表及血缘分析以及任务操作
  • 支持实例级别的依赖链路展示
  • 支持全局视图进行停止、暂停、重跑、依赖链重跑等操作

智能基线–提前预知任务延迟从而提前采取行动

配置智能基线帮助“智能”告警:

定义核心任务基线,多一双“智能”的眼镜

根据任务的执行历史只能推算时长

设置安全预警时间,智能告警

多种运维管理手段帮助运维人员快速处理故障

任务上线之后,面对各种突发情况,有多种手段来确保在任务发生异常时可以协助运维人员快速处理异常。



实践案例分析

中信建投DataOps布局

在经过对比调研后,中信建投采用了WhaleStudio平台来解决当时在谁开发中存在的挑战。

通过WhaleStudio平台,中信建投实现了数据一体化编辑、上线和管控,极大提升了数据研发效率。





  • 工作流编排:定义超过3000个工作流,上线任务数量接近16000个。
  • 核心应用:应用于反洗钱、实时盈亏计算、监管报送、数据精算等核心业务。
  • 效率提升:日均运行工作流实例超过5000个,日均任务执行数量超过20000个。

目前公司各业务线数据处理任务还在持续上线DataOps平台,整个平台规模还在持续增长中。

DataOps未来

DataOps的未来将由AI技术进一步推动,实现更智能化的数据处理、数据安全保护和跨平台/云数据治理。

大模型在数据处理流程中可以扮演多种角色,提高整个数据处理流程的效率和智能化水平。大模型将应用于以下方面:

智能调度策略

数据处理涉及复杂的任务调度,大模型可以分析历史作业执行情况、资源使用状况,从而预测未来的工作流需求,智能地调度任务和分配资源。减少延迟,提高整体处理速度,并优化资源利用率。

数据质量检测与清洗

在数据同步过程中,大模型可以辅助自动检测数据质量问题,比如识别异常值、缺失数据或不一致性。通过机器学习算法,模型可以学习数据特征,自动清洗和修正数据,确保数据同步后的质量。

智能数据分类与标签

对于需要分类或标签化的数据,大模型可以自动分析数据内容,对其进行分类或附加有意义的标签,特别是在多模态数据处理场景下,这对于后续的数据分析和应用至关重要。

自适应数据同步策略

根据网络状况、数据变化频率和业务需求,大模型可以帮助动态调整数据同步策略,比如选择最合适的同步频率、确定优先级高的数据流,以优化同步效率和减少带宽消耗。

自动化异常处理

在数据传输或处理过程中遇到异常时,大模型可以基于历史数据和模式识别,自动识别异常原因并触发相应的处理机制,减少人工干预,提高处理效率。

结语

DataOps不仅是一种技术实践,更是一种文化和思维方式。随着AI技术的不断进步,DataOps将继续推动企业数据管理和AI模型开发的创新和发展。

相关资源

白鲸开源官网:https://www.whaleops.com

Apache Dolphin Scheduler官网:https://dolphinscheduler.apache.org

Apache SeaTunnel官网:https://seatunnel.apache.org

作者介绍

代立冬

  • 白鲸开源科技联合创始人
  • Apache 孵化器导师
  • Apache DolphinScheduler PMC Chair
  • Apache SeaTunnel PMC
  • ApacheCon 亚洲大数据湖仓论坛出品人
  • 中国科协 “2023开源创新榜” 优秀人物

从数据到洞察:DataOps加速AI模型开发的秘密实践大公开!的更多相关文章

  1. 如何借助分布式存储 JuiceFS 加速 AI 模型训练

    传统的机器学习模型,数据集比较小,模型的算法也比较简单,使用单机存储,或者本地硬盘就足够了,像 JuiceFS 这样的分布式存储并不是必需品. 随着近几年深度学习的蓬勃发展,越来越多的团队开始遇到了单 ...

  2. Amazon SageMaker和NVIDIA NGC加速AI和ML工作流

    Amazon SageMaker和NVIDIA NGC加速AI和ML工作流 从自动驾驶汽车到药物发现,人工智能正成为主流,并迅速渗透到每个行业.但是,开发和部署AI应用程序是一项具有挑战性的工作.该过 ...

  3. LUSE: 无监督数据预训练短文本编码模型

    LUSE: 无监督数据预训练短文本编码模型 1 前言 本博文本应写之前立的Flag:基于加密技术编译一个自己的Python解释器,经过半个多月尝试已经成功,但考虑到安全性问题就不公开了,有兴趣的朋友私 ...

  4. CANN5.0黑科技解密 | 别眨眼!缩小隧道,让你的AI模型“身轻如燕”!

    摘要:CANN作为释放昇腾硬件算力的关键平台,通过深耕先进的模型压缩技术,聚力打造AMCT模型压缩工具,在保证模型精度前提下,不遗余力地降低模型的存储空间和计算量. 随着深度学习的发展,推理模型巨大的 ...

  5. Microsoft宣布为Power BI提供AI模型构建器,关键驱动程序分析和Azure机器学习集成

    微软的Power BI现在是一种正在大量结合人工智能(AI)的商业分析服务,它使用户无需编码经验或深厚的技术专长就能够创建报告,仪表板等.近日西雅图公司宣布推出几款新的AI功能,包括图像识别和文本分析 ...

  6. 让你的AI模型尽可能的靠近数据源

    来源:Redislabs作者:Pieter Cailliau.LucaAntiga翻译:Kevin (公众号:中间件小哥) 简介 今天我们发布了一个 RedisAI 的预览版本,预集成了[tensor ...

  7. AI加持的阿里云飞天大数据平台技术揭秘

    摘要:2019云栖大会大数据&AI专场,阿里云智能计算平台事业部研究员关涛.资深专家徐晟来为我们分享<AI加持的阿里云飞天大数据平台技术揭秘>.本文主要讲了三大部分,一是原创技术优 ...

  8. 最强云硬盘来了,让AI模型迭代从1周缩短到1天

    摘要:华为云擎天架构+ Flash-Native存储引擎+低时延CurreNET,数据存储和处理还有啥担心的? 虽然我们已经进入大数据时代,但多数企业数据利用率只有10%,数据的价值没有得到充分释放. ...

  9. 华为高级研究员谢凌曦:下一代AI将走向何方?盘古大模型探路之旅

    摘要:为了更深入理解千亿参数的盘古大模型,华为云社区采访到了华为云EI盘古团队高级研究员谢凌曦.谢博士以非常通俗的方式为我们娓娓道来了盘古大模型研发的"前世今生",以及它背后的艰难 ...

  10. 如何借助 JuiceFS 为 AI 模型训练提速 7 倍

    背景 海量且优质的数据集是一个好的 AI 模型的基石之一,如何存储.管理这些数据集,以及在模型训练时提升 I/O 效率一直都是 AI 平台工程师和算法科学家特别关注的事情.不论是单机训练还是分布式训练 ...

随机推荐

  1. JSONObject应用Json字符串和Object对象之间的转换,Map封装数据思路

    JSONObject应用Json字符串和Object对象之间的转换,Map封装数据思路 package com.example.core.mydemo.json5; import com.alibab ...

  2. C# .NET 常见DeepCopy 深度拷贝的性能对比

    先上结论 Method Mean Error StdDev Gen0 Gen1 Allocated JSONConvert 2,273.02 ns 43.758 ns 52.091 ns 0.6599 ...

  3. This app has crashed because it attempted to access privacy-sensitive data without a usage descripti

    运行环境 XCode 8.2.1 问题描述 当调取相册的时候APP崩溃并显示标题的错误:This app has crashed because it attempted to access priv ...

  4. Centos编译加载toa模块

    什么是toa模块 toa模块是为了让后端的realserver能够看到真实的clientip而不是lvs的dip 安装步骤 安装依赖包 yum -y install kernel-devel gcc ...

  5. Linux 内核:设备驱动模型 学习总结

    背景 其实之前就转载过别人针对Linux的设备驱动模型(Linux Device Driver Model,LDDM)的文章,但是受限于自身的能力,因此花了点时间重新学习了一下. 前人写的文章很好,我 ...

  6. Linux greybus

    背景 在研究高通平台驱动震动马达时,我需要为内核驱动实现以下功能:/sys/class/timed_output/vibrator/enable":sysfs文件系统注册接口.提供show. ...

  7. C# pythonnet(3)_Butter-worth低通滤波

    Python代码如下 import pandas as pd import numpy as np import matplotlib.pyplot as plt from scipy import ...

  8. FLUTTER 中 Isolate 的一个例子.

    isolate 起因 最近看了一点isolate的东西, 自己写了一个例子. 普通的的 consummer-producer例子是只有前后两端的,实际上,会把前后两端再进行包装. 我这里这个例子,是把 ...

  9. css3 html5

    vscode的使用 什么是HTML5? HTML5新增语义化标签 多媒体标签 <audio>音频标签 谷歌浏览器 把autoplay属性给我们禁用. 两种音频格式的播放 视频标签<v ...

  10. 推荐一款功能强大、界面优美的开源SSH跨平台终端软件WindTerm

    WindTerm是一款开源免费且功能强大的终端软件,相比 MobaXterm自带中文支持.无论是在Windows.macOS还是Linux操作系统上,WindTerm都能提供出色的性能和稳定性.Win ...