摘要:AI与大数据算法不断发展,在生产中的应用也越来越广,而应用的场景除了对算法,软件架构要求越来越高外,也对底层IaaS(基础设施即服务)提出了新的挑战。

AI与大数据算法不断发展,在生产中的应用也越来越广,而应用的场景除了对算法,软件架构要求越来越高外,也对底层IaaS(基础设施即服务)提出了新的挑战。在7月8日的华为云开发者大会2023(Cloud)-云原生分论坛“从大数据到AI,华为云存储加速企业大模型快速应用”上,华为云存储服务产品部部长林超、叮咚买菜技术副总裁周祥军、趣丸科技数据服务负责人黄强、华为云存储服务产品部高级架构师姚博士等嘉宾分别分享了他们的见解。

林超结合他对业界的洞察,提出了华为云对大数据与AI时代存储服务的定义:「具备存算分离能力,提供多级加速与海量数据存储能力的高性价比存储底座」

进入AI时代,存储面临诸多挑战

在训练场景,用于训练的数据越来越多,L2级自动驾驶训练就需要400PB路采数据,而L3级别自动驾驶训练所需的路采数据量更为惊人。随着训练的数据量成倍增加,训练时元数据预热时间也变得越来越长,2023年车厂在进行L3级别自动驾驶训练时每次元数据预热的时间超过10小时,GPU长时间空载,造成算力大量浪费,而且在训练时GPU集群需要已亚ms的速度不断读取数据进行训练,这对存储的性能也是极大的挑战。另外,由于当前AI训练是以GPU卡为核心展开的,而客户的GPU卡往往既在线下部署也在线上部署,如何快速高效的为多元化部署的GPU提供数据存储服务也是一件非常有挑战的事。

在推理场景,随着AI在生产生活中的使用越来越广泛,AI已经成为社会高效运转的必要环节,人们对AI处理的速度要求越来越高。当前AI大模型一般是通用大模型,缺乏行业Know How,在面对特定领域、行业的需求时往往无法给出最优解,这给大模型在行业适配落地带来了很大的困难。另外随着AIGC在内容生产的占比越来越高,AIGC所带来的法律、道德、合规风险越来越大,如果不加以管理,AI必将成为不良内容滋生的温床。

针对上述挑战,华为云提出了其应对方案:

在AI训练环节,数据经过采集、上云、预处理、标注进入模型训练环节,模型再通过数据仿真、模型评估、模型部署进入推理环节。

华为云存储首先通过OBS对象存储构建统一数据湖来承载EB级海量的训练数据,并通过基于多种存储规格的数据智能分级功能降低50%的存储成本。同时OBS通过Posix语义支持预处理等环节,从而减少整个训练环节中数据在不同类型存储中传输的次数,提升整体效率。

同时在模型训练的关键环节,GPU集群对存储的性能有着极高的要求,华为云存储通过SFS Turbo在OBS统一数据与GPU集群之间构建高效加速层,提升AI训练效率,通过高效加速层,原本需要上百小时的元数据预热时间被缩短至30分钟,有效减少了GPU空闲时间。同时在训练中的数据读取时延也降低到了亚毫秒级别,训练效率相比直接对接数据湖提升3倍以上。而且SFS Turbo支持贴近GPU在线上、线下多元化部署,满足数据就近加速的需求。

在推理阶段,华为云存储重点优化了推理成本、推理性能、行业落地、内容合规三个痛点

通过构建弹性缓存,推理过程不在需要通过增加GPU在扩展内存,从而达到将大模型装载到内存的目的,弹性缓存池可以按需提供高性能的缓存空间,满足大模型的加载需求。行业落地的痛点是解决行业Know How的问题,如果使用私域数据、行业数据等对大模型进行重新训练,那么高昂的成本和漫长的时间都是客户无法承担的,通过引入向量存储,相当于在大模型的外面增加了行业Know How的外挂,无需重新训练大模型即可满足行业需求,而且部分问题在向量存储中即可闭环,无需推理,使得整个推理性能大幅提升100倍,而成本却降低了10倍。另外华为DWR数据工坊提供了全面的内容审核服务,可以确保AI推理所输出的内容满足合规要求,避免了由于使用AI带来的业务风险。

随后,叮咚买菜技术副总裁周祥军、趣丸科技数据服务负责人黄强、华为云存储服务产品部高级架构师姚博士也分别演讲了自己的见解。

周祥军的演讲主题为“云上叮咚,用科技让人们吃得好,让生活更美好”,在此议题中,他分享了叮咚买菜在华为云上的大数据能力建设案例,叮咚买菜通过运筹优化车辆线路调度,最终实现了品质确定、品类确定、时间确定的“人、货、运、仓”全链路数字化。

黄强分享了趣丸科技大数据+云原生加持下的用户运营系统建设,趣丸科技为解决用户运营过程中的触点多、数据量大、不确定性高和个性化诉求强的问题,最终利用大数据与云原生技术,提高了运营效率,保障了运营质量。

姚博士则从技术架构角度解读了华为云存储的一站式数据管理、存储、加速方案。华为云通过SFS Turbo与OBS联动提供了大容量、高可靠、低成本的数据持久化层和高效的缓存加速层。作为AI训练加速器的SFS Turbo通过MDS Turbo、CAT Cache和全路径软硬件优化的极致时延数据流传,最终实现了百万级 IOPS 的元数据加速,降低了训练过程中训练数据和checkpoint的读写时延,解决了百亿小文件的预热与数据加载加速问题。

点击关注,第一时间了解华为云新鲜技术~

从大数据到AI,华为云存储加速企业大模型快速应用的更多相关文章

  1. 大数据与 AI 生态中的开源技术总结

    本文由云+社区发表 作者:堵俊平 在数据爆炸与智能革命的新时代,新的平台与应用层出不穷,开源项目推动了前沿技术和业界生态快速发展.本次分享将以技术和生态两大视角来看大数据和人工智能技术的发展,通过分析 ...

  2. 新的一年,来看看大数据与AI的未来展望

    本文由云+社区发表 作者:堵俊平 在数据爆炸与智能革命的新时代,新的平台与应用层出不穷,开源项目推动了前沿技术和业界生态快速发展.本次分享将以技术和生态两大视角来看大数据和人工智能技术的发展,通过分析 ...

  3. 《一张图看懂华为云BigData Pro鲲鹏大数据解决方案》

    8月27日,华为云重磅发布了业界首个鲲鹏大数据解决方案--BigData Pro.该方案采用基于公有云的存储与计算分离架构,以可无限弹性扩容的鲲鹏算力作为计算资源,以支持原生多协议的OBS对象存储服务 ...

  4. CSDN专访:大数据时代下的商业存储

    原文地址:http://www.csdn.net/article/2014-06-03/2820044-cloud-emc-hadoop 摘要:EMC公司作为全球信息存储及管理产品方面的领先公司,不久 ...

  5. CSDN专訪:大数据时代下的商业存储

    原文地址:http://www.csdn.net/article/2014-06-03/2820044-cloud-emc-hadoop 摘要:EMC公司作为全球信息存储及管理产品方面的率先公司,不久 ...

  6. 智慧金融时代,大数据和AI如何为业务赋能

    前言:宜信技术人物专访是宜信技术学院推出的系列性专题,我们邀请软件研发行业的优秀技术人,分享自己在软件研发领域的实践经验和前瞻性观点. 第一期专访我们邀请到宜信科技中心AI中台负责人王东老师,从大数据 ...

  7. 大数据、AI“武装”企业服务:风控、检索、安全

    大数据.AI“武装”企业服务:风控.检索.安全 小饭桌创业课堂2017-05-06 15:26:42阅读(127)评论(0) + - 文|吴杨可月 - - 小饭桌创业研究院出品 - 两件秘闻,将美国大 ...

  8. 服务端、实时、大数据、AI计算

    服务端.实时.大数据.AI计算,各种各样的计算,计算机本质是什么,计算机的本质是 利用compute的计算速度为人提供更优的计算结果. 所以实时也好,准实时.离线.AI本质上是两个维度,实时准实时强调 ...

  9. 大数据和AI怎么与现代教育相结合?

    大数据和AI怎么与现代教育相结合? 比尔·盖茨曾预言,"5年以后,你将可以在网上免费获取世界上最好的课程,而且这些课程比任何一个单独大学提供的课程都要好." 现在看来,虽然并不是每 ...

  10. GIS-"地理空间大数据与AI的碰撞"学习笔记

    1.关系 人工智能>机器学习>神经网络>深度学习 2.机器学习-两个过程 训练/学习过程:样本数据.学习器.模型参数 测试/预测过程:预测.预测值 3.神经网络 机器学习模拟人脑神经 ...

随机推荐

  1. 再学Blazor——扩展方法

    上篇提到 Blazor 组件的高级写法,是采用扩展方法对 HTML 元素和组件进行扩展,以便于书写组件结构和代码阅读.本篇主要介绍扩展方法实现的思路. 什么是扩展方法 要扩展哪个类 扩展方法的实现 1 ...

  2. [ABC216G] 01Sequence 题解

    01Sequence 题目大意 构造一个满足 \(m\) 个形如 \((l,r,x)\) 的限制条件的 \(01\) 序列,其中 \((l,r,x)\) 表示区间 \([l,r]\) 的和不小于 \( ...

  3. 动态规划 DP 的一些笔记以及解题思路

    万物的开始,首先介绍一下动态规划(dynamic programming,DP)的基本概念:动态规划适用于有重叠子问题和最优子结构性质的问题,并且记录所有子问题的结果,因此动态规划方法耗费时间远远少于 ...

  4. Vue之键盘事件

    1.使用keydown触发事件 <!DOCTYPE html> <html lang="en"> <head> <meta charset ...

  5. 关于STM32F407ZGT6的USB损坏后使用ST-Link和USART1实现串口功能

    开发板:STM32F407ZGT6: 目标:想使用软件"串口调试助手" 情况:开发板上的USB_UART口所在器件损坏或者直接没有: 解决办法:查看该开发板的原理图,可得:串口1的 ...

  6. AttributeError: module 'sqlalchemy' has no attribute '__all__'

    升级组件 pip install --upgrade flask-sqlalchemy

  7. Markdown使用心得(简单用法解析)

    Markdown使用心得(简单用法解析) Markdown的优势 个人看来,MD的优势在于脱离对鼠标的依赖,在简单的熟悉后,从段落格式到字体特效的实现都可以完全脱离鼠标.避免了为了格式和艺术效果多次将 ...

  8. 让 keil MDK 支持C99

    打开options fot target-> C/C++ 在 Misc Controls 中添加 --c99.

  9. NLP文本生成全解析:从传统方法到预训练完整介绍

    本文深入探讨了文本生成的多种方法,从传统的基于统计和模板的技术到现代的神经网络模型,尤其是LSTM和Transformer架构.文章还详细介绍了大型预训练模型如GPT在文本生成中的应用,并提供了Pyt ...

  10. Python入门--字符串

    字符串的使用和C语言 .java中一致 .使用" "(双引号)并且字符串可以与数字相乘,表示我使用这个字符串次数 字符串的连接:'+' Python中的变量直接赋值即可 ,如果赋予 ...