从大数据到AI,华为云存储加速企业大模型快速应用
摘要:AI与大数据算法不断发展,在生产中的应用也越来越广,而应用的场景除了对算法,软件架构要求越来越高外,也对底层IaaS(基础设施即服务)提出了新的挑战。
AI与大数据算法不断发展,在生产中的应用也越来越广,而应用的场景除了对算法,软件架构要求越来越高外,也对底层IaaS(基础设施即服务)提出了新的挑战。在7月8日的华为云开发者大会2023(Cloud)-云原生分论坛“从大数据到AI,华为云存储加速企业大模型快速应用”上,华为云存储服务产品部部长林超、叮咚买菜技术副总裁周祥军、趣丸科技数据服务负责人黄强、华为云存储服务产品部高级架构师姚博士等嘉宾分别分享了他们的见解。
林超结合他对业界的洞察,提出了华为云对大数据与AI时代存储服务的定义:「具备存算分离能力,提供多级加速与海量数据存储能力的高性价比存储底座」

进入AI时代,存储面临诸多挑战
在训练场景,用于训练的数据越来越多,L2级自动驾驶训练就需要400PB路采数据,而L3级别自动驾驶训练所需的路采数据量更为惊人。随着训练的数据量成倍增加,训练时元数据预热时间也变得越来越长,2023年车厂在进行L3级别自动驾驶训练时每次元数据预热的时间超过10小时,GPU长时间空载,造成算力大量浪费,而且在训练时GPU集群需要已亚ms的速度不断读取数据进行训练,这对存储的性能也是极大的挑战。另外,由于当前AI训练是以GPU卡为核心展开的,而客户的GPU卡往往既在线下部署也在线上部署,如何快速高效的为多元化部署的GPU提供数据存储服务也是一件非常有挑战的事。
在推理场景,随着AI在生产生活中的使用越来越广泛,AI已经成为社会高效运转的必要环节,人们对AI处理的速度要求越来越高。当前AI大模型一般是通用大模型,缺乏行业Know How,在面对特定领域、行业的需求时往往无法给出最优解,这给大模型在行业适配落地带来了很大的困难。另外随着AIGC在内容生产的占比越来越高,AIGC所带来的法律、道德、合规风险越来越大,如果不加以管理,AI必将成为不良内容滋生的温床。
针对上述挑战,华为云提出了其应对方案:
在AI训练环节,数据经过采集、上云、预处理、标注进入模型训练环节,模型再通过数据仿真、模型评估、模型部署进入推理环节。
华为云存储首先通过OBS对象存储构建统一数据湖来承载EB级海量的训练数据,并通过基于多种存储规格的数据智能分级功能降低50%的存储成本。同时OBS通过Posix语义支持预处理等环节,从而减少整个训练环节中数据在不同类型存储中传输的次数,提升整体效率。
同时在模型训练的关键环节,GPU集群对存储的性能有着极高的要求,华为云存储通过SFS Turbo在OBS统一数据与GPU集群之间构建高效加速层,提升AI训练效率,通过高效加速层,原本需要上百小时的元数据预热时间被缩短至30分钟,有效减少了GPU空闲时间。同时在训练中的数据读取时延也降低到了亚毫秒级别,训练效率相比直接对接数据湖提升3倍以上。而且SFS Turbo支持贴近GPU在线上、线下多元化部署,满足数据就近加速的需求。
在推理阶段,华为云存储重点优化了推理成本、推理性能、行业落地、内容合规三个痛点
通过构建弹性缓存,推理过程不在需要通过增加GPU在扩展内存,从而达到将大模型装载到内存的目的,弹性缓存池可以按需提供高性能的缓存空间,满足大模型的加载需求。行业落地的痛点是解决行业Know How的问题,如果使用私域数据、行业数据等对大模型进行重新训练,那么高昂的成本和漫长的时间都是客户无法承担的,通过引入向量存储,相当于在大模型的外面增加了行业Know How的外挂,无需重新训练大模型即可满足行业需求,而且部分问题在向量存储中即可闭环,无需推理,使得整个推理性能大幅提升100倍,而成本却降低了10倍。另外华为DWR数据工坊提供了全面的内容审核服务,可以确保AI推理所输出的内容满足合规要求,避免了由于使用AI带来的业务风险。
随后,叮咚买菜技术副总裁周祥军、趣丸科技数据服务负责人黄强、华为云存储服务产品部高级架构师姚博士也分别演讲了自己的见解。
周祥军的演讲主题为“云上叮咚,用科技让人们吃得好,让生活更美好”,在此议题中,他分享了叮咚买菜在华为云上的大数据能力建设案例,叮咚买菜通过运筹优化车辆线路调度,最终实现了品质确定、品类确定、时间确定的“人、货、运、仓”全链路数字化。

黄强分享了趣丸科技大数据+云原生加持下的用户运营系统建设,趣丸科技为解决用户运营过程中的触点多、数据量大、不确定性高和个性化诉求强的问题,最终利用大数据与云原生技术,提高了运营效率,保障了运营质量。

姚博士则从技术架构角度解读了华为云存储的一站式数据管理、存储、加速方案。华为云通过SFS Turbo与OBS联动提供了大容量、高可靠、低成本的数据持久化层和高效的缓存加速层。作为AI训练加速器的SFS Turbo通过MDS Turbo、CAT Cache和全路径软硬件优化的极致时延数据流传,最终实现了百万级 IOPS 的元数据加速,降低了训练过程中训练数据和checkpoint的读写时延,解决了百亿小文件的预热与数据加载加速问题。
从大数据到AI,华为云存储加速企业大模型快速应用的更多相关文章
- 大数据与 AI 生态中的开源技术总结
本文由云+社区发表 作者:堵俊平 在数据爆炸与智能革命的新时代,新的平台与应用层出不穷,开源项目推动了前沿技术和业界生态快速发展.本次分享将以技术和生态两大视角来看大数据和人工智能技术的发展,通过分析 ...
- 新的一年,来看看大数据与AI的未来展望
本文由云+社区发表 作者:堵俊平 在数据爆炸与智能革命的新时代,新的平台与应用层出不穷,开源项目推动了前沿技术和业界生态快速发展.本次分享将以技术和生态两大视角来看大数据和人工智能技术的发展,通过分析 ...
- 《一张图看懂华为云BigData Pro鲲鹏大数据解决方案》
8月27日,华为云重磅发布了业界首个鲲鹏大数据解决方案--BigData Pro.该方案采用基于公有云的存储与计算分离架构,以可无限弹性扩容的鲲鹏算力作为计算资源,以支持原生多协议的OBS对象存储服务 ...
- CSDN专访:大数据时代下的商业存储
原文地址:http://www.csdn.net/article/2014-06-03/2820044-cloud-emc-hadoop 摘要:EMC公司作为全球信息存储及管理产品方面的领先公司,不久 ...
- CSDN专訪:大数据时代下的商业存储
原文地址:http://www.csdn.net/article/2014-06-03/2820044-cloud-emc-hadoop 摘要:EMC公司作为全球信息存储及管理产品方面的率先公司,不久 ...
- 智慧金融时代,大数据和AI如何为业务赋能
前言:宜信技术人物专访是宜信技术学院推出的系列性专题,我们邀请软件研发行业的优秀技术人,分享自己在软件研发领域的实践经验和前瞻性观点. 第一期专访我们邀请到宜信科技中心AI中台负责人王东老师,从大数据 ...
- 大数据、AI“武装”企业服务:风控、检索、安全
大数据.AI“武装”企业服务:风控.检索.安全 小饭桌创业课堂2017-05-06 15:26:42阅读(127)评论(0) + - 文|吴杨可月 - - 小饭桌创业研究院出品 - 两件秘闻,将美国大 ...
- 服务端、实时、大数据、AI计算
服务端.实时.大数据.AI计算,各种各样的计算,计算机本质是什么,计算机的本质是 利用compute的计算速度为人提供更优的计算结果. 所以实时也好,准实时.离线.AI本质上是两个维度,实时准实时强调 ...
- 大数据和AI怎么与现代教育相结合?
大数据和AI怎么与现代教育相结合? 比尔·盖茨曾预言,"5年以后,你将可以在网上免费获取世界上最好的课程,而且这些课程比任何一个单独大学提供的课程都要好." 现在看来,虽然并不是每 ...
- GIS-"地理空间大数据与AI的碰撞"学习笔记
1.关系 人工智能>机器学习>神经网络>深度学习 2.机器学习-两个过程 训练/学习过程:样本数据.学习器.模型参数 测试/预测过程:预测.预测值 3.神经网络 机器学习模拟人脑神经 ...
随机推荐
- unity利用Rigibody实现第一人称移动
1. CameraRotation脚本,将它给MainCamera,实现上下视角旋转 using System.Collections; using System.Collections.Generi ...
- 如何在Excel中实现三联类模板?
本文由葡萄城技术团队原创并首发.转载请注明出处:葡萄城官网,葡萄城为开发者提供专业的开发工具.解决方案和服务,赋能开发者. 前言 在一些报表打印应用场景中,会有类似于如下图所示的排版格式: 一般情况下 ...
- (Good topic)字符串的最大公因子 (3.21leetcode每日打卡)
对于字符串 S 和 T,只有在 S = T + ... + T(T 与自身连接 1 次或多次)时,我们才认定 "T 能除尽 S". 返回最长字符串 X,要求满足 X 能除尽 s ...
- P2360 地下城主
题目大意 背景是逃离\(3D\)地下监狱,也就是三维样例,你可以前往所在小格的前方,后方,左方,右方,上层,下层的小格,'.'表示可走,'x'表示墙壁,'S'表示起点,'E'表示终点.每走一小格花费一 ...
- 【vue】【外包杯】jtl和html文件的区别
ftl(freemaker) jsp(jstl) 举例:html ftl
- Android学习day02【页面布局的练习】
在网上找了一些图片,只用最简单的颜色进行区分,目的是熟悉线性布局和相对布局 下面是我找到的简单的Android页面,你也可以尝试以下' 下面是我的实现代码 第一个
- notify为什么会引发超时,notify和notifyAll的区别
notify为什么会引发超时,notify和notifyAll的区别 每个同步对象都有对应的monitor,首先了解下monitor的内部结构. 1.monitor结构 Owner:指向拥有该同步对象 ...
- 做数据分析,我们需要懂多少excel知识?
数据分析所需的Excel知识详解 在进行数据分析工作时,Excel是一个非常常用且强大的数据处理工具.以下是数据分析中常用的Excel知识点和技巧的详细描述. 1. 基本操作 在使用Excel进行数据 ...
- MAUI+Masa Blazor APP 各大商店新手发布指南-华为篇
目录 前言 准备材料 一.企业认证 二.审核资料 审核注意事项 总结 前言 AppGallery Connect(简称AGC)是华为应用市场推出的应用一站式服务平台,致力于为开发者提供应用创意.开发. ...
- stm32存储器:Flash
先擦除后写入,stm32内置flash擦或写时,必须打开外部/内部高速振荡器. 擦除操作 以页为单位,每页1024个字节 起始地址0x0800 0000 擦写时要避开用户程序存储区 最多擦写10万次 ...