摘要:AI进入产业的门槛变高,开发者想要做出优秀的AI模型就不得不在算力和成本之间折中,怎么办?

为帮助企业在AI落地过程中进一步实现降本增效,华为云推出AI黑科技——弹性训练。

今年,AI界最被热议的当属OpenAI最新发布的GPT-3模型,作为迄今为止发布的最大自然语言处理(NLP)转换器,它的模型参数有1750亿个,使用了45TB的数据,算力要求为3640pfs-day,训练费用高达1200万美金。

如果AI开发者想要使用大数据来训练模型,就需要超强的算力,同时不得不支付高昂的训练费用。这就导致AI进入产业的门槛变高,开发者想要做出优秀的AI模型就不得不在算力和成本之间折中。

一方面,在预算投入有限的情况下,AI开发者只能使用较弱的算力,从而造成AI服务开发的滞后。另外一方面,对于云厂商来说,由于用户使用时间和规模的灵活性,经常会存在空闲的计算资源没有被使用,造成浪费。华为云AI黑科技弹性训练动态缩减和扩展节点,很好地解决了AI开发者算力不足和云厂商算力空闲的矛盾。

灵活调配算力资源,弹性训练为AI开发降本增效

华为云弹性训练方案实时监控资源池的算力情况,如果有空闲的计算资源,会把该资源分配给正在训练中的弹性作业,提高该训练作业的算力,从而使该训练作业快速收敛。在有新任务提交时,华为云弹性训练方案又会根据资源池空闲资源和弹性作业的使用情况,把资源回收后给新起的任务,保证新的训练的快速效应。

弹性训练流程

弹性训练可以根据模型训练速度的要求,自适应匹配最佳资源数。具体在产品上,它提供两种模式。

一是Turbo模式,可以充分利用空闲资源加速已有训练作业,在大多数典型场景下加速效率大于80%,训练速度提升10倍,并且不会影响模型收敛精度。

二是Economic模式,可以通过最大化资源利用率,给开发者提供极致的性价比,在大多数典型场景下可以提升性价比30%以上。

工程和算法多个维度优化,降低模型训练难度

华为云弹性训练方案需要解决多个复杂的分布式训练问题:如何实现动态多次弹性后训练的收敛过程和收敛结果和普通非弹性训练等价一致、如何保证弹性过程中优雅切换、如何解决混部等场景中straggler拖累系统性能、如何使用户减少代码修改、如何选择合适的通信框架从而减少梯度汇聚时间。华为云弹性训练方案从工程和算法多个维度进行优化,解决了上述问题,实现了训练的准确率不降低、加速比理想。

具体来说,华为云弹性训练方案具有易用、高效、优雅的训练框架和等价的训练过程,普惠的强大算力、高利用率的云资源四大优势。

易用、高效、优雅的训练框架

华为云的弹性训练基于易用高效的训练框架,用户只需要根据要求,简单的修改代码,就可以满足弹性训练的要求。

弹性训练框架支持NCCL通信,支持all_reduce或点对点的组网模式,可以高效的进行梯度聚合,因此有很好的加速性能。

同时,它也支持多GPU/NPU性能监控,支持基于每个GPU/NPU的性能进行训练负载动态调整,在混部等多GPU/NPU性能不均衡的场景下,依然具有很好的性能。

除此之外,弹性训练框架可以保证弹性过程是优雅的。弹性训练过程中涉及到节点数的变多和变少。在节点数变多时,它可以保证老节点在新节点切入前正常训练,新节点在准备好平滑的切入训练,因此不需要老节点长时间等待。在节点数变少时,弹性训练框架可以让释放的节点平滑退出。

等价的训练过程

弹性训练过程节点数是动态变化的,在弹性的动态过程中如何调整训练超参,保证模型的收敛是一个巨大的挑战。华为云的弹性训练方案在理论上可以保证,在初始设置正确的训练超参后,节点在弹性过程中变多或变小时,训练的模型的收敛过程和结果是一致的。因此用户在使用训练方案时,不需要因为弹性而引入过于复杂的超参调整策略,另外也不需要担心弹性的引入对收敛结果造成影响。等价训练过程让用户可以放心的使用弹性训练。

普惠的强大算力

相比传统的直接购买确定的算力方案,AI开发者在投入很少的情况下,可以获得巨大的算力。用户提起弹性训练作业后,在训练过程中可以获得华为云中空闲的运算资源,算力迅速增强,因此在较短的时间内就可以把训练跑完,从而实现高频的训练迭代、快速的服务上线变现。弹性方案真正让用户实现了用得起。

高利用率的云资源

传统的资源强化定制方案,导致无法盘活空闲资源,不能根据实时资源使用情况,动态调整已经训练的作业。因此在传统方案中,经常会出现训练任务算力不足、耗时漫长的同时资源池中大量资源闲置的矛盾局面。

相比之下,华为云弹性训练方案具有极大的灵活性。基于弹性训练方案,华为云实时监控资源池中资源的情况,动态调整弹性训练作业的算力情况,当资源池中有空闲资源时,就将空闲资源分配给训练作业,保证资源的充分利用。

在弹性方案确定后,华为云的弹性训练方案自动监控调整,无需人为参与,方便高效。该方案满足了云服务商充分利用算力资源的需求和AI开发者的诉求,实现了双赢。

弹性训练方案应用前景广阔

随着数据的爆发式增长,AI进入行业当中越发需要大算力的支撑来处理大数据。未来,弹性训练方案具有广阔的应用空间。使用华为云的弹性训练方案在ImageNet(大型可视化数据库 )上训练resent50模型。在开始时使用1节点训练模型,在有空闲资源后,将训练节点调整为16,此时的线性加速比为10。在训练60个epoch后top1 accuracy为76.1%。精度保持一致的情况下,华为云的弹性训练方案使收敛速度快了9倍。

华为云一直秉持着“将简单留给开发者,复杂留给华为云”的理念。华为云AI不断迭代创新,推出黑科技功能,加速AI进入产业,落地实际场景,让千行百业共享AI技术红利。

点击关注,第一时间了解华为云新鲜技术~

ModelArts黑科技揭秘|弹性训练,让训练资源张弛有度的更多相关文章

  1. “体检医生”黑科技|让AI开发更精准,ModelArts更新模型诊断功能

    摘要:华为云AI开发平台ModelArts黑科技加持AI研发,让模型开发更高效.更简单,降低AI在行业的落地门槛.全面的可视化评估以及智能诊断功能,使得开发者可以直观了解模型各方面性能,从而进行针对性 ...

  2. MTSC2019-腾讯WeTest独家揭秘移动游戏测试和质量保障 QA 黑科技

    WeTest 导读 TesterHome 联合腾讯 WeTest 出品 MTSC2019 重磅游戏测试 Topic ,首次公开揭秘腾讯亿级用户游戏背后的质量保障 QA 黑科技. 2019 年,中国游戏 ...

  3. [转帖]新iPhone的黑科技:UWB技术揭秘

    新iPhone的黑科技:UWB技术揭秘 http://blog.nsfocus.net/iphone-black-technology-uwb-technology-revealed/    阅读:  ...

  4. 国庆出游神器:魔幻黑科技换天造物,让vlog秒变科幻大片!

    摘要:国庆旅游景点人太多,拍出来的照片全是人人人.车车车,该怎么办?不妨试试这个黑科技,让你的出游vlog秒变科幻大片. 本文分享自华为云社区<国庆出游神器,魔幻黑科技换天造物,让vlog秒变科 ...

  5. 【转载】史上最全:TensorFlow 好玩的技术、应用和你不知道的黑科技

    [导读]TensorFlow 在 2015 年年底一出现就受到了极大的关注,经过一年多的发展,已经成为了在机器学习.深度学习项目中最受欢迎的框架之一.自发布以来,TensorFlow 不断在完善并增加 ...

  6. MIT 黑科技:通过脑电波和手势控制机器人

    简评:麻省理工黑科技,虽然现在能实现的操作还很简单,但前景(想象空间)非常巨大. 通常,控制机器人并不容易,常规手段就是编程.但是地球上从来不缺天马行空的科学家,今日 MIT 的计算机科学与人工智能实 ...

  7. 转:lightGBM的黑科技--plot函数

    本来想研究一下lightGBM的plotting相关的接口,发现网上已经有人做了,而且还挺不错的(lightGBM的黑科技--plot函数),就直接给转过来了 # -*- coding: utf-8 ...

  8. 聊聊H5与JS近几年的黑科技

    聊聊H5与JS近几年的黑科技 自ajax技术的诞生,编程界兴起了一股WEB开发热,facebook,Twitter等众多大佬级企业都在网页应用上大放异彩,这十年我们见证了前端技术的崛起.这期间产生了众 ...

  9. 机器学习在入侵检测方面的应用 - 基于ADFA-LD训练集训练入侵检测判别模型

    1. ADFA-LD数据集简介 ADFA-LD数据集是澳大利亚国防学院对外发布的一套主机级入侵检测数据集合,包括Linux和Windows,是一个包含了入侵事件的系统调用syscall序列的数据集(以 ...

  10. 带你了解S12直播中的“黑科技”

    摘要:让精彩更流畅.让较量更清晰.让参与更沉浸.让体验更有趣,幕后的舞台,从来都是技术的战场,S12背后的名场面同样场场高能. 本文分享自华为云社区<用硬核方式打开S12名场面>,作者:华 ...

随机推荐

  1. 关于fdisk -l

    摘取:https://blog.csdn.net/digitalkee/article/details/104226846 # fdisk -l Disk /dev/hda: 160.0 GB, 16 ...

  2. AI图形算法之一:液位计识别

    AI人工智能的主要应用之一就是图形化处理和识别,之前写了两篇,分别是: AI图形算法的应用之一:通过图片模板对比发现油田漏油 AI图形算法的应用之一:仪表识别 经过几个晚上的辛苦,液位计识别也测试成功 ...

  3. ABC318 A-G 题解

    A 枚举 \(1\sim n\) 的每个数,判断是否有 \(i-M\equiv 0\pmod P\) 即可. 赛时代码 B 暴力覆盖即可,注意 \(x,y\) 均是左开右闭. 赛时代码 C 贪心的想, ...

  4. 手撕Vue-实现事件相关指令

    经过上一篇文章的学习,实现了界面驱动数据更新,接下来实现一下其它相关的指令,比如事件相关的指令,v-on 这个指令的使用频率还是很高的,所以我们先来实现这个指令. v-on 的作用是什么,是不是可以给 ...

  5. Vue之事件冒泡

    1. 原生事件冒泡 <!DOCTYPE html> <html lang="en"> <head> <meta charset=" ...

  6. 飞码LowCode前端技术系列(二):如何便捷配置出页面 | 京东云技术团队

    一.配置解法 飞码LowCode前端技术(一)中飞码提出了至少需要满足2个大能力点以及对应16个细化点.在业务复杂的场景下数据具有流转性质,事件的触发会改变数据.同时也会触发其他事件等情况.飞码使用数 ...

  7. RLChina2022公开课-博弈搜索算法

    序列决策 序列决策问题一般用马尔可夫决策模型进行描述 搜索算法的优化

  8. P4022 [CTSC2012]熟悉的文章 题解

    题目链接 简要题意 给定 \(m\) 个模板串和 \(n\) 个匹配串,如果一个字符串是一个模板串的子串且长度不小于 \(L\) 则称其为"熟悉的",对于每个匹配串,求一个最大的 ...

  9. HTML DOM之二:事件

    对事件作出反应 当事件发生时,可以执行 JavaScript,比如当用户点击一个 HTML 元素时. 如需在用户点击某个元素时执行代码,请把 JavaScript 代码添加到 HTML 事件属性中: ...

  10. 一次完整的Http请求过程(转)

    一次完整的Http请求过程 在网上看了很多关于http完整流程的介绍文档,都讲的很不错,但是还是各有缺失,所以自己就根据学习及理解整理了一张图,给大家分享下http一次完整的交互流程,只是大概画了下流 ...