摘要:在华为全联接大会2022期间,华为正式官宣昇腾AI异构计算架构CANN 6.0版本将在年底正式发布。

本文分享自华为云社区《昇腾AI异构计算架构CANN 6.0全新开放升级,全面释放AI生产力》,作者: 昇腾CANN 。

在华为全联接大会2022期间,华为正式官宣昇腾AI异构计算架构CANN 6.0版本将在年底正式发布。

高度完善的生态满足度,满足全方位业务诉求

从2018年初露锋芒到2022年即将发布的CANN 6.0最新版本,CANN在使能AI开发效率和性能方面持续保持业界领先。作为昇腾生态的锚点,CANN 6.0版本基于发布全新升级的开发体系2.0,在性能、开放性及易用性上持续提升,在开源算法支持、自定义算子开发、动态shape场景支持等方面全方位满足AI开发者的诉求,不断提升生态满足度。

作为昇腾AI基础软硬件平台的核心,CANN搭起了从上层深度学习框架到底层AI硬件的桥梁,全面支持昇思MindSpore、飞桨(PaddlePaddle)、PyTorch、TensorFlow、Caffe、计图(Jittor)等主流AI框架,提供900多种优选模型能够覆盖众多典型场景应用,兼容多种底层硬件设备,提供强大异构计算能力。

为满足开发者多层次AI业务诉求,CANN提供统一的面向应用的编程语言AscendCL(Ascend Computing Language)屏蔽底层处理器差异,支持AI应用开发、模型开发和算子开发,版本向上兼容,让开发者零感知版本升级,畅享AI开发的便捷性。

同时,随着人工智能应用深入更多场景,图片大小、语音长短等动态数据输入的需求不断增加,CANN 6.0版本对动态shape的支持度不断提升,在新版本中,我们将会有400+算子支持动态shape,支持80%的主流算子,极大提高了AI场景生态满足度以匹配客户更多的AI业务场景。

打造极简易用算子开发体验,高效使能AI开发者

经过数年的积累和优化,CANN高性能算子库为支撑神经网络训练和推理加速而不断添砖加瓦,CANN 6.0版本已经发展到1400+高性能算子,可覆盖主流AI框架的算子加速需求。

算子库不仅支持高性能单算子执行加速,还支持入图技术,在图上通过算子融合减少计算节点和内存拷贝,进一步提升整网执行性能,以Bert网络为例,通过算子深度融合技术可将网络性能提高50%。CANN 6.0新发布的Transformer高性能加速库,针对网络典型结构精简80% kernel数,核心kernel性能提升50%-150%,可匹配昇腾全系列处理器支持NLP/CV类全场景Transformer网络,并且兼具简易的继承开发及上层框架使用等诸多优点。

CANN 6.0版本除了继续保持在典型模型上的性能优势外,还将重点在易用性方面进行提升。伴随算子自定义开发需求的增多,为了更加开放、高效的支持用户自开发,随新版本发布的开发体系2.0,在算子开发方面推出原生支持C/C++的算子开发语言,降低算子开发门槛,同时提供昇腾硬件亲和的数据结构,在保持性能的基础上提升用户自定义算子开发效率,使得算子开发效率得到倍级提升。

CANN 6.0版本将会提供包括11大类在内的70个DSL算子编程接口、新增11类算子调度策略,从而使能更多算子采用简单的DSL方式开发,算子库中DSL算子覆盖度可达80%。在开发易用性方面,开发者仅需完成计算过程表达,无需关心后续的Schedule创建、优化及编译等问题,因为这些操作将通过Auto Schedule自动调度接口快速完成。CANN同时支持算子Debug调试、一键生成工程代码、自动编译部署到算子库、简化算子交付件等功能,基于全流程解决开发者痛点,最大程度降低算子开发门槛。

持续提升模型开发效率,实现模型下载即用

CANN支持模型的自动化迁移、调测及智能调优,从真正意义上实现模型下载即用。CANN 6.0版本下,主流框架TensorFlow和PyTorch的模型迁移成功率可达80%以上,兼容主流三方库Horovod/Keras/DeepSpeed等。在此基础上还能方便地将那些随算法演进而开发的自定义kernal或function保留到框架侧执行,提升算法适配灵活度。

在模型调优方面,开发者不仅能借助一系列昇腾亲和API提升性能,还能通过智能化调优工具代替复杂的手工优化操作,CANN 6.0版本的平均调优效率将较上一代提升一倍以上。

全系列AI开发辅助工具,扫除AI开发重重障碍

作为一个全面使能AI开发的软件平台,CANN不但持续在AI模型适配、应用开发和算子开发方面给开发者带来便捷,更是从模型优化、系统分析、模型部署等多维度帮助开发者扫除重重障碍。

模型压缩工具AMCT,能有效降低模型数据量和计算量,节约模型内存和带宽占用,提升计算性能;智能计算调优工具AOE,其傻瓜式的自动寻优能力使得算法工程师从繁重的手工调优工作中解脱出来,并能够将调优进度和调优结果通过可视化方式直观展示;Profiling工具则能自动采集整网性能数据,通过统计视图识别最耗时算子,在CANN 6.0版本中,可自动生成性能优化建议,引导用户快速解决问题;精度比对工具,支持整网或指定层数据dump,CANN 6.0版本中进一步精简dump数据量,更有效的辅助开发者快速定位异常算子。

智能大潮,奔涌向前,CANN持续深入践行初心和使命,以大道至简的态度筑梦AI开发者!随着CANN 6.0版本的全新开放升级,必定带动更多伙伴及开发者基于昇腾AI和CANN的关键技术探索人工智能领域更多可能,点燃智慧创新热情,点亮智能美好生活,共同筑梦远方,共享行业数字未来!

点击关注,第一时间了解华为云新鲜技术~

CANN 6.0来了,硬核技术抢先看的更多相关文章

  1. 2.69分钟完成BERT训练!新发CANN 5.0加持

    摘要:快,着实有点快. 现在,经典模型BERT只需2.69分钟.ResNet只需16秒. 啪的一下,就能完成训练! 本文分享自华为云社区<这就是华为速度:2.69分钟完成BERT训练!新发CAN ...

  2. 我们建了一个 Golang 硬核技术交流群(内含视频福利)

    目录 目录 Golang 是什么? 我们为什么选择 Golang? Golang 是云时代的宠儿! 我们搞了一场 Golang 入门直播 Golang 是什么? Golang 是谷歌 2009 年发布 ...

  3. Android P新功能特性抢先看

    2018年3月8日,Google推出了Android P Preview版本,并提供官方镜像下载. 为了让广大开发者能够及时了解Android P的新功能特性,提前为您的app进行良好适配,WeTes ...

  4. 【转】OpenStack奥斯汀峰会Keynotes国内抢先看

    http://www.openstack.cn/?p=5341 OpenStack奥斯汀峰会Keynotes国内抢先看入口:http://www.tudou.com/home/_903780397/i ...

  5. Qt Creator 4.3.0,Quick Designer里面也看以同时看到和编辑qml code了(Qt5.9的配套IDE)

    作者:Summer Fang链接:https://www.zhihu.com/question/60486611/answer/177584284来源:知乎著作权归作者所有.商业转载请联系作者获得授权 ...

  6. Win10《芒果TV》送7天免费会员,邀您抢先看萌心自制《妈妈是超人3》

    <妈妈是超人>第三季萌心归来,霍思燕,贾静雯,黄圣依,邓莎联合释放"妈妈的声音",嗯哼,咘咘,波妞,安迪,大麟子五位萌娃共同出镜,萌化屏幕.Win10<芒果TV& ...

  7. Django 2.0 新特性 抢先看!

    一.Python兼容性 Django 2.0支持Python3.4.3.5和3.6.Django官方强烈推荐每个系列的最新版本. 最重要的是Django 2.0不再支持Python2! Django ...

  8. C# 8.0 抢先看-- Async Stream

    异步流? Async Stream 简单说来是一种非同步的迭代器模式,说更白一点就是可以await 的foreach.在过去的C# 中如果要回传一个可迭代的IEnumerable<T> , ...

  9. 小米死磕硬核技术,将扩招5000名工程师,多个领域会使用到C++

    小米MIDC大会2020在北京小米科技园召开,小米集团创始人.集团董事长兼CEO雷军宣布:"重视人才队伍的建设.人才是创新之源,提升技术实力的第一步,就是聚拢最顶尖的人才.小米2021年将在 ...

  10. GitHub 热点速览 Vol.34:亚马逊、微软开源项目带你学硬核技术

    作者:HelloGitHub-小鱼干 摘要:站在巨人的肩膀上才能看得更远,本周上榜的 computervision-recipes 便是典型代表,这个由微软开源的计算机视觉最佳实践项目,多次上 Git ...

随机推荐

  1. HTML DOM之三:节点关系导航

    1.获取节点列表 1 <!DOCTYPE html> 2 <html> 3 <body> 4 5 <p>Hello World!</p> 6 ...

  2. oceanbase 数据库SQL优化 (把你的脑袋当成CBO)

    OB一哥们找我优化条SQL,反馈在OceanBase存储过程执行时间很慢,需要626秒才能出结果,安排. INSERT INTO insurance_stat_sx (id, stat_date, c ...

  3. VMPFC可以融合既有的片段信息来模拟出将来的情感场景

    Ventromedial prefrontal cortex supports affective future simulation by integrating distributed knowl ...

  4. easyEZbaby_app

    for循环,这里给它化简255-i+2-98-未知数x需要等于'0'对应的ASCII值48,那么求x的值,x=111-i,而i的值就是从0到14,这样便可以计算出15位的密码 所以写出来的脚本

  5. React同构与极致的性能优化

    .markdown-body { line-height: 1.75; font-weight: 400; font-size: 16px; overflow-x: hidden; color: rg ...

  6. [MDP.NetCore] 使用AzureAD+服務主體,快速建立兩個服務之間的Service身分認證

    MDP.AspNetCore.Authentication.AzureAD.Services for Service Principal MDP.AspNetCore.Authentication.A ...

  7. (Good topic)卡牌分组(3.27leetcode每日打卡)

    给定一副牌,每张牌上都写着一个整数. 此时,你需要选定一个数字 X,使我们可以将整副牌按下述规则分成 1 组或更多组:  每组都有 X 张牌. 组内所有的牌上都写着相同的整数. 仅当你可选的 X &g ...

  8. Ubuntu 20.04 挂载局域网络共享硬盘

    创建挂载目录 mkdir /media/nas 创建认证文件.若无密码可以忽略这一步. sudo vim /root/.examplecredentials 按照以下格式写入用户名密码: userna ...

  9. A组Day7

    A. 放置石子 我们设第一格的东西为 \(x\) ,则接下来的格数为 \[2:1+x\\ 3:2x+1\\ 4:3x+2\\ 5:5x+3\\ ... \] 易得x的系数就是原来的斐波那契额数列,而后 ...

  10. 文心一言 VS 讯飞星火 VS chatgpt (138)-- 算法导论11.4 2题

    二.用go语言,试写出HASH-DELETE 的伪代码;修改 HASH-INSERT,使之能处理特殊值DELETED. 文心一言: 首先,让我们定义一个基本的哈希表数据结构.这个结构将包括一个存储键值 ...