NNVM AI框架编译器
NNVM AI框架编译器
深度学习已变得无处不在且不可或缺。看到对在多种平台(例如手机,GPU,IoT设备和专用加速器)上部署深度学习工作负载的需求不断增长。TVM堆栈弥合深度学习框架与面向性能或效率的硬件后端之间的鸿沟。TVM堆栈使为深度学习框架轻松构建端到端编译变得容易。拥有适用于所有框架的统一解决方案更好。
NNVM编译器是一种开放式深度学习编译器,用于将前端框架工作负载直接编译到硬件后端。使用TVM堆栈中的两级中间表示(IR)来构建。可以参考原始的TVM公告,以获取有关TVM堆栈的更多技术细节。借助TVM堆栈,NNVM编译器可以:
- 在高级图IR中表示并优化常见的深度学习工作负载
- 转换计算图以最大程度地减少内存利用率,优化数据布局并融合不同硬件后端的计算模式。
- 提出从前端深度学习框架到裸机硬件的端到端编译管道。
NNVM编译器可以直接从深度学习框架(例如Apache MXNet)中获取模型。支持模型交换格式,例如ONNX和CoreML。ONNX支持使NNVM能够从PyTorch,Caffe2和CNTK编译深度学习模型。CoreML前端支持将CoreML模型部署到非iOS设备。
优化与部署分离
NNVM编译器应用图级和张量级优化,并共同优化它们以获得最佳性能。采用与现有深度学习框架不同的方法,后者将图形优化与部署运行时打包在一起。NNVM编译器采用了编译器的传统知识,将优化与实际部署运行时分开。这种方法提供了实质性的优化,但仍使运行时轻量级。编译后的模块仅取决于最小的TVM运行时,部署在Raspberry Pi或移动设备上时仅需300KB左右。
性能
NNVM编译器仍在积极开发中,可以期待会有更多的改进,但是已经开始看到令人鼓舞的结果。对它的性能进行了基准测试,并在两种典型的硬件配置上将其与Apache MXNet进行了比较:Raspberry PI上的ARM CPU和AWS上的Nvidia GPU。尽管这两款芯片在架构上存在根本差异,但可以使用相同的基础架构,只需要更改每种硬件的调度即可。
Nvidia GPU
GPU基准和调度将NNVM编译器与Apache MXNet与CUDA8和cuDNN7作为Nvidia K80的后端进行了比较。这是一个非常强大的基准,因为Apache MXNet会打开自动调整功能,以从CuDNN中选择最佳内核。使用了MXNet中优化的深度智能内核来优化MobileNet工作负载。
可以看出,NNVM编译器生成的代码胜过K80上的Apache MXNet。这些改进归因于联合图级别和内核级别的优化。值得注意的是,NNVM编译器可自行生成所有优化的GPU内核,而无需依赖诸如CuDNN之类的外部库。
树莓派3b
Rasberry Pi编译堆栈将NNVM编译器与带有OpenBLAS和NNPack的Apache MXNet进行了比较。探索了使MXNet发挥最佳性能的设置:为3x3卷积打开了NNPACK中的Winograd卷积,启用了多线程,并禁用了其他调度程序线程(因此,所有线程都被NNPack使用)。
可以看出,在ResNet18上,NNVM编译器生成的代码快两倍。MobileNet上的差距主要是由于现有CPU DNN库中缺乏深度卷积。NNVM编译器利用直接直接生成有效的ARM代码的优势。
在构建NNVM编译器时,包含以下项目内容。
- Theano:可能是最早的深度学习编译器
- Halide:TVM使用HalideIR作为数据结构,以简化数学运算和降低 low level lowering.。HalideIR衍生自Halide。当在TVM中实施降低流程the lowering pipeline时,参考了Halide结构。
- Loopy:使用整数集分析及其循环转换原语。
NNVM AI框架编译器的更多相关文章
- NNVM Compiler,AI框架的开放式编译器
NNVM Compiler,AI框架的开放式编译器 深度学习已变得无处不在且不可或缺.在多种平台(例如手机,GPU,IoT设备和专用加速器)上部署深度学习工作负载的需求不断增长.宣布了TVM堆栈,以弥 ...
- AI框架精要:设计思想
AI框架精要:设计思想 本文主要介绍飞桨paddle平台的底层设计思想,可以帮助用户理解飞桨paddle框架的运作过程,以便于在实际业务需求中,更好的完成模型代码编写与调试及飞桨paddle框架的二次 ...
- 中国人工智能AI框架自主研发
中国人工智能AI框架自主研发 中国AI界争相构建AI开源框架的背后,技术和业务层面的考量因素当然重要,但也不应忽视国家层面的政策支持.对于AI基础设施的建设,中国政府在<新一代人工智能发展规划& ...
- AI框架中图层IR的分析
摘要:本文重点分析一下AI框架对IR有什么特殊的需求.业界有什么样的方案以及MindSpore的一些思考. 本文分享自华为云社区<MindSpore技术专栏 | AI框架中图层IR的分析> ...
- 昇思MindSpore全场景AI框架 1.6版本,更高的开发效率,更好地服务开发者
摘要:本文带大家快速浏览昇思MindSpore全场景AI框架1.6版本的关键特性. 全新的昇思MindSpore全场景AI框架1.6版本已发布,此版本中昇思MindSpore全场景AI框架易用性不断改 ...
- 针对深度学习(神经网络)的AI框架调研
针对深度学习(神经网络)的AI框架调研 在我们的AI安全引擎中未来会使用深度学习(神经网络),后续将引入AI芯片,因此重点看了下业界AI芯片厂商和对应芯片的AI框架,包括Intel(MKL CPU). ...
- 在windows上极简安装GPU版AI框架(Tensorflow、Pytorch)
在windows上极简安装GPU版AI框架 如果我们想在windows系统上安装GPU版本的AI框架,比如GPU版本的tesnorflow,通常我们会看到类似下面的安装教程 官方版本 安装CUDA 安 ...
- AI框架类FAQ
AI框架类FAQ 数据处理 问题:如何在训练过程中高效读取数量很大的数据集? 答复:当训练时使用的数据集数据量较大或者预处理逻辑复杂时,如果串行地进行数据读取,数据读取往往会成为训练效率的瓶颈.这种情 ...
- AI框架外部用户贡献代码
AI框架外部用户贡献代码 概述 飞桨是百度自主研发的一款开源的深度学习框架,是主流深度学习框架中首个完全国产化的产品,已经在农业.医疗.林业.科研.服务等领域成功应用.无论是已入职场的深度学习从业者. ...
随机推荐
- Centos7 安装RabbitMQ及配置(亲测)
Rabbit MQ Linux 安装 Centos7 如果是重装先把erlang和rabbitmq卸载干净,不然还会重装失败<rabbitmq和erlang卸载> 记得删除/var/lib ...
- spring boot 项目从配置文件中读取maven 的pom.xml 文件标签的内容。
需求: 将pom.xml 文件中的版本号读取到配置文件并打印到日志中. 第一步: 在pom.xml 中添加以下标签. 第二步: 将version 标签的值读取到配置文件中 这里使用 @@ 而不是 ...
- 【Springboot】FastJson与Jackson全局序列化方式的配置和相关工具类
springboot 版本: <parent> <groupId>org.springframework.boot</groupId> <artifactId ...
- SSDT表的遍历
//VS2005创建的工程,系统xp sp2 //+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ ...
- visual studio 将他人的 vtk 程序在本机生成
在网上下载了一些关于vtk的资源,在本机使用visual studio 打开后,生成时出现类似与以下的错误 无法打开包括文件:"vtkStructuredPointsToPolyDataFi ...
- Day003 变量、常量、作用域
变量 变量:就是可以变化的量 Java是一种强类型语言,每个变量都必须声明其类型. Java变量是程序中最基本的存储单元,其要素包括变量名,变量类型和作用域 变量的定义 数据类型 变量名 = 值:可以 ...
- Nginx解决跨域问题(CORS)
跨域 解决跨域问题一般有两种思路: CORS 在后端服务器设置 HTTP 响应头,把你需要运行访问的域名加入加入 Access-Control-Allow-Origin中. jsonp 把后端根据请求 ...
- ConcurrentHashMap源码解读一
最近在学习并发map的源码,如果由错误欢迎指出.这仅供我自己学习记录使用. 首先就先来说一下几个全局变量 private static final int MAXIMUM_CAPACITY = 1 & ...
- opencv——图像遍历以及像素操作
摘要 我们在图像处理时经常会用到遍历图像像素点的方式,在OpenCV中一般有四种图像遍历的方式,在这里我们通过像素变换的点操作来实现对图像亮度和对比度的调整. 补充: 图像变换可以看成 像素变换--点 ...
- MSSQL·备份数据库中的单表
阅文时长 | 0.11分钟 字数统计 | 237.6字符 主要内容 | 1.引言&背景 2.声明与参考资料 『MSSQL·备份数据库中的单表』 编写人 | SCscHero 编写时间 | 20 ...