Relay张量集成

Introduction

NVIDIA TensorRT是一个用于优化深度学习推理的库。这种集成将尽可能多地减轻从中继到TensorRT的算子，在NVIDIA GPU上提供性能提升，而无需调整计划。

本文将演示如何安装TensorRT并在启用TensorRT BYOC和运行时的情况下构建TVM。将提供使用TensorRT编译和运行ResNet-18模型的示例代码，以及如何配置编译和运行时设置。最后，记录支持的运算符以及如何扩展集成以支持其他运算符。

Installing TensorRT

为了下载TensorRT，需要创建一个NVIDIA开发人员程序帐户。有关更多信息，请参阅NVIDIA的文档：https://docs.nvidia.com/deeplearning/tensorrt/install-guide/index.html。如果有Jetson设备，如TX1、TX2、Xavier或Nano，TensorRT将通过JetPack SDK安装在设备上。

安装TensorRT有两种方法：

通过deb或rpm软件包安装系统。

Tar文件安装。

对于tar文件安装方法，必须提供提取的tar归档文件的路径，才能USE_TENSORRT_RUNTIME=/path/to/TensorRT。对于系统安装方法，USE_TENSORRT_RUNTIME=ON将自动定位安装。

Building TVM with TensorRT support

在TVM中有两个独立的构建标志用于TensorRT集成。这些标志还支持交叉编译：USE_TENSORRT_CODEGEN=ON还可以在主机上构建支持TENSORRT的模块，而USE_TENSORRT_RUNTIME=ON将使边缘设备上的TVM运行时执行TENSORRT模块。如果希望编译和执行具有相同TVM构建的模型，则应该同时启用这两个功能。

USE_TENSORRT_CODEGEN=ON/OFF-此标志将允许编译不需要任何TENSORRT库的TENSORRT模块。

USE_TENSORRT_RUNTIME=ON/OFF/path-to-TensorRT-此标志将启用TENSORRT运行时模块。这将根据已安装的TensorRT库构建TVM。

示例设置config.cmake文件：

set(USE_TENSORRT_CODEGEN ON)

set(USE_TENSORRT_RUNTIME /home/ubuntu/TensorRT-7.0.0.11)

Build and Deploy ResNet-18 with TensorRT

Create a Relay graph from a MXNet ResNet-18 model.

import tvm

from tvm import relay

import mxnet

from mxnet.gluon.model_zoo.vision import get_model

dtype = "float32"

input_shape = (1, 3, 224, 224)

block = get_model('resnet18_v1', pretrained=True)

mod, params = relay.frontend.from_mxnet(block, shape={'data': input_shape}, dtype=dtype)

为TensorRT注释和划分图。TensorRT集成支持的所有操作都将被标记并卸载到TensorRT。其余的操作将通过常规的TVM CUDA编译和代码生成。

from tvm.relay.op.contrib.tensorrt import partition_for_tensorrt

mod, config = partition_for_tensorrt(mod, params)

使用partition_for_tensorrt返回的新模块和配置构建中继图。目标必须始终是cuda目标。partition_for_tensorrt将自动填充配置中所需的值，因此不需要修改它-只需将其传递给PassContext，这样就可以在编译期间读取这些值。

target = "cuda"

with tvm.transform.PassContext(opt_level=3, config={'relay.ext.tensorrt.options': config}):

    lib = relay.build(mod, target=target, params=params)

Export the module.

lib.export_library('compiled.so')

加载模块并在目标计算机上运行推断，目标计算机必须在启用USE_TENSORRT_RUNTIME运行时的情况下构建。第一次运行需要更长的时间，因为TensorRT engine必须编译出来。

ctx = tvm.gpu(0)

loaded_lib = tvm.runtime.load_module('compiled.so')

gen_module = tvm.contrib.graph_runtime.GraphModule(loaded_lib['default'](ctx))

input_data = np.random.uniform(0, 1, input_shape).astype(dtype)

gen_module.run(data=input_data)

Partitioning and Compilation Settings

有一些选项可以在partition_for_tensorrt配置。

version-TensorRT version to target as tuple of (major, minor, patch)。如果TVM是使用USE_TENSORRT_RUNTIME=ON编译的，则将改用链接的TENSORRT版本。算子分解到TensorRT，将影响版本。

use_implicit_batch-使用TensorRT隐式批处理模式（默认为true）。设置为false将启用显式批处理模式，该模式将扩展支持的运算符以包括那些修改batch dimension的运算符，但可能会降低某些模型的性能。

remove_no_mac_subgraphs-一种改进性能的启发式方法。删除已为TensorRT分区的子图（如果它们没有任何乘法累加运算）。删除的子图将经过TVM的标准编译。

max_workspace_size-允许每个子图用于创建TensorRT引擎的工作区大小字节数。有关更多信息，请参见TensorRT文档。可以在runtime重写。

Runtime Settings

有一些附加选项可以在runtime使用环境变量进行配置。

Automatic FP16 Conversion-可以设置环境变量TVM_TENSORRT_USE_FP16=1，以自动将模型的TENSORRT组件转换为16位浮点精度。这可以极大地提高性能，但可能会在模型精度方面造成一些轻微的损失。

缓存TensorRT引擎-在第一次推断期间，runtime将调用TensorRT API来构建引擎。这可能很耗时，因此可以将TVM_TENSORRT_CACHE_DIR设置为指向将这些内置引擎保存到磁盘上的目录。下次加载模型并给它相同的目录时，runtime将加载已经构建的引擎，以避免长时间的预热。每个模型都需要一个唯一的目录。

TensorRT有一个参数来配置模型中每个层可以使用的最大暂存空间量。通常最好使用不会导致内存不足的最大值。可以使用TVM_TENSORRT_MAX_WORKSPACE_SIZE来覆盖此设置，方法是指定要使用的工作区大小（以字节为单位）。

Operator support

Adding a new operator

要添加对新算子的支持，需要对一系列文件进行更改：

src/runtime/contrib/tensorrt/tensorrt_ops.cc抄送创建一个实现TensorRTOpConverter接口的新op converter类。必须实现构造函数来指定有多少个输入以及它们是张量还是权重。必须实现Convert方法才能执行转换。这是通过使用params中的输入、属性和网络来添加新的TensorRT层并推送层输出来完成的。

可以使用现有的转换器作为示例。

最后，在GetOpConverters（）映射中注册新的op conventer。

python/relay/op/contrib/tensorrt.py此文件包含TensorRT的注释规则。决定支持哪些运算符及其属性。必须为中继运算符注册注释函数，并通过检查属性是否返回true或false来指定转换器支持哪些属性。

tests/python/contrib/test_tensorrt.py为给定的运算符添加单元测试。

Relay张量集成的更多相关文章

将TVM集成到PyTorch
将TVM集成到PyTorch 随着TVM不断展示出对深度学习执行效率的改进,很明显PyTorch将从直接利用编译器堆栈中受益.PyTorch的主要宗旨是提供无缝且强大的集成,而这不会妨碍用户.PyTo ...
向Relay添加算子
向Relay添加算子为了在Relay IR中使用TVM算子,需要在Relay中注册算子,以确保将其集成到Relay的类型系统中. 注册算子需要三个步骤: 使用RELAY_REGISTER_OPC + ...
将TVM集成到PyTorch上
将TVM集成到PyTorch上随着TVM不断展示出对深度学习执行效率的改进,很明显PyTorch将从直接利用编译器堆栈中受益.PyTorch的主要宗旨是提供无缝且强大的集成,而这不会妨碍用户.为此, ...
中继TensorRT集成
中继TensorRT集成介绍 NVIDIA TensorRT是用于优化深度学习推理的库.这种集成将使尽可能多的算子从Relay转移到TensorRT,从而无需调整调度,即可在NVIDIA GPU上提 ...
如何在TVM上集成Codegen（下）
如何在TVM上集成Codegen(下) Bring DNNL to TVM: JSON Codegen/Runtime 现在实现将中继图序列化为JSON表示的DNNL codegen,然后实现DNNL ...
如何在TVM上集成Codegen（上）
如何在TVM上集成Codegen(上) 许多常用的深度学习内核,或者提供DNNL或TensorRT等框架和图形引擎,让用户以某种方式描述他们的模型,从而获得高性能.此外,新兴的深度学习加速器也有自己的 ...
推荐一个集成环境 XAMPP
摘自:http://blog.sina.com.cn/s/blog_72c4b92501012ll7.html 一个新手接触 Joomla! 的过程应该是这样的:看到这个词之后首先要弄明白“什么是Jo ...
NET Core微服务之路：基于Ocelot的API网关Relay实现--RPC篇
前言我们都知道,API网关是工作在应用层上网关程序,为何要这样设计呢,而不是将网关程序直接工作在传输层.或者网络层等等更底层的环境呢?让我们先来简单的了解一下TCP/IP的五层模型. (图片 ...
OpenWrt（LEDE）2020.4.29更新 UPnP+NAS+多拨+网盘+DNS优化+帕斯沃无缝集成+软件包
交流群:QQ 1030484865 电报: t_homelede 固件说明基于Lede OpenWrt R2020.4.8版本(源码截止2020.4.29)Lienol Feed及若干自行维护 ...

随机推荐

Python 图片转字符图
pip install Image argparse pillow from PIL import Image import argparse #命令行输入参数处理 parser = argparse ...
<JVM下篇：性能监控与调优篇>01-概述篇-02-JVM监控及诊断工具-命令行篇
笔记来源:尚硅谷JVM全套教程,百万播放,全网巅峰(宋红康详解java虚拟机) 同步更新:https://gitee.com/vectorx/NOTE_JVM https://codechina.cs ...
Matlab学生账号创建激活使用
软件介绍 MATLAB主要用于数值分析.数值和符号计算.工程与科学绘图.控制系统的设计与仿真.数字图像处理.数字信号处理.通讯系统设计与仿真.财务与金融工程,是一款商业数学软件.MATLAB拥有丰富的 ...
Postman中如何实现接口之间的关联？
Postman中如何实现接口之间的关联? 不单单说Postman中,我为什么拿Postman举例,因为它比较简单一点. 那如果我只问你如何实现接口之间的关联,那肯定有很多的方式,Postman只是其中 ...
Java版的扫雷游戏源码
package com.xz.sl; import java.awt.BorderLayout; import java.awt.Color; import java.awt.Container; i ...
JS实现单例模式的多种方案
JS实现单例模式的多种方案今天在复习设计模式中的-创建型模式,发现JS实现单例模式的方案有很多种,稍加总结了一下,列出了如下的6种方式与大家分享大体上将内容分为了ES5(Function)与ES6 ...
Spring Cloud Gateway之动态路由（数据库版）
1.实现动态路由的关键是RouteDefinitionRepository接口,该接口存在一个默认实现(InMemoryRouteDefinitionRepository) 通过名字我们应该也知道该实 ...
Word·去掉复制粘贴自动添加的空格
阅文时长 | 0.05分钟字数统计 | 145.6字符主要内容 | 1.引言&背景 2.声明与参考资料『Word·去掉复制粘贴自动添加的空格』编写人 | SCscHero 编写时间 | ...
vue2.0与3.0响应式原理机制
vue2.0响应式原理 - defineProperty 这个原理老生常谈了,就是拦截对象,给对象的属性增加set 和 get方法,因为核心是defineProperty所以还需要对数组的方法进行拦截 ...
[刷题] 剑指Offer 面试题7：重建二叉树
题目:输入某二叉树的前序遍历和中序遍历结果,重建该二叉树.(假设输入的前序和中序遍历结果中都不含重复数字) 思路构建二叉树的两个函数:Construct().ConstructCore() Cons ...

Relay张量集成

Relay张量集成的更多相关文章

随机推荐

热门专题