使用TensorRT集成推理inference

使用TensorRT集成进行推理测试。

使用ResNet50模型对每个GPU进行推理，并对其它模型进行性能比较，最后与其它服务器进行比较测试。

ResNet-50 Inference performance: Throughput vs Batch size

在每个GPU上使用不同的批处理大小（从1到32）运行带有预训练的ResNet50模型的吞吐量测试。

图1显示了吞吐量（帧/秒）的结果。

结果在gpu和潜伏期（在右纵轴上表示）上是一致的。

Figure 1. Resnet_50 Inference on each GPU. Server with 6 GPU’s

上面的曲线图显示，使用Batchsize为1-8的批处理可以达到7ms的延迟，并且从y轴来看，当Batchsize为4时，在7ms延迟窗口内我们可以得到670个帧/秒。

在运行测试时，我们发现默认情况下推理inference是在设备0上进行的，这意味着当前的TensorRT 推理引擎不能与GPU-GPU通信一起工作以最大限度地利用服务器中可用的GPU。如果目标是在多个GPU中运行同一个图形来提高吞吐量，Nvidia建议现在使用原生TensorFlow。

另一方面，TensorRT推理服务器（TRTIS）支持多个GPU，但不支持运行分布在多个GPU上的单个推理。TRTIS可以在多个GPU上运行多个模型（和/或同一模型的多个实例）以提高吞吐量。

2．All Models: Images/sec vs batch size vs Neural models

Figure 2. Throughput Inference Performance with Several Neural Models and Batch Sizes

使用不同的神经模型在不同的Batchsize中进行推理测试。

以Batchsize大小1、2、4、8、26和32显示运行推理inference的吞吐量和延迟。ResNet50以最低的延迟产生最高的吞吐量（图像/秒）。

Figure 3. Latency Inference Performance with Several Neural Models and Batch Sizes

3 All Models - R7425-T4-16GB versus Other servers and NVIDIA GPU

Figure 4. Throughput Inference Performance on R7425-T4-16GB Server versus Other Servers

Figure 5. Latency Inference performance on R7425-T4-16GB Server versus other servers

使用几种模型在服务器R740-P4和R7245-P4上进行了推理测试，并将它们的结果与R7425-T4-16GB的结果进行了比较。服务器R7425-T4-16GB的性能比ResNet50型号上的其它服务器快1.8倍，延迟只有一半。

使用TensorRT集成推理inference的更多相关文章

中继TensorRT集成
中继TensorRT集成介绍 NVIDIA TensorRT是用于优化深度学习推理的库.这种集成将使尽可能多的算子从Relay转移到TensorRT,从而无需调整调度,即可在NVIDIA GPU上提 ...
TensorRT 进行推理
tensorRT 构建推理引擎
10分钟内基于gpu的目标检测
10分钟内基于gpu的目标检测 Object Detection on GPUs in 10 Minutes 目标检测仍然是自动驾驶和智能视频分析等应用的主要驱动力.目标检测应用程序需要使用大量数据集 ...
Paddle Inference原生推理库
Paddle Inference原生推理库深度学习一般分为训练和推理两个部分,训练是神经网络"学习"的过程,主要关注如何搜索和求解模型参数,发现训练数据中的规律,生成模型.有了训 ...
TensorRT加速 ——NVIDIA终端AI芯片加速用，可以直接利用caffe或TensorFlow生成的模型来predict（inference）
官网:https://developer.nvidia.com/tensorrt 作用:NVIDIA TensorRT™ is a high-performance deep learning inf ...
TensorRT 介绍
引用:https://arleyzhang.github.io/articles/7f4b25ce/ 1 简介 TensorRT是一个高性能的深度学习推理(Inference)优化器,可以为深度学习应 ...
TensorRT Analysis Report分析报告
TensorRT Analysis Report 一．介绍 TensorRT是一个高性能的深度学习推理(Inference)优化器,可以为深度学习应用提供低延迟.高吞吐率的部署推理.TensorRT可 ...
TensorRT简介-转载
前言 NVIDIA TensorRT是一种高性能神经网络推理(Inference)引擎,用于在生产环境中部署深度学习应用程序,应用有图像分类.分割和目标检测等,可提供最大的推理吞吐量和效率.Tens ...

随机推荐

手脱UPX3.91壳（练习）
0x01 准备 OD UPX加壳程序可以加壳的软件 0x02 给软件加壳我找了半天发现winhex不错,而且是没壳的可以直接加壳 1.复制一份可执行文件将赋值好的文件用UPX3.91加壳 0x0 ...
【jQuery】精细学习记录
[jQuery]精细学习记录基础基本语法: $(选择器).action(回调函数); $/jQuery //jQuery核心函数 $(选择器) //获得的jQuery对象 jQuery核心 - j ...
Jetbrains系列产品License key is in legacy format
原文链接: https://zhile.io/2018/08/25/jetbrains-license-server-crack.html
一、unittest介绍与基础使用
一.unittest为单元测试框架,系统标准库 import unittest
Django（13）django时区问题
前言我们都知道时区,标准时区是UTC时区,django默认使用的就是UTC时区,所以我们存储在数据库中的时间是UTC的时间,但是当我们做的网站只面向国内用户,或者只是提供内部平台使用,我们希望存储在 ...
【BUAA软工】团队项目选择
项目内容班级:北航2020春软件工程博客园班级博客作业:团队项目选择与NABCD分析团队项目选择项目介绍项目简介项目名称:Visual Lab Online 项目简介:一款面向学生和个 ...
[DB] CDH集群规划
配置三台机器:node01.node02.node03 node01:6G+60G node02:2G+40G node03:2G+40G 组件 Cloudera Managerment Servi ...
CSS3中的过渡、动画和变换
一.过渡过渡效果一般由浏览器直接改变元素的CSS属性实现. a.transition属性 transition 属性是一个简写属性,用于设置四个过渡属性: transition-property t ...
OpenStack Rally 性能测试
注意点:在测试nova,在配置文件里面如果不指定网络id,那么默认是外网的网络(该网络是共享的),如果想要指定网络,那么该网络必须是共享的状态,否则将会报错:无法发现网络.如果测试多于50台的虚拟机需 ...
jmeter中beanshell postprocessor结合fastjson库提取不确定个数的json参数
在项目实践中,遇到了这样一个问题.用jmeter作http接口测试,需要的接口参数个数是不确定的.也就是说,在每次测试中,根据情况不同,可能页面中的列表中所含的参数个数是不确定的,那么要提取的参数个数 ...

使用TensorRT集成推理inference

使用TensorRT集成推理inference的更多相关文章

随机推荐

热门专题