使用TensorRT集成推理inference

使用TensorRT集成进行推理测试。

使用ResNet50模型对每个GPU进行推理，并对其它模型进行性能比较，最后与其它服务器进行比较测试。

ResNet-50 Inference performance: Throughput vs Batch size

在每个GPU上使用不同的批处理大小（从1到32）运行带有预训练的ResNet50模型的吞吐量测试。

图1显示了吞吐量（帧/秒）的结果。

结果在gpu和潜伏期（在右纵轴上表示）上是一致的。

Figure 1. Resnet_50 Inference on each GPU. Server with 6 GPU’s

上面的曲线图显示，使用Batchsize为1-8的批处理可以达到7ms的延迟，并且从y轴来看，当Batchsize为4时，在7ms延迟窗口内我们可以得到670个帧/秒。

在运行测试时，我们发现默认情况下推理inference是在设备0上进行的，这意味着当前的TensorRT 推理引擎不能与GPU-GPU通信一起工作以最大限度地利用服务器中可用的GPU。如果目标是在多个GPU中运行同一个图形来提高吞吐量，Nvidia建议现在使用原生TensorFlow。

另一方面，TensorRT推理服务器（TRTIS）支持多个GPU，但不支持运行分布在多个GPU上的单个推理。TRTIS可以在多个GPU上运行多个模型（和/或同一模型的多个实例）以提高吞吐量。

2．All Models: Images/sec vs batch size vs Neural models

Figure 2. Throughput Inference Performance with Several Neural Models and Batch Sizes

使用不同的神经模型在不同的Batchsize中进行推理测试。

以Batchsize大小1、2、4、8、26和32显示运行推理inference的吞吐量和延迟。ResNet50以最低的延迟产生最高的吞吐量（图像/秒）。

Figure 3. Latency Inference Performance with Several Neural Models and Batch Sizes

3 All Models - R7425-T4-16GB versus Other servers and NVIDIA GPU

Figure 4. Throughput Inference Performance on R7425-T4-16GB Server versus Other Servers

Figure 5. Latency Inference performance on R7425-T4-16GB Server versus other servers

使用几种模型在服务器R740-P4和R7245-P4上进行了推理测试，并将它们的结果与R7425-T4-16GB的结果进行了比较。服务器R7425-T4-16GB的性能比ResNet50型号上的其它服务器快1.8倍，延迟只有一半。

使用TensorRT集成推理inference的更多相关文章

中继TensorRT集成
中继TensorRT集成介绍 NVIDIA TensorRT是用于优化深度学习推理的库.这种集成将使尽可能多的算子从Relay转移到TensorRT,从而无需调整调度,即可在NVIDIA GPU上提 ...
TensorRT 进行推理
tensorRT 构建推理引擎
10分钟内基于gpu的目标检测
10分钟内基于gpu的目标检测 Object Detection on GPUs in 10 Minutes 目标检测仍然是自动驾驶和智能视频分析等应用的主要驱动力.目标检测应用程序需要使用大量数据集 ...
Paddle Inference原生推理库
Paddle Inference原生推理库深度学习一般分为训练和推理两个部分,训练是神经网络"学习"的过程,主要关注如何搜索和求解模型参数,发现训练数据中的规律,生成模型.有了训 ...
TensorRT加速 ——NVIDIA终端AI芯片加速用，可以直接利用caffe或TensorFlow生成的模型来predict（inference）
官网:https://developer.nvidia.com/tensorrt 作用:NVIDIA TensorRT™ is a high-performance deep learning inf ...
TensorRT 介绍
引用:https://arleyzhang.github.io/articles/7f4b25ce/ 1 简介 TensorRT是一个高性能的深度学习推理(Inference)优化器,可以为深度学习应 ...
TensorRT Analysis Report分析报告
TensorRT Analysis Report 一．介绍 TensorRT是一个高性能的深度学习推理(Inference)优化器,可以为深度学习应用提供低延迟.高吞吐率的部署推理.TensorRT可 ...
TensorRT简介-转载
前言 NVIDIA TensorRT是一种高性能神经网络推理(Inference)引擎,用于在生产环境中部署深度学习应用程序,应用有图像分类.分割和目标检测等,可提供最大的推理吞吐量和效率.Tens ...

随机推荐

Thinkphp5 -项目前序安装Composer命令工具具体步骤
一.Composer 进入官网, 选择download 往下拉,选择最新版本composer.phar下载: 二.创建composer.bat,内容为: @ECHO OFF php "%~d ...
路由器逆向分析------sasquatch和squashfs-tools工具的安装和使用
本文博客地址:http://blog.csdn.net/qq1084283172/article/details/68942660 一.sasquatch工具的安装和使用 sasquatch工具支持对 ...
hdu3415单调队列
题意: 给你一个数字组成的环,要求在里面找到一个最大的子序列,使得和最大,要求: (1)子序列长度不能超过k (2)如果子序列和相同要起点最小的 (3)如果起点相同要长度最小的思路: ...
Win64 驱动内核编程-9.系统调用、WOW64与兼容模式
系统调用.WOW64与兼容模式这种东西都是偏向于概念的,我就把资料上的东西整理下粘贴过来,资料来源于胡文亮,感谢这位前辈. WIN64 的系统调用比 WIN32 要复杂很多,原因很简单,因为 WIN ...
Win64 驱动内核编程-2.基本框架（安装.通讯.HelloWorld）
驱动安装,通讯,Hello World 开发驱动的简单流程是这样,开发驱动安装程序,开发驱动程序,然后安装程序(或者其他程序)通过通讯给驱动传命令,驱动接到之后进行解析并且执行,然后把执行结果返回. ...
Linux-鸟菜-0-计算机概论
Linux-鸟菜-0-计算机概论这一章在说计算机概论,额....,总的来说看完之后还是有点收获,回忆了下计算机基本知识.没有什么可上手操作的东西,全是概念,直接把最后的总结给截图过来吧,因为概念的话 ...
src/main/resorces applicationContext.xml
<?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.sp ...
【Azure Redis 缓存】Azure Cache for Redis服务中，除开放端口6379，6380外，对13000，13001，15000，15001 为什么也是开放的呢？
问题描述在使用安全检测工具对Azure Redis服务端口进行扫描时,发现Redis对外开放了13001, 13000,15000,15001端口.非常不理解的是,在门户上只开放了6379,6380 ...
Spring Boot 允许跨域设置失败的问题深究
在公司开发过程中,一个前后端分离的项目遇见了跨域的问题. 前端控制台报错:No 'Access-Control-Allow-Origin' header is present on the reque ...
[Java] Git
版本控制 VCS(Version Control System):版本控制系统主要功能:版本控制.主动提交.中央仓库中央仓库功能:保存版本历史.同步团队代码 DVCS(Distributed VC ...

使用TensorRT集成推理inference

使用TensorRT集成推理inference的更多相关文章

随机推荐

热门专题