使用TensorRT集成推理inference
使用TensorRT集成推理inference
使用TensorRT集成进行推理测试。
使用ResNet50模型对每个GPU进行推理,并对其它模型进行性能比较,最后与其它服务器进行比较测试。
- ResNet-50 Inference performance: Throughput vs Batch size
在每个GPU上使用不同的批处理大小(从1到32)运行带有预训练的ResNet50模型的吞吐量测试。
图1显示了吞吐量(帧/秒)的结果。
结果在gpu和潜伏期(在右纵轴上表示)上是一致的。

Figure 1. Resnet_50 Inference on each GPU. Server with 6 GPU’s
上面的曲线图显示,使用Batchsize为1-8的批处理可以达到7ms的延迟,并且从y轴来看,当Batchsize为4时,在7ms延迟窗口内我们可以得到670个帧/秒。
在运行测试时,我们发现默认情况下推理inference是在设备0上进行的,这意味着当前的TensorRT 推理引擎不能与GPU-GPU通信一起工作以最大限度地利用服务器中可用的GPU。如果目标是在多个GPU中运行同一个图形来提高吞吐量,Nvidia建议现在使用原生TensorFlow。
另一方面,TensorRT推理服务器(TRTIS)支持多个GPU,但不支持运行分布在多个GPU上的单个推理。TRTIS可以在多个GPU上运行多个模型(和/或同一模型的多个实例)以提高吞吐量。
2.All Models: Images/sec vs batch size vs Neural models

Figure 2. Throughput Inference Performance with Several Neural Models and Batch Sizes
使用不同的神经模型在不同的Batchsize中进行推理测试。
以Batchsize大小1、2、4、8、26和32显示运行推理inference的吞吐量和延迟。ResNet50以最低的延迟产生最高的吞吐量(图像/秒)。

Figure 3. Latency Inference Performance with Several Neural Models and Batch Sizes
3 All Models - R7425-T4-16GB versus Other servers and NVIDIA GPU

Figure 4. Throughput Inference Performance on R7425-T4-16GB Server versus Other Servers

Figure 5. Latency Inference performance on R7425-T4-16GB Server versus other servers
使用几种模型在服务器R740-P4和R7245-P4上进行了推理测试,并将它们的结果与R7425-T4-16GB的结果进行了比较。服务器R7425-T4-16GB的性能比ResNet50型号上的其它服务器快1.8倍,延迟只有一半。
使用TensorRT集成推理inference的更多相关文章
- 中继TensorRT集成
中继TensorRT集成 介绍 NVIDIA TensorRT是用于优化深度学习推理的库.这种集成将使尽可能多的算子从Relay转移到TensorRT,从而无需调整调度,即可在NVIDIA GPU上提 ...
- TensorRT 进行推理
- tensorRT 构建推理引擎
- 10分钟内基于gpu的目标检测
10分钟内基于gpu的目标检测 Object Detection on GPUs in 10 Minutes 目标检测仍然是自动驾驶和智能视频分析等应用的主要驱动力.目标检测应用程序需要使用大量数据集 ...
- Paddle Inference原生推理库
Paddle Inference原生推理库 深度学习一般分为训练和推理两个部分,训练是神经网络"学习"的过程,主要关注如何搜索和求解模型参数,发现训练数据中的规律,生成模型.有了训 ...
- TensorRT加速 ——NVIDIA终端AI芯片加速用,可以直接利用caffe或TensorFlow生成的模型来predict(inference)
官网:https://developer.nvidia.com/tensorrt 作用:NVIDIA TensorRT™ is a high-performance deep learning inf ...
- TensorRT 介绍
引用:https://arleyzhang.github.io/articles/7f4b25ce/ 1 简介 TensorRT是一个高性能的深度学习推理(Inference)优化器,可以为深度学习应 ...
- TensorRT Analysis Report分析报告
TensorRT Analysis Report 一.介绍 TensorRT是一个高性能的深度学习推理(Inference)优化器,可以为深度学习应用提供低延迟.高吞吐率的部署推理.TensorRT可 ...
- TensorRT简介-转载
前言 NVIDIA TensorRT是一种高性能神经网络推理(Inference)引擎,用于在生产环境中部署深度学习应用程序,应用有 图像分类.分割和目标检测等,可提供最大的推理吞吐量和效率.Tens ...
随机推荐
- 逆向工程第003篇:跨越CM4验证机制的鸿沟(上)
一.前言 <冠军足球经理>系列作为一款拟真度极高的足球经营类游戏,赢得过无数赞誉,而CM4可以说是这个传奇的起点.但是在游戏安装过程中,当用户输入完序列号之后,程序并不会对用户的输入进行真 ...
- ubuntu 14.04.5 编译Android 4.4.4 r1源码(最新)
本文博客链接:http://blog.csdn.net/qq1084283172/article/details/54426189 吐槽:ubuntu系统真是让人又爱又恨,也有可能是VMware Wo ...
- 网络基础概念(IP、MAC、网关、子网掩码)
目录 IP地址 MAC地址 网关 子网掩码 反子网掩码 子网掩码 子网划分一: 子网划分二: 子网汇聚 广播域 冲突域 CSMA/CD IP地址 ip地址是用于标识网络中每台设备的标识.目前 IPV4 ...
- 异步访问技术Ajax(XMLHttpRequest)
目录 AJAX XMLHttpRequest Ajax向服务器发送请求 Ajax接收服务器响应 AJAX - onreadystatechange 事件 使用 Callback 函数 一次Ajax请求 ...
- Python爬虫之使用正则表达式抓取数据
目录 匹配标签 匹配title标签 a标签 table标签 匹配标签里面的属性 匹配a标签里面的URL 匹配img标签里的 src 相关文章:Linux中的正则表达式 Python中的正则表达式 实例 ...
- node-redis基本操作
//npm install redis var redis = require("redis"), client = redis.createClient(); client.se ...
- Day003 彻底搞懂++、--
彻底搞懂++.-- ++.--都是一目运算符 b=a++(把a的值先赋给b,a再自增1) b=++a(a先自增1,再赋给b) 通过一个例子理解 int a=1; int b=a++; int c=++ ...
- 异步阻塞,Manager模块,线程
一.异步阻塞 1.并没有按照执行顺序等待结果 2.而是所有的任务都在异步执行着 3.但是我要的结果又不知道谁的结果先来,谁先结束我就先取谁的结果 很明显的异步,大家都相互执行着(异步过程),谁先结束我 ...
- Beta——事后分析
事后总结 NameNotFound 团队 项目 内容 北航-2020-软件工程(春季学期) 班级博客 要求 Beta事后分析 课程目标 通过团队合作完成一个软件项目的开发 会议截图 一.设想和目标 软 ...
- Zoho:SaaS行业的“紫色奶牛”
以下文章来源于:中国软件网,作者王锦宝 蓝天白云的映衬下,一群黑白相间的奶牛在绿草场自由玩耍,这种田园牧歌场景看久了,总会引起审美疲劳.假如突然出现一头紫色奶牛,你肯定会眼前一亮,把所有注意力集中到紫 ...