使用TensorRT集成推理inference

使用TensorRT集成进行推理测试。

使用ResNet50模型对每个GPU进行推理,并对其它模型进行性能比较,最后与其它服务器进行比较测试。

  1. ResNet-50 Inference performance: Throughput vs Batch size

在每个GPU上使用不同的批处理大小(从1到32)运行带有预训练的ResNet50模型的吞吐量测试。

图1显示了吞吐量(帧/秒)的结果。

结果在gpu和潜伏期(在右纵轴上表示)上是一致的。

Figure 1.  Resnet_50 Inference on each GPU. Server with 6 GPU’s

上面的曲线图显示,使用Batchsize为1-8的批处理可以达到7ms的延迟,并且从y轴来看,当Batchsize为4时,在7ms延迟窗口内我们可以得到670个帧/秒。

在运行测试时,我们发现默认情况下推理inference是在设备0上进行的,这意味着当前的TensorRT 推理引擎不能与GPU-GPU通信一起工作以最大限度地利用服务器中可用的GPU。如果目标是在多个GPU中运行同一个图形来提高吞吐量,Nvidia建议现在使用原生TensorFlow。

另一方面,TensorRT推理服务器(TRTIS)支持多个GPU,但不支持运行分布在多个GPU上的单个推理。TRTIS可以在多个GPU上运行多个模型(和/或同一模型的多个实例)以提高吞吐量。

2.All Models: Images/sec vs batch size vs Neural models

Figure 2. Throughput Inference Performance with Several Neural Models and Batch Sizes

使用不同的神经模型在不同的Batchsize中进行推理测试。

以Batchsize大小1、2、4、8、26和32显示运行推理inference的吞吐量和延迟。ResNet50以最低的延迟产生最高的吞吐量(图像/秒)。

Figure 3. Latency Inference Performance with Several Neural Models and Batch Sizes

3 All Models - R7425-T4-16GB versus Other servers and NVIDIA GPU

Figure 4. Throughput Inference Performance on R7425-T4-16GB Server versus Other Servers

Figure 5. Latency Inference performance on R7425-T4-16GB Server versus other servers

使用几种模型在服务器R740-P4和R7245-P4上进行了推理测试,并将它们的结果与R7425-T4-16GB的结果进行了比较。服务器R7425-T4-16GB的性能比ResNet50型号上的其它服务器快1.8倍,延迟只有一半。

使用TensorRT集成推理inference的更多相关文章

  1. 中继TensorRT集成

    中继TensorRT集成 介绍 NVIDIA TensorRT是用于优化深度学习推理的库.这种集成将使尽可能多的算子从Relay转移到TensorRT,从而无需调整调度,即可在NVIDIA GPU上提 ...

  2. TensorRT 进行推理

  3. tensorRT 构建推理引擎

  4. 10分钟内基于gpu的目标检测

    10分钟内基于gpu的目标检测 Object Detection on GPUs in 10 Minutes 目标检测仍然是自动驾驶和智能视频分析等应用的主要驱动力.目标检测应用程序需要使用大量数据集 ...

  5. Paddle Inference原生推理库

    Paddle Inference原生推理库 深度学习一般分为训练和推理两个部分,训练是神经网络"学习"的过程,主要关注如何搜索和求解模型参数,发现训练数据中的规律,生成模型.有了训 ...

  6. TensorRT加速 ——NVIDIA终端AI芯片加速用,可以直接利用caffe或TensorFlow生成的模型来predict(inference)

    官网:https://developer.nvidia.com/tensorrt 作用:NVIDIA TensorRT™ is a high-performance deep learning inf ...

  7. TensorRT 介绍

    引用:https://arleyzhang.github.io/articles/7f4b25ce/ 1 简介 TensorRT是一个高性能的深度学习推理(Inference)优化器,可以为深度学习应 ...

  8. TensorRT Analysis Report分析报告

    TensorRT Analysis Report 一.介绍 TensorRT是一个高性能的深度学习推理(Inference)优化器,可以为深度学习应用提供低延迟.高吞吐率的部署推理.TensorRT可 ...

  9. TensorRT简介-转载

    前言 NVIDIA TensorRT是一种高性能神经网络推理(Inference)引擎,用于在生产环境中部署深度学习应用程序,应用有 图像分类.分割和目标检测等,可提供最大的推理吞吐量和效率.Tens ...

随机推荐

  1. 逆向工程第003篇:跨越CM4验证机制的鸿沟(上)

    一.前言 <冠军足球经理>系列作为一款拟真度极高的足球经营类游戏,赢得过无数赞誉,而CM4可以说是这个传奇的起点.但是在游戏安装过程中,当用户输入完序列号之后,程序并不会对用户的输入进行真 ...

  2. ubuntu 14.04.5 编译Android 4.4.4 r1源码(最新)

    本文博客链接:http://blog.csdn.net/qq1084283172/article/details/54426189 吐槽:ubuntu系统真是让人又爱又恨,也有可能是VMware Wo ...

  3. 网络基础概念(IP、MAC、网关、子网掩码)

    目录 IP地址 MAC地址 网关 子网掩码 反子网掩码 子网掩码 子网划分一: 子网划分二: 子网汇聚 广播域 冲突域 CSMA/CD IP地址 ip地址是用于标识网络中每台设备的标识.目前 IPV4 ...

  4. 异步访问技术Ajax(XMLHttpRequest)

    目录 AJAX XMLHttpRequest Ajax向服务器发送请求 Ajax接收服务器响应 AJAX - onreadystatechange 事件 使用 Callback 函数 一次Ajax请求 ...

  5. Python爬虫之使用正则表达式抓取数据

    目录 匹配标签 匹配title标签 a标签 table标签 匹配标签里面的属性 匹配a标签里面的URL 匹配img标签里的 src 相关文章:Linux中的正则表达式 Python中的正则表达式 实例 ...

  6. node-redis基本操作

    //npm install redis var redis = require("redis"), client = redis.createClient(); client.se ...

  7. Day003 彻底搞懂++、--

    彻底搞懂++.-- ++.--都是一目运算符 b=a++(把a的值先赋给b,a再自增1) b=++a(a先自增1,再赋给b) 通过一个例子理解 int a=1; int b=a++; int c=++ ...

  8. 异步阻塞,Manager模块,线程

    一.异步阻塞 1.并没有按照执行顺序等待结果 2.而是所有的任务都在异步执行着 3.但是我要的结果又不知道谁的结果先来,谁先结束我就先取谁的结果 很明显的异步,大家都相互执行着(异步过程),谁先结束我 ...

  9. Beta——事后分析

    事后总结 NameNotFound 团队 项目 内容 北航-2020-软件工程(春季学期) 班级博客 要求 Beta事后分析 课程目标 通过团队合作完成一个软件项目的开发 会议截图 一.设想和目标 软 ...

  10. Zoho:SaaS行业的“紫色奶牛”

    以下文章来源于:中国软件网,作者王锦宝 蓝天白云的映衬下,一群黑白相间的奶牛在绿草场自由玩耍,这种田园牧歌场景看久了,总会引起审美疲劳.假如突然出现一头紫色奶牛,你肯定会眼前一亮,把所有注意力集中到紫 ...