【TensorRT 10 C++ inference example】最新版本TensorRT c++ api的推理部署教程

TensorRT是英伟达推出的部署框架，我的工作经常需要封装我的AI算法和模型给到桌面软件使用，那么tensorRT对我来说就是不二之选。TensorRT和cuda深度绑定，在c++版本的推理教程中需要使用cuda进行数据的显存绑定，由于10之前的写法比较固定，我自己基于tensorRT和cuda写了一套部署框架，将模型转换和核心推理部分都封装了起来。

但是最近在一个新项目上，我把cuda升级到了12.4，随着的tensorRT也用上了最新的10.11版本，然后我发现原来的代码报错了，仔细检查发现tensorRT10修改了很多原来的api，我在网上查询了一些方案，大部分都没有解决或者不是很清楚，还有些文章需要付费所以也看不了。后来我发现英伟达自己在tensorRT项目中给了很多sample，但是这些sample有点臃肿，所以在这里我分享一下我的方案。

【关于如何生成trt的引擎文件我这里就不写了，tensorRT10和之前的版本在这里区别不大，而且tensorRT都会给一个转换的可执行文件。所以我直接从模型推理开始。】

首先，我将回顾一个tensorRT的推理流程，然后会将一些最新版本和之前版本的区别，最后会给上最新版本推理的示例代码。

TensorRT首先需要初始化模型引擎和执行会话，这个新旧版本都一样，这里放一下我的代码：

// 核心头文件

#include <NvOnnxParser.h>

#include <NvInfer.h>

#include <cuda_runtime_api.h>

// 首先定义cuda stream

cudaStream_t stream;

// 初始化变量

nvinfer1::IRuntime* model_runtime{ nullptr };

nvinfer1::ICudaEngine* model_engine{ nullptr };

nvinfer1::IExecutionContext* model_context{ nullptr };

// 模型路径

const char* modelFile = deployModel.modelPath.c_str();

// 加载模型

model_runtime = nvinfer1::createInferRuntime(gLogger);

std::ifstream fin(modelFile, std::ios::binary);

std::string modelData = "";

while (fin.peek() != EOF) { // 使用fin.peek()防止文件读取时无限循环

    std::stringstream buffer;

    buffer << fin.rdbuf();

    modelData.append(buffer.str());

}

fin.close();

model_engine = model_runtime->deserializeCudaEngine(modelData.data(), modelData.size());

model_context = model_engine->createExecutionContext();

完成模型的初始化后，接下来我们需要进行数据缓冲的创建，即预先创建好输入输出的数据缓冲，我一般会把每个模型的输入输出的大小写到配置文件里，这样这里就可以直接创建，也可以通过model_engine->getTensorShape(name)进行获取，怎么写都可以，重要的要确定好输入输出的index和shape。

// buffers，这里是一个指针数组，设计多少都可以，一般的模型只有一个输入一个输出的话，设置为2也可以，这里我设置100只是习惯

void* model_buffers[100];

// 计算输入shape，这里的inputShape是[640, 640, 3]，inputIndex是0

int tmpInputSize = 1;

for (int j = 0; j < inputShape.size(); j++) {

    tmpInputSize *= inputShape[j];

}

// 这是使用cuda申请对于大小的显存，并和缓存指针绑定

CUDA_CHECK(cudaMalloc(&model_buffers[inputIndex], tmpInputSize * sizeof(float)));

// 同样的操作对output也进行一遍

int tmpOutputSize = 1;

for (int j = 0; j < outputShape.size(); j++) {

    tmpOutputSize *= outputShape[j];

}

CUDA_CHECK(cudaMalloc(&model_buffers[outputIndex], tmpOutputSize * sizeof(float)));

我习惯提前做好这些，这些在新旧版本上都是一致的没有区别，接下来就是模型推理部分了，也是有区别的地方。旧版本使用enqueue、enqueueV2进行推理，而新api是enqueueV3这里的差异导致我研究了半天。

首先看一下旧版本的推理方式，以enqueueV2为例：

// 分配cuda stream

CUDA_CHECK(cudaStreamCreate(&stream));

// 这里是将真正的输入数据移动到刚刚绑定申请完显存的缓存地址上，inputData就是真正的输入数据

CUDA_CHECK(cudaMemcpyAsync(model_buffers[inputIndex], inputData, inputSize * sizeof(float), cudaMemcpyHostToDevice, stream));

// 接下来就是推理部分

model_context->enqueueV2(model_buffers, stream, nullptr);

// 完成推理将缓存地址中输出数据移动出来

float* outputData = new float[outputSize];

CUDA_CHECK(cudaMemcpyAsync(outputData, model_buffers[outputIndex], outputSize * sizeof(float), cudaMemcpyDeviceToHost, stream));

// 同步stream

CUDA_CHECK(cudaStreamSynchronize(stream));

这里我们可以看到enqueueV2接受了model_buffers作为输入，但是enqueueV3就完全不一样了，他的参数只有一个stream，我看到这个api的时候都懵了，输入怎么办？输出怎么办？于是我看了官方的example，又看了几个教程，才终于搞明白，tensorRT10新增了一个输入输出注册的环节，需要先将buffer地址注册，然后再推理，等于将原来的一步拆分了两步，说实话真的有点脱裤子放屁，没活硬整了。好吧，看一下代码吧。

// 前面都是一样的

CUDA_CHECK(cudaStreamCreate(&stream));

CUDA_CHECK(cudaMemcpyAsync(model_buffers[inputIndex], inputData, inputSize * sizeof(float), cudaMemcpyHostToDevice, stream));

// 这里开始，需要进行输入输出的地址注册

model_context->setInputTensorAddress(model_engine->getIOTensorName(inputIndex), model_buffers[inputIndex]);

model_context->setOutputTensorAddress(model_engine->getIOTensorName(outputIndex), model_buffers[outputIndex]);

// 接下来就是推理部分，这里不需要放缓存了

model_context->enqueueV3(stream);

// 完成推理将缓存地址中输出数据移动出来，后面也是和旧版本一样了

float* outputData = new float[outputSize];

CUDA_CHECK(cudaMemcpyAsync(outputData, model_buffers[outputIndex], outputSize * sizeof(float), cudaMemcpyDeviceToHost, stream));

// 同步stream

CUDA_CHECK(cudaStreamSynchronize(stream));

搞清楚后，其实挺让人无语的，我想看看源码，可惜老黄并没有公开，github上的也只有头文件和sample，但是感觉这个地址注册可能就是脱裤子放屁了一下，但是这样变动sample里又写的很复杂，真的很让人无语。

好啦，以上就是本次分享的全部，欢迎大家评论区交流！

【TensorRT 10 C++ inference example】最新版本TensorRT c++ api的推理部署教程的更多相关文章

Windows 10的最新版1803版本ISO下载
Windows 10推出已经有几年时间了,笔者一直在用这个新版本.据说Windows 10以后只会推出新的更新,而不会有新的操作系统推出,所以Windows 10的更新就显得重要了.这次给大家推荐一个 ...
Ubuntu18.04 LTS 安装部署golang最新版本1.10
1 步骤 //1 直接安装golang-go 目前最新版本是1.10 sudo apt-get install golang-go //2 向/etc/profile追加以下代码 sudo vim / ...
用 Love2D 实现法线贴图的例程(到最新版本 0.10.1)
用 Love2D 实现法线贴图的例程(到最新版本 0.10.1) 概述一般来说, 复杂的光照模型会被用在 3D 游戏中, 以产生逼真的效果, 不过也有些开发者研究出一些代码可以在 2D 游戏中使用这 ...
性能工具 stream 最新版本5.10 The STREAM benchmark
官网下载最新性能工具 stream 最新版本5.10 https://github.com/jeffhammond/STREAM 官网下载最新性能工具 stream 最新版本5.10 http:/ ...
centos7 升级内核到最新版本
centos7 从问世以来,官网提供的镜像始终是3.10 版本,该版本最大的一个问题是对硬件驱动(尤其是无线网卡)的支持不是很好,本人亲测>5种机型,无线网卡均无法正常使用,如果是非主流机型,手 ...
MPlayer-2016 最新版本
MPlayer 和 FFmpeg 最新版本运行 Install.cmd 添加右键播放功能 mplayer\outformat.conf 配置视频分割命令参数 ; 往前0.05秒大概10多个帧 ' ...
如何安装最新版本的memcached
转载自孟叔的博客: https://learndevops.cn/index.php/2016/06/10/how-to-install-the-latest-version-of-memcache ...
ubuntu安装最新版本的node.js
下面的方法适用于最新版本的Ubuntu.Ubuntu 12.04 LTS.Ubuntu 12.10.Ubuntu 13.04等版本.它可以帮助开发者在Ubuntu上安装Node.js,无需从头编译安装 ...
【转】Win7环境下VS2010配置Cocos2d-x-2.1.4最新版本的开发环境(亲测)
http://blog.csdn.net/ccf19881030/article/details/9204801 很久以前使用博客园博主子龙山人的一篇博文<Cocos2d-x win7+vs20 ...
Linux(Fedora)下NodeJs升级最新版本（制定版本）
Linux(Fedora)下NodeJs升级最新版本(制定版本) 首先安装n模块: npm install -g n 升级node.js到最新稳定版 n stable 升级node.js到制定版本 n ...

随机推荐

几乎全平台的C语言JSON解析工具cJSON[转载]
最近在做一个外设管理平台,用PYTHON写了一个连接管理,兼容串口和套接字的连接,然后抽象为设备统一管理.使用套接字时JSON是一种很好的数据封装类型,假设我需要远程操控一个设备,发送一个JSON的数 ...
Shell - 集群监控脚本合集
node_heart_check.sh #!/bin/bash scriptPath=$(dirname "$0") for ip in `cat /etc/hosts | gre ...
Week09_day05(Hbase的安装搭建)
搭建完全分布式集群 HBase集群建立在hadoop集群基础之上,所以在搭建HBase集群之前需要把Hadoop集群搭建起来,并且要考虑二者的兼容性.现在就以5台机器为例,搭建一个简单的集群. 软件版 ...
go、thinkphp8、webman数据读取并发测试、性能测试
前期准备:本地搭建程序运行所需环境,分别编写go,thinkphp8和webman程序,确保程序运行正常,新建mysql的student表,模拟存储学生信息,共计3646条数据,分别使用go语言.th ...
C++ open()和read()函数使用详解
对于Framework工程师来说,必要C或者C++编程能力是必须的,像对设备节点的操作是最基本的操作,那么我们便会用到open和read函数.open()函数用于打开文件,而read()函数用于从打开 ...
关闭 ReportCrash 进程防止CPU占用率过高 [MacBook]
关闭 ReportCrash 的原因自己 MacBook Pro 总是过载,机器很热.结果通过看进程 top 命令,看到 ReportCrash 占用了了过高的 CPU,而且好像我用不上.于是乎,得 ...
多智能体粒子环境(Multi-Agent Particle Env)食用指南--从入门到入土
0.项目地址: 原地址:openai/multiagent-particle-envs: Code for a multi-agent particle environment used in the ...
JS数组相减
const arr1 = [1, 2, 3] const arr2 = [1, 3] const arr3 = arr1.filter(v => !arr2.includes(v)) // [2 ...
go 简单封装数学运算包
前言我们在编写程序时,经常会遇到一些高精度的数学运算,这时候使用简单的运算符会造成精度的缺失. 这里引用了这个第三方包 https://github.com/shopspring/decimal 做 ...
workman PHPSocket.IO文档
安装请使用composer集成phpsocket.io. 脚本中引用vendor中的autoload.php实现SocketIO相关类的加载.例如 require_once '/你的vendor路径 ...

【TensorRT 10 C++ inference example】最新版本TensorRT c++ api的推理部署教程

【TensorRT 10 C++ inference example】最新版本TensorRT c++ api的推理部署教程的更多相关文章

随机推荐

热门专题