TensorRT_Pro项目教程：高性能深度学习推理框架解析与应用指南-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00932/article/details/148758721

TensorRT_Pro项目教程：高性能深度学习推理框架解析与应用指南

tensorRT_Pro C++ library based on tensorrt integration 项目地址: https://gitcode.com/gh_mirrors/te/tensorRT_Pro

项目概述

TensorRT_Pro是一个基于NVIDIA TensorRT 8.0构建的高性能深度学习推理框架，提供了C++和Python的高级接口。该项目专注于简化TensorRT在实际工业场景中的应用，特别针对计算机视觉任务进行了深度优化，支持Yolo系列（V3/V5/V7/X）、RetinaFace、Scrfd、Arcface、AlphaPose等多种模型的高效部署。

核心特性

简洁易用的接口设计：
- 提供高度封装的C++/Python API，实现三行代码完成推理流程
- 支持动态批处理、多精度推理（FP32/FP16/INT8）
- 封装了模型序列化与反序列化过程
性能优化：
- 通过CUDA核函数优化前后处理流程
- 支持模型"去头去尾"优化，移除冗余计算节点
- 提供多种精度选项平衡速度与精度
多模型支持：
- 全面支持Yolo系列各版本模型
- 提供人脸检测、姿态估计等计算机视觉任务的现成解决方案

快速入门

C++接口示例

// 创建YoloX推理引擎
auto engine = Yolo::create_infer("yolox_m.fp32.trtmodel", Yolo::Type::X, 0);

// 加载图像
auto image = cv::imread("demo.jpg");

// 执行推理
auto results = engine->commit(image).get();

Python接口示例

import pytrt as tp

# 编译ONNX模型为TensorRT引擎
engine_file = "yolov5s.fp32.trtmodel"
if not os.path.exists(engine_file):
    tp.compile_onnx_to_file(1, tp.onnx_hub("yolov5s"), engine_file)

# 创建Yolo推理器
yolo = tp.Yolo(engine_file, type=tp.YoloType.V5)

# 执行推理
image = cv2.imread("car.jpg")
bboxes = yolo.commit(image).get()

性能基准测试

项目提供了详尽的性能测试数据，以下是部分典型模型的测试结果（基于RTX2080Ti）：

| 模型类型 | 分辨率 | 精度 | 推理耗时(ms) | FPS | |---------|--------|------|-------------|-----| | YoloX-s | 640x640 | FP32 | 3.088 | 323.81 | | YoloX-s | 640x640 | FP16 | 1.362 | 734.48 | | YoloX-s | 640x640 | INT8 | 1.060 | 943.15 | | YoloV5s | 640x640 | FP32 | 2.578 | 387.92 | | YoloV5s | 640x640 | FP16 | 1.307 | 765.10 |

测试环境配置：

CUDA 10.2
cuDNN 8.2.2
TensorRT 8.0.1.6
测试方法：100次推理取平均，去除warmup

环境配置指南

Linux系统配置

基础依赖：
- CUDA 10.2
- cuDNN 8.2.2（需包含dev和runtime）
- TensorRT 8.0.1.6
- Protobuf 3.11.4（用于ONNX解析）
编译选项：
- 在Makefile/CMakeLists中配置计算能力（如RTX3080Ti为sm_86）
- 设置各依赖库的正确路径

编译命令：

mkdir build && cd build
cmake ..
make yolo -j8

Windows系统配置

Visual Studio项目配置：
- 修改CUDA工具路径
- 设置正确的计算能力
- 配置包含目录和库目录
Python支持：
- 编译生成pytrtc.pyd模块
- 复制必要的DLL文件

模型支持与优化

YoloV5特殊处理

为确保动态批处理支持，需要对原始YoloV5代码进行以下修改：

# 修改models/yolo.py中的forward函数
bs, _, ny, nx = map(int, x[i].shape)  # 显式转换为int
bs = -1  # 强制batch维度为动态
x[i] = x[i].view(bs, self.na, self.no, ny, nx).permute(0, 1, 3, 4, 2).contiguous()

# 修改export.py中的导出参数
torch.onnx.export(dynamic_axes={'images': {0: 'batch'}, 'output': {0: 'batch'}})

YoloV7优化要点

去除ScatterND、Gather等影响性能的操作
合并中间计算步骤减少节点数量
确保batch维度动态化

# 修改后的解码逻辑
xy = (y[..., 0:2] * 2. - 0.5 + self.grid[i]) * self.stride[i]
wh = (y[..., 2:4] * 2) ** 2 * self.anchor_grid[i].view(1, -1, 1, 1, 2)
y = torch.cat([xy, wh, y[..., 4:]], dim=-1)