Tesla T4视频编码性能分析

从开普勒开始的所有 NVIDIA GPUs 都支持完全加速的硬件视频编码； GPUs 支持完全加速的硬件视频解码。最近发布的图灵硬件提供了张量核心和更好的机器学习性能，但新的 GPU 还加入了新的多媒体功能，如改进的 NVENC 单元，以在视频编解码器中提供更好的压缩和图像质量。

看一看图灵设计的新的 NVENC 单元的性能和质量。

NVENC 性能测试设置

H.264 出现于 15 年前，已经成为一种无处不在的视频编码标准。它已经成为业界最重要和最广泛的编解码器。这些测试展示了 Tesla T4 与著名的开源编码器 libx264 在两种情况下的性能：

高质量模式，代表最常见的编码方案与 VBR 控制和 B 帧启用。
低延迟快速模式，适用于对延迟敏感的应用程序，如远程游戏或视频会议。

为此，测试计算机的配置如表 1 所示：

Testing Configuration
Component	Tesla T4 NVENC	libx264
CPU	Dual Intel Xeon E5-2660v3 @ 2.6 GHz	Dual Intel Xeon E5-2660v3 @ 2.6 GHz
GPU	TU104 (Tesla T4)	N/A
RAM	128 GB	128 GB
FFMPEG	4.0.2	4.0.2
Driver	415.15	N/A

这些性能测试将编码参数设置为表 2 中所示的参数：

Encoding Parameters
Preset	NVENC	libx264
High Quality	-c:v h264_nvenc -preset medium -b:v BITRATE -bufsize BITRATE*2 -profile:v high -bf 3 -b_ref_mode 2 -temporal-aq 1 -rc-lookahead 20 -vsync 0	-c:v libx264 -preset medium -b:v BITRATE -bufsize BITRATE*2 -profile:v high -tune psnr -vsync 0 -threads 4
Low Latency Fast	-c:v h264_nvenc -preset llhp -rc cbr_ld_hq -b:v BITRATE -bufsize BITRATE/FRATE -profile:v high -g 999999 -vsync 0	-c:v libx264 -preset fast -b:v BITRATE -bufsize BITRATE/FRATE -profile:v high -g 999999 -x264opts no-sliced-threads:nal-hrd=cbr -tune zerolatency -threads 4 -vsync 0

使用了各种输入视频进行 RD 估计，如 basketball _ drive 、 bq _ terrace 、仙人掌、 crowd _ run 、 ducks _ take _ off 、 jokey 、和服，以及更多分辨率为 1280 × 720 、 1920 × 1080 和 3840 × 2160 的视频。

功耗和质量结果

平衡序列

图 1 到图 4 显示， Tesla T4 在高质量模式下为 libx264 提供相同或稍好的视觉质量，如 Kimono、 BQ Terrace 和 Park Scene 。

图 1. 720p 分辨率和序列的 PSNR-RD 曲线。

图 2 . BQ 阶地序列 1080p 分辨率下的 PSNR-RD 曲线。

图 3 . 场景序列在 720p 分辨率下的 PSNR-RD 曲线。

图 4 . 场景序列的 PSNR-RD 曲线，分辨率为 1080p 。

与 libx264 相比， T4 显示了更好的预测和过滤，如图 5 和 6 所示。

图 5 . 由 libx264 编码的 bq _ terrace 序列的帧。

图 6 . T4-Nvenc 编码的 bq_terrace 序列的帧。

高速运动序列

显著的混沌运动和圆周运动。与 libx264 相比， NVENC 在这些包含复杂内部预测的场景中显示出明显的优势，如图 7 和 8 所示。

图 7. 视频序列在 1080p 分辨率下的 PSNR-RD 曲线。

图 8 . 视频序列 1080p 分辨率的 PSNR-RD 曲线。

如图 9 和图 10 所示， Tesla T4 NVENC 在低延迟模式下的性能很容易超过 libx264 。请注意 Tesla T4 如何在高分辨率下更有效，在相同的比特率下提供 1db 更好的视觉质量。

图 9 . 1080p 分辨率和低延迟模式下视频序列的 PSNR-RD 曲线

图 10. 视频序列在 2160p 分辨率下的 PSNR-RD 曲线。

如图 11 和图 12 所示，视觉质量的差异很容易被肉眼看到：

图 11 . 由 libx264 编码的 ducks_take_off 视频序列的第一帧。

图 12. 由 T4 NVENC 编码的视频序列的第一帧。

图灵 GPUs 配备了功能强大的 NVENC 视频编码单元，与 libx264 等复杂的软件编码器相比，它提供了更高的视频压缩效率，因为它结合了更高的性能和更低的能耗。理想的代码转换解决方案需要具有成本效益（美元/流）和节能（瓦/流）。在多个测试序列中平均的性能和功耗结果，如图 13 和 14 所示。

图 13. 在高质量模式下以每秒 30 帧同时编码的流数

图 14. 在低延迟模式下以每秒 30 帧同时编码的流数。

T4 以高质量模式同时编码 22 个 720p 流。 GPU 还可以平均处理 10 个 1080p 的流和 2 到 3 个超高清（ 2160p ）分辨率的流。这相当于在相同的视觉质量级别上几乎是 libx264 的两倍。

在低延迟模式下运行显示出 T4 更大的优势。它可以编码 37 个 720p 分辨率的流， 17-18 个 1080p ， 4-5 个超高清，性能比 libx264 高 2-2 . 7 倍，具有更高的视觉质量。可以在图 15 和图 16 中看到每个流的瓦特数。

图 15. 高质量模式下平均每流功耗瓦特

图 16. 低延迟模式下平均每流功耗瓦特

Tesla 还显示出很高的功率效率，在高质量模式下优于 libx264 2-4x ，在低延迟模式下高达 5 倍，同时保持低负载CPU。

结论

与前几代相比， NVIDIA 的 Tesla T4 的编码能力有了很大的提高。与 libx264 这样的软件编码器相比，它在高质量模式下显示出相同或更好的视觉质量，而在低延迟模式下则优于它们。这相当于在功耗降低 2-5 倍时性能提高了一倍。

Tesla T4视频编码性能分析的更多相关文章

PC虚拟现实应用的性能分析与优化：从CPU角度切入
如今,虚拟现实 (VR) 技术正日益受到欢迎,这主要得益于遵循摩尔定律的技术进步让这一全新体验在技术上成为可能.尽管虚拟现实能给用户带来身临其境般的超凡体验,但相比传统应用,其具有双目渲染.低延迟.高 ...
高性能Linux服务器第10章基于Linux服务器的性能分析与优化
高性能Linux服务器第10章基于Linux服务器的性能分析与优化作为一名Linux系统管理员,最主要的工作是优化系统配置,使应用在系统上以最优的状态运行.但硬件问题.软件问题.网络环境等 ...
【转载】视频编码（H264概述）
一视频编码介绍 1.1 视频压缩编码的目标 1)保证压缩比例 2)保证恢复的质量 3)易实现,低成本,可靠性 1.2 压缩的出发点(可行性) 1)时间相关性在一组视频序列中,相邻相邻两帧只有极少的不 ...
Android实现录屏直播（三）MediaProjection + VirtualDisplay + librtmp + MediaCodec实现视频编码并推流到rtmp服务器
请尊重分享成果,转载请注明出处,本文来自Coder包子哥,原文链接:http://blog.csdn.net/zxccxzzxz/article/details/55230272 Android实现录 ...
MPEG-4视频编码核心思想
1 引言当今时代,信息技术和计算机互联网飞速发展,在此背景下,多媒体信息已成为人类获取信息的最主要载体,同时也成为电子信息领域技术开发和研究的热点.多媒体信息经数字化处理后具有易于加密.抗干扰能 ...
Yolov4性能分析（下）
Yolov4性能分析(下) 六. 权重更新 "darknet/src/detector.c"--train_detector()函数中: ...... /* 开始训练网络 */ f ...
MYSQL索引结构原理、性能分析与优化
[转]MYSQL索引结构原理.性能分析与优化第一部分:基础知识索引官方介绍索引是帮助MySQL高效获取数据的数据结构.笔者理解索引相当于一本书的目录,通过目录就知道要的资料在哪里, 不用一页一页 ...
Android APP性能分析方法及工具
近期读到<Speed up your app>一文.这是一篇关于Android APP性能分析.优化的文章.在这篇文章中,作者介绍他的APP分析优化规则.使用的工具和方法.我觉得值得大家借 ...
Atitit 视频编码与动画原理attilax总结
Atitit 视频编码与动画原理attilax总结 1.1. 第一步:实现有损图像压缩和解压1 1.2. 接着将其量化,所谓量化,就是信号采样的步长,1 1.3. 第二步:实现宏块误差计算2 1.4. ...

随机推荐

jumpserver2
测试环境 CPU: 64位双核处理器内存: 4G DDR3 数据库:mysql 版本大于等于 5.6 mariadb 版本大于等于 5.5.6 环境系统: CentOS 7 IP: 192.168 ...
ZOJ3715 竞选班长求最小花费
题意: 有n个小朋友竞选班长,一号想当班长,每个人都必须选择一个人当班长,并且不可以选择自己,并且每个人都有一个权值ai,这个权值就是如果1想让这个人改变主意选择自己当班长就得给他ai个糖 ...
Node-Web模块
创建服务端------------------------------------------------------ var http = require('http'); var fs = req ...
C++基于文件流和armadillo读取mnist
发现网上大把都是用python读取mnist的,用C++大都是用opencv读取的,但我不怎么用opencv,因此自己摸索了个使用文件流读取mnist的方法,armadillo仅作为储存矩阵的一种方式 ...
JDBC往数据库里插入数据
首先还是一个工具类插入数据
Spring Security 入门篇
本文是一个笔记系列,目标是完成一个基于角色的权限访问控制系统(RBAC),有基本的用户.角色.权限管理,重点在Spring Security的各种配置.万丈高楼平地起,接下来,一步一步,由浅入深,希望 ...
centos7安装es6.4.0
一.首先进入到opt文件夹cd opt二.然后下载es安装包wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearc ...
拷贝构造函数第一个参数最好使用const
拷贝构造函数的第一个参数要求是自身类型的引用,但是没有一定要求具有底层const属性即对常量的引用,但是使用时最好加上const,原因是我们可能在某些"不知道"的情况下对常量对象调 ...
Go快速入门（二）
提示:本系列文章适合有其他语音基础并对Go有持续冲动的读者一.package介绍 Go语言的代码是通过package来组织的,package的概念和你知道的其它语言里的libraries或者m ...
opencv——形态学深究（分析和应用）
摘要: 形态学一般指生物学中研究动物和植物结构的一个分支.用数学形态学(也称图像代数)表示以形态为基础对图像进行分析的数学工具. 基本思想是用具有一定形态的结构元素去度量和提取图像中的对应形状以达到对 ...

Tesla T4视频编码性能分析

Tesla T4视频编码性能分析的更多相关文章

随机推荐

热门专题