H.264转码加速:NVENC大战Quick Sync
GPU加速技术对普通消费者最直观的影响就是视频转码应用上了,NVIDIA.、AMD以及Intel都有自己的加速技术,而在新一代CPU和GPU架构上,三方都有更新的技术方案。<br><br> NVIDIA在Kepler架构上引入了NVENC编码单元,实测画质与CUDA相当,但是速度更快,只不过在速度和功耗上依然比不过Intel的Quick Sync,AMD的VCE因为缺少软件支持显得更悲剧。
GPU转码加速的好处是速度快,但是画质也低了,无法与单纯的CPU转码相媲美,随着技术的进步,GPU转码的画质才慢慢提升上来。再往后Intel也加入战场,SNB架构的GPU部分增加了专用的Quick Sync单元,无论转码速度还是画质都要比A/N两家的GPU加速效果要好。
AMD在最新一代的GCN架构中增加了专用的VCE(Video Encodec Enigine)引擎,支持1080P 60fps视频转码,而且支持完整的H.264规范(前一代转码只支持H.264 Baseline),唯一的问题是软件支持度不够好,发布5个多月了才有MediaEspresso支持。

AMD的VCE引擎
Ivy Bridge处理器中,Intel也将转码单元Quick Sync做了升级,虽然Intel官方资料中并没有提及具体的变化,但是我们之前也做过测试,发现转码速度变快了。此外,IVB的Quick Sync也统一到了Media SDK API下。

再有一个新选手就是NVIDIA的NVENC编码引擎了,它是Kepler架构新增的功能,按照NVIDIA给出的资料来看,NVENC比自家的CUDA编码还要优秀,因为它跟Quick Sync一样属于是专用的编码加速单元,而CUDA加速则是比较通用的,速度上不如专用单元快。

NVENC编码加速功能
早前我们也打算把NVENC编码加速专门测试一下,只是一直没能成行,不过首发测试中也做了MediaEspresso转码加速测试,GTX 680转码一段视频需要32秒,GTX 580和HD 7970分别需要40、45秒,也就是在GPU计算性能更差的情况下,GTX 680的转码速度依然要高于GTX 580、HD 7970,NVENC功不可没。
法国Hardware.fr网站最近做了详细的NVENC编码加速测试,并与Intel Quick Sync做了对比,虽然没能对比AMD的VCE编码引擎(软件支持是AMD的软肋啊),但是本文的测试方法和结果依然值得推荐,特别是画质对比方面专业得多,小编受益匪浅啊。
测试软件及方法:

MediaEspresso也有bug和限制,比如GOP 固定限制,对比测试并非以其为主要手段
讯连科技的MediaEspresso 6.5软件支持Quick Sync以及NVENC加速。CPU为Core i5-3570K(HD 4000显卡),主板为华硕P8Z77 Pro-V。对比的显卡主要是GTX 670、GTX 680、GTX 480,虽然GTX 480是上上代的显卡了,不过CUDA编码加速实际上对显卡要求并不高,即便是GTX 450与高端显卡的差距也非常小。
另外,软件编码使用的是Build 2197版本的H.264,分别测试了1-pass和2-pass。
画质对比
画质对比值得着重说一下。平时我们做画质对比主要是用肉眼看,这种方法虽然直观一些,但是误差太大,而且不同的截图差别也不一样,不够有说服力。
Hardware.fr用的是PSNR和SSIM数值,PSNR(Peak signal-to-noise ratio,峰值信号噪点比例)是信号强度与噪点强度的比值,可以用来衡量有损压缩编码过程中的失真度。而SSIM(structural similarity index,结构相似指数)也是用来衡量两张图片之间的相似度。
有兴趣的可以参考上面的维基百科解释研究一下,总之,PSNR和SSIM是科学的测量方法,要比肉眼查看可靠得多,说服力也足够强。

上面就是几种编码方案的PSNR和SSIM结果。
虽然速度更快,但是NVENC引擎的转码画质与CUDA转码是一样的,丝毫没有降低。
上面的计算只是基于平均状况,并不是全部内容,再来看一下500张逐帧截图中的SSIM指数吧。

这里只是一张图片,推荐去原文看对比,因为他们做的是网页特效,下面的六个选项是可以点击选中或者取消的,方便对比任意几种编码方案的结果,鼠标指上去还会显示各个方案的具体SSIM数值,这是单一截图展示不了的。
由于软件的Bug和限制,N卡和Quick Sync转码的截图中每隔30帧就会出现一次剧烈波动(场景太复杂),0到187帧之间的场景容易压缩,因此SSIM比较稳定,188到243帧以及244到350帧之间波动就非常大,SSIM指下降的厉害。
虽然Quick Sync在复杂场景中SSIM有所下降,但是依然要领先与NVIDIA显卡,H.264 1-pass编码依然有明显优势。
那么实际画质是如何呢?来看一下317张截图的真实截图对比吧。

这里依然去原文查看,因为他们作出了动态效果,最下面是各种编码方案的画质选择,点击左侧部分,转码后的截图就会出现在网页左边,右边则是另一种方案的画质截图,比如上图中我选择了原图与GTX 670(NVENC)编码,效果就是这个样子。
(ps,这里有点瑕疵,出现了两个GTX 670选项,实际上应该是一个GTX 670和一个GTX 680)
结果是:NVIDIA GPU加速编码的画质损失依然是最严重的,而最新的H.264编码做的比较好,特别是2-pass画质十分接近原始画质。
转码速度及功耗
使用的影片是720P分辨率的《阿凡达》,结果如下:

(说下表格的数据,第一列是转码时间,之后是待机功耗,第三列是转码时的功耗,最后一列是功耗差值)
来看NVENC,其转码速度明显优于GTX 480,性能高了133%之多。功耗方面,固定转码单元的GTX 680比GTX 480只低了21W,从差值上看也只有11W,并没有表现出比预期更明显的优势。
总的来看,Quick Sync依然是最好的编码加速方案,功耗和转码性能上都排名第一。另外,H.264 1-pass编码速度要比CPU还快,画质也高一些,而2-pass编码的速度不出意外地倒数第一,但是画质上傲视群雄。

如果以W(功耗)/H(时间,小时)为基础来看(转码功耗乘以时间(s)再除以3600,上图中的法文符号","在英文中是".",也就是说上图中的数值是6.87、8.95这样的小数而非整数),Quick Sync转码每小时消耗了0.83W电力,而GTX 670、GTX 680消耗的电力在3.10、3.24左右,其他方案消耗的就更高了,GTX 480效费比最差。
总结:
原文的总结有三段,其实意思可以归纳为三句话:
无论转码速度还是转码效率,Quick Sync依然是最佳的方案,NVIDIA的NVENC要胜过前代的CUDA方案,但还是比不过Intel。
H.264软件转码中1-pass速度要超过CPU转码,2-pass虽然速度最慢,但是画质是最好的,适合对画质有较高要求的场合。
至于AMD,技术上是好的,软件支持是杯具的。
H.264转码加速:NVENC大战Quick Sync的更多相关文章
- 视音频数据处理入门:H.264视频码流解析
===================================================== 视音频数据处理入门系列文章: 视音频数据处理入门:RGB.YUV像素数据处理 视音频数据处理 ...
- H.264/H265码流解析
H.264/H265码流解析 一.H.264码流解析 一个原始的H.264 NALU 单元常由 [StartCode] [NALU Header] [NALU Payload] 三部分组成 一个原始的 ...
- 【视频编解码·学习笔记】4. H.264的码流封装格式
一.码流封装格式简单介绍: H.264的语法元素进行编码后,生成的输出数据都封装为NAL Unit进行传递,多个NAL Unit的数据组合在一起形成总的输出码流.对于不同的应用场景,NAL规定了一种通 ...
- 【视频编解码·学习笔记】4. H.264的码流封装格式 & 提取NAL有效数据
一.码流封装格式简单介绍: H.264的语法元素进行编码后,生成的输出数据都封装为NAL Unit进行传递,多个NAL Unit的数据组合在一起形成总的输出码流.对于不同的应用场景,NAL规定了一种通 ...
- (转载)H.264码流的RTP封包说明
H.264的NALU,RTP封包说明(转自牛人) 2010-06-30 16:28 H.264 RTP payload 格式 H.264 视频 RTP 负载格式 1. 网络抽象层单元类型 (NALU) ...
- H.264码流结构解析
from:http://wenku.baidu.com/link?url=hYQHJcAWUIS-8C7nSBbf-8lGagYGXKb5msVwQKWyXFAcPLU5gR4BKOVLrFOw4bX ...
- H.264分层结构与码流结构
H.264分层结构 H.264编码器输出的Bit流中,每个Bit都隶属于某个句法元素.句法元素被组织成有层次的结构,分别描述各个层次的信息. 在H.264 中,句法元素共被组织成 序列.图像.片.宏 ...
- 使用VideoToolbox硬编码H.264<转>
文/落影loyinglin(简书作者)原文链接:http://www.jianshu.com/p/37784e363b8a著作权归作者所有,转载请联系作者获得授权,并标注“简书作者”. ======= ...
- H.264视频在android手机端的解码与播放(转)
随着无线网络和智能手机的发展,智能手机与人们日常生活联系越来越紧密,娱乐.商务应用.金融应用.交通出行各种功能的软件大批涌现,使得人们的生活丰富多彩.快捷便利,也让它成为人们生活中不可取代的一部分.其 ...
随机推荐
- AD设计过程中的注意事项
1.编译报错:off sheet at....是纸张太小的原因,选择大一点的纸张报错就会消失.
- Java网络通信——XML和JSON
XML(Extensible Markup Language) 定义:一种可扩展的标记性语言 XML有丰富的编码工具,比如Dom4j.JDom等. JSON(JavaScript Object Not ...
- WEB在线预览PDF
这是我在博客园发表的第一篇文章.以后会陆续把在线预览其他格式文档的解决方案发表出来. 解决思路:把pdf转换成html显示. 在线预览pdf我暂时了解3种解决方案,欢迎大家补充. 方案一: 利用pdf ...
- php单元测试到底是什么东西呢?
前言: 真正写php代码也有3年时间了,勉强算是一个php程序员, 但是,心底却一直没有底气. 都说测试驱动开发,可我连程序开发中什么是单元测试?这种基本的程序员的素养都 还不是很清楚,痛定思痛,决定 ...
- ApexSql Log
网址:https://www.apexsql.com/,可免费试用14天 安装成功后,点击new,配置DB连接: 选择要分析的Log文件: 进行过滤设置: 基本设置:时间,DML和 ...
- HMM的概率计算问题和预测问题的java实现
HMM(hidden markov model)可以用于模式识别,李开复老师就是采用了HMM完成了语音识别. 一下的例子来自于<统计学习方法> 一个HMM由初始概率分布,状态转移概率分布, ...
- IOS开发-ObjC-Category的使用
在IOS移动App开发中,经常会出现以下情况:定义好了一个类,但后来需求升级或改变之后需要对这个类增加功能,这样的话往往需要修改类的结构,这样就会导致不能预期的问题产生,所以Obj-C提供了一种叫做C ...
- 前端面试题整理(html篇)
1.Doctype作用?标准模式与兼容模式各有什么区别? <!DOCTYPE>声明位于位于HTML文档中的第一行,处于 <html> 标签之前.告知浏览器的解析器用什么文档标准 ...
- begin lydsy 2731
2731: 最长重复子串 Time Limit: 1 Sec Memory Limit: 128 MBSubmit: 6 Solved: 4[Submit][Status][Web Board] ...
- Bagging和Boosting 概念及区别
Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个性能更加强大的分类器,更准确的说这是一种分类算法的组装方法.即将弱分类器组装成强分类器的方法. 首先介绍Boot ...