在NVIDIA A100 GPU中使用DALI和新的硬件JPEG解码器快速加载数据

如今，最流行的拍照设备智能手机可以捕获高达4K UHD的图像（3840×2160图像），原始数据超过25 MB。即使考虑到令人尴尬的低HD分辨率（1280×720），原始图像也需要超过2.5 MB的存储空间。存储少至100张UHD图像将需要近3 GB的可用空间。

显然，如果以这种方式存储数据，则会很快耗尽空间。这是图像压缩派上用场的地方。众所周知的JPEG格式可以将图像大小从30 MB缩小到3 MB。

对于深度学习的计算机视觉应用程序（其中有数百万个样本的训练数据集是通用的），压缩和有效存储图像数据比以往任何时候都更为重要。行业标准的数据集（例如ImageNet和COCO）使用JPEG格式存储数据。因此，ImageNet仅占用150 GB的空间，而不是惊人的32 TB的未压缩数据。

压缩效果很好-它可以节省大量磁盘空间。不幸的是，它突出了另一项挑战，在与计算机视觉相关的深度学习应用程序中尤为明显：图像解压缩是一项计算密集型任务。实际上，这是数据处理管道中最耗时的任务，直到JPEG解码在GPU上运行的训练变得空缺。

面对这一问题，开发了NVIDIA数据加载库（DALI）来加速图像解码，增强和管道预处理。它缓解了此CPU瓶颈。DALI通过利用nvJPEG（用于JPEG解码的CUDA库）来加速图像解码。不仅如此，还可以采用数据处理管道，从解码到扩充再到训练，再到更高的性能水平。

最近，推出了基于NVIDIA Ampere架构的A100 GPU。它添加了硬件JPEG解码器以进一步提高性能。它是负责解码JPEG图像的专用硬件模块。

先前的架构没有这种硬件单元，并且JPEG解码是使用CPU和GPU可编程SM单元的纯软件（CUDA）解决方案。利用专用的硬件单元，解码不再与CUDA核心竞争其它计算密集型任务，例如在神经网络训练期间进行正向和反向馈送。

它通过CUDA工具包的一部分nvJPEG库公开。有关更多信息，请参阅在NVIDIA A100 GPU上利用硬件JPEG解码器和NVIDIA nvJPEG库。作为DALI用户，随着DALI和NVJPEG集成的抽象化，将自动受益于硬件加速的解码，而无需更改任何代码。

通过将JPEG硬件解码器与DALI配合使用，可以轻松地为深度学习应用程序访问此JPEG硬件解码器功能。如果将DALI ImageDecoder与后端混合使用，则无需更改代码。获取CUDA 11的最新DALI版本，并享受NVIDIA Ampere架构支持的，硬件加速的JPEG解码。

以下代码示例显示了DALI管道，该管道可加载图像并使用GPU对其进行解码：

class SimplePipeline(Pipeline): def __init__(self, batch_size, num_threads, device_id): super().__init__(batch_size, num_threads, device_id, seed = 12) self.input = ops.FileReader(file_root = image_dir) self.decode = ops.ImageDecoder(device = 'mixed', output_type = types.RGB) def define_graph(self): jpegs, labels = self.input() images = self.decode(jpegs) return images, labels

混合GPU解码器

借助DALI，可以更进一步，并将基于硬件，软件和基于CUDA的方法结合起来进行JPEG解码，并行运行它们以获得更高的吞吐量。图1显示了这样一种管道如何工作。

图1：采用软件/ CUDA和硬件加速JPEG图像解码并行使用的DALI管线图。

可以通过调整hw_decoder_load参数来决定工作量，以决定将多少解码负载分配给硬件解码器，以及通过GPU加速的CUDA方法同时完成多少负载。

结果取决于现有的GPU工作负载（GPU必须完成的工作量），并且可以根据经验进行调整以最大程度地提高每种用例的吞吐量。

图2提供了比例为75:25的数字。但是，当GPU已被其它工作（例如正向传播和反向传播）占用时，可能会通过将较大一部分图像解码任务卸载到硬件解码器（例如80％甚至更多）来找到最佳位置。

以下代码示例显示了将75％的图像解码任务卸载到硬件解码器的管道：

class SimplePipeline(Pipeline): def __init__(self, batch_size, num_threads, device_id): super().__init__(batch_size, num_threads, device_id, seed = 12) self.input = ops.FileReader(file_root = image_dir) self.decode = ops.ImageDecoder(device = 'mixed', output_type = types.RGB, hw_decoder_load=0.75) def define_graph(self): jpegs, labels = self.input() images = self.decode(jpegs) return images, labels

图2显示了将DALI解码从CPU切换到各种基于GPU的方法时可以期望的性能提升。针对不同的批处理大小，CPU libjpeg-turbo解决方案，Volta CUDA解码，A100硬件JPEG解码器以及A100双硬件和CUDA解码器执行了测试。

图2：用于ImageNet训练数据集的CPU，CUDA，A100硬件以及双CUDA和硬件JPEG图像解码之间的解码速度比较。批次样品均分。

图2和4的测试配置：

NVIDIA V100 GPU: CPU – E5-2698 v4@2GHz 3.6GHz Turbo (Broadwell) HT On, GPU – Tesla V100-SXM2-16GB(GV100) 1*16160 MiB 1*80 SM, GPU Video Clock 1312, 4 threads used in DALI pipeline
NVIDIA A100 GPU: CPU – Platinum 8168@2GHz 3.7GHz Turbo (Skylake) HT On, GPU – A100-SXM4-40GB(GA100) 140557 MiB 1108 SM, GPU Video Clock 1095, 4 threads used in DALI pipeline
CPU: CPU – Platinum 8168@2GHz 3.7GHz Turbo (Skylake) HT On, Dataset – training set of ImageNet, 4 threads used in DALI pipeline

图3显示了典型的类似ResNet50的图像分类管道。

图3.类似ResNet50的图像分类管道。

图4显示了ResNet-50模型的端到端数据管道加速。总体管线加速看起来与前面图2中的解码加速相同。

图4：针对类似ResNet50的图像分类模型，CPU，CUDA，A100硬件加速以及双CUDA和硬件加速JPEG图像解码之间的端到端数据处理管道吞吐量比较。

以下是一些要点：

对于基于图像的工作负载，解码是数据预处理管道中计算最密集的方面。通过加快速度，整个管道都能看到好处。
端到端的训练吞吐量在很大程度上取决于可以为GPU提供数据的速度（管道的输出）。DALI专门用于确保GPU不断获得数据。有关如何确定的数据管道是否受CPU瓶颈以及DALI如何提供帮助的信息，请参阅案例研究：带有DALI的ResNet50。

在NVIDIA A100 GPU中使用DALI和新的硬件JPEG解码器快速加载数据的更多相关文章

NVIDIA A100 GPUs上硬件JPEG解码器和NVIDIA nvJPEG库
NVIDIA A100 GPUs上硬件JPEG解码器和NVIDIA nvJPEG库 Leveraging the Hardware JPEG Decoder and NVIDIA nvJPEG Lib ...
在NVIDIA A100 GPU上利用硬件JPEG解码器和NVIDIA nvJPEG库
在NVIDIA A100 GPU上利用硬件JPEG解码器和NVIDIA nvJPEG库根据调查,普通人产生的1.2万亿张图像可以通过电话或数码相机捕获.这样的图像的存储,尤其是以高分辨率的原始格式, ...
echarts在.Net中使用实例(二) 使用ajax动态加载数据
通过上一篇文章可以知道和echarts参考手册可知,series字段就是用来存储我们显示的数据,所以我们只需要用ajax来获取series的值就可以. option 名称描述 {color}back ...
Flexigrid从对象中加载数据
(有问题,在找…………) Flexigrid是用来动态加载数据的一种比较好(老)的Jquery表插件,然后有些时候,我们需要其从本地或者jQuery对象中加载数据,比如有这么个需求,页面显示中有两个表 ...
smarty中增加类似foreach的功能自动加载数据方法
第一步:在Smarty_Compiler.class.php的_compile_tag函数中增加: 复制代码代码如下: //加载数据的开始标签case 'load': $this->_push ...
WinForm中异步加载数据并使用进度条
在WinForm程序中,有时会因为加载大量数据导致UI界面假死,这种情况对于用户来说是非常不友好的.因此,在加载大量数据的情况下,首先应该将数据加载放在另一线程中进行,这样保证了UI界面的响应:其次可 ...
ArcGIS Engine中加载数据
ArcGIS Engine中加载数据 http://blog.csdn.net/gisstar/article/details/4206822 分类: AE开发积累2009-05-21 16:49 ...
Android中GridView滚动到底部加载数据终极版
之前在项目中有一个需求是需要GridView控件,滚动到底部自动加载.但是呢GridView控件并不提供诸如ListView监听滚动到底部的onScrollListener方法,为了实现这样一个效果, ...
Android中ListView分页加载数据
public class MainActivity extends Activity { private ListView listView=null; //listview的数据填充器 privat ...

随机推荐

常用head标签
最小推荐 <meta charset="utf-8"> <meta http-equiv="x-ua-compatible" content= ...
css单位介绍em ex ch rem vw vh vm cm mm in pt pc px
长度单位主要有以下几种em ex ch rem vw vh vm cm mm in pt pc px %,大概可以分为几种"绝对单位"和"相对单位"和" ...
hdu3472 混合欧拉
题意: 给你一些字符串,有的字符串反过来也有意义,题目问给的这n个字符串是否可以首尾相连,组成一个串. 思路: 算是混合欧拉的基础题目了,混合欧拉就是专门处理这类问题的,先说下 ...
SQL注入平台（sqli-labs）搭建提示Fatal error: Uncaught Error:
笔者搭建该平台时用的是phpstudy,估计wampserver和xmapp也适用搭建过程中出现错误在浏览器进入sqli-labs时有以下提示 Fatal error: Uncaught Erro ...
初入MongoDB
初入MongoDB 业务需求,需要用到MongoDB.向来一直是mysql数据库的思想,一下转换为nosql还是很不适应.经过一个月的开发,写一下自己的感触.本文会对应mysql数据库进行说明. 数据 ...
Docker搭建开发环境（Nginx+MySQL+PHP）
注意事项 1.像MySQL配置文件.Nginx配置文件.网站根目录这种比较经常操作的需要先使用 docker cp 将文件从容器里复制到主机目录,docker run的时候直接挂载目录就可以了 2.d ...
burp-suite（Web安全测试工具）教程
Burp Suite 是用于攻击web 应用程序的集成平台.它包含了许多工具,并为这些工具设计了许多接口,以促进加快攻击应用程序的过程.所有的工具都共享一个能处理并显示HTTP 消息,持久性,认证,代 ...
Java容器 | 基于源码分析List集合体系
一.容器之List集合 List集合体系应该是日常开发中最常用的API,而且通常是作为面试压轴问题(JVM.集合.并发),集合这块代码的整体设计也是融合很多编程思想,对于程序员来说具有很高的参考和借鉴 ...
OO第一单元总结——表达式求导
第一次作业 (1) UML结构图 (2)结构分析 Polynomial 类是对输入的字符串进行预处理,其中包括判断格式是否合法,运算符简化,分割成项等方法. Polynomial处理后得到的每一个项的 ...
computed和watch的区别
严格上来说,计算属性能够实现的效果,watch都可以实现.只是有时候watch写起来比较麻烦. 但是watch能够实现的效果computed不一定能够实现. 1:watch内部可以包含异步操作,com ...

在NVIDIA A100 GPU中使用DALI和新的硬件JPEG解码器快速加载数据

在NVIDIA A100 GPU中使用DALI和新的硬件JPEG解码器快速加载数据的更多相关文章

随机推荐

热门专题