在cuDNN中简化Tensor Ops

在Tesla V100 GPU中引入神经网络模型以来，神经网络模型已迅速利用NVIDIA Tensor Cores进行深度学习。例如，基于Tensor Core的解决方案宣布了ResNet50训练的性能记录。

NVIDIA的cuDNN库使CUDA程序员能够优化循环神经网络和卷积神经网络，以实现GPU加速。概述了cuDNN用户使用Tensor Core 进行卷积的简便方法，并附有说明和示例代码。该文章为cuDNN应用提供了一些简单的规则：FP16数据规则，张量维数规则，ALGO_1的使用等。

cuDNN版本解除了大多数限制。cuDNN 7.2版本取消了FP16数据约束，而cuDNN 7.3删除了张量尺寸约束（对于打包的NCHW张量数据），直接进行改进。

将FP32数据用于Tensor Ops

关于在CUDA中使用Tensor Core的帖子讨论了将FP16输入用于张量操作，如图1所示。虽然张量操作仍然使用FP16数据，但卷积cuDNN API允许用户选择将FP32输入数据转换为FP16。如果需要，卷积的输出数据也将转换为FP32。

图1. FP32数据现在可以用作输入

该CUDNN_TENSOR_OP_MATH_ALLOW_CONVERSION枚举值，在cuDNN 7.2，使cuDNN应用程序员选择转换FP32数据运算使用。该枚举值与枚举值一样传递给cudnnSetConvolutionMathType()调用CUDNN_TENSOR_OP_MATH。此代码段显示了如何执行此操作：

//设置数学类型以允许cuDNN使用Tensor Core：

checkCudnnErr（cudnnSetConvolutionMathType（cudnnConvDesc，CUDNN_TENSOR_OP_MATH_ALLOW_CONVERSION））;

将在后面的部分中看到使用代码片段的上下文。

FP32数据也用于RNN

现在还为RNN启用了类似的FP32数据转换。只需将CUDNN_TENSOR_OP_MATH_ALLOW_CONVERSION枚举值传递给cudnnSetRNNMatrixMathType()调用，即可将FP32数据转换为在RNN中使用。如下使用：

//设置数学类型以允许cuDNN使用Tensor Core：

checkCudnnErr（cudnnSetRNNMatrixMathType（cudnnRnnDesc，CUDNN_TENSOR_OP_MATH_ALLOW_CONVERSION））;

消除了NCHW张量尺寸约束

早期版本的cuDNN要求所有张量的通道维数必须为8的倍数。cuDNN可以根据需要自动填充张量。

在CUDNN_TENSOR_OP_MATH和CUDNN_TENSOR_OP_MATH_ALLOW_CONVERSION情况下，对于填充的NCHW数据，此填充都是自动的。发生填充时，性能损失可忽略不计。

//设置NCHW张量尺寸，不必设置为8的倍数（此处仅显示输入张量）：

int dimA [] = {1，7，32，32};

int strideA [] = {7168，1024，32，1};

下一节中的示例代码演示了如何使用。

样例代码

将张量运算用于FP32数据和任何通道尺寸的逻辑类似于为cuDNN的早期版本编写时使用的逻辑。只有维度和数据类型发生了变化（以及使用CUDNN_TENSOR_OP_MATH_ALLOW_CONVERSION)：

//创建一个cuDNN句柄：

checkCudnnErr（cudnnCreate（＆handle_））;

//创建张量描述符：

checkCudnnErr（cudnnCreateTensorDescriptor（＆cudnnIdesc））;

checkCudnnErr（cudnnCreateFilterDescriptor（＆cudnnFdesc））;

checkCudnnErr（cudnnCreateTensorDescriptor（＆cudnnOdesc））;

checkCudnnErr（cudnnCreateConvolutionDescriptor（＆cudnnConvDesc））;

//设置NCHW张量尺寸，不必设置为8的倍数（此处仅显示输入张量）：

int dimA [] = {1，7，32，32};

int strideA [] = {7168，1024，32，1};

checkCudnnErr（cudnnSetTensorNdDescriptor（cudnnIdesc，CUDNN_DATA_FLOAT，

convDim + 2，dimA，strideA））;

//分配和初始化张量（同样，仅显示输入张量）：

checkCudaErr（cudaMalloc（（void **）＆（devPtrI），（insize）* sizeof（devPtrI [0]））））;;

hostI =（T_ELEM *）calloc（insize，sizeof（hostI [0]））;

initImage（hostI，insize）;

checkCudaErr（cudaMemcpy（devPtrI，hostI，sizeof（hostI [0]）* insize，cudaMemcpyHostToDevice））;

//设置计算数据类型（以下为CUDNN_DATA_FLOAT）：

checkCudnnErr（cudnnSetConvolutionNdDescriptor（cudnnConvDesc，convDim，padA，convstrideA，dilationA，CUDNN_CONVOLUTION，CUDNN_DATA_FLOAT））;;

//设置数学类型以允许cuDNN使用Tensor Core：

checkCudnnErr（cudnnSetConvolutionMathType（cudnnConvDesc，CUDNN_TENSOR_OP_MATH_ALLOW_CONVERSION））;

//选择支持的算法：

cudnnConvolutionFwdAlgo_t算法= CUDNN_CONVOLUTION_FWD_ALGO_IMPLICIT_PRECOMP_GEMM;

//分配的工作空间：

checkCudnnErr（cudnnGetConvolutionForwardWorkspaceSize（handle_，cudnnIdesc，

cudnnFdesc，cudnnConvDesc，

cudnnOdesc，algo，＆workSpaceSize））;

如果（workSpaceSize> 0）{

   cudaMalloc（＆workSpace，workSpaceSize）;

//调用卷积：

checkCudnnErr（cudnnConvolutionForward（handle_，（void *）（＆alpha），cudnnIdesc，devPtrI，

cudnnFdesc，devPtrF，cudnnConvDesc，algo，

workSpace，workSpaceSize，（void *）（＆beta），

cudnnOdesc，devPtrO））;

FP32性能

图2显示了将Tensor Core用于FP32张量数据时卷积的比较性能。该图表将V100张量运算与V100 FMA运算进行了比较，因此，其增益并不像以前的将V100性能与P100 FMA进行比较的图表那样明显。但是，与使用FMA ops相比，与FP32输入一起使用的Tensor ops仍然代表了可观的收益。

图2.具有Tensor Core的Tesla V100（Volta）与Tesla V100（Volta）的卷积性能比较。比较是在每个神经网络的卷积层运行时间的几何方法之间进行的。两种情况都使用FP32输入/输出数据和FP32计算。一种使用Tensor Core，另一种使用FP32融合乘加（FMA）。

剩余约束

尽管解除了在cuDNN中使用张量运算的主要限制，但仍然存在一些次要限制。一个限制是使用ALGO_1（IMPLICIT_PRECOMP_GEMM用于转发）。cuDNN中还没有其他卷积算法使用张量运算。

另一个较小的限制是卷积滤波器的大小，特别是空间尺寸（r和s）。但是，用于卷积的FFT算法非常适合于滤波器尺寸较大的用例。只需在超出张量运算滤波器限制以达到最佳性能之前就将卷积切换为使用FFT算法即可。