cuDNN概述

cuDNN概述

NVIDIACUDA深度神经网络库（cuDNN）是GPU加速的用于深度神经网络的原语库。cuDNN为标准例程提供了高度优化的实现，例如向前和向后卷积，池化，规范化和激活层。

全球的深度学习研究人员和框架开发人员都依赖cuDNN来实现高性能GPU加速。它使他们可以专注于训练神经网络和开发软件应用程序，而不必花时间在底层GPU性能调整上。cuDNN的加快广泛使用的深度学习框架，包括Caffe2，Chainer，Keras，MATLAB，MxNet，PyTorch和TensorFlow。已将cuDNN集成到框架中的NVIDIA优化深度学习框架容器，访问NVIDIA GPU CLOUD了解更多信息并开始使用。

8x Tesla V100 + cuDNN 7.6 on 20.03 NGC container vs. 8x Tesla A100 + cuDNN 8.0 Preview on Pre-Release NGC container. MaskRCNN, PyTorch TF32 vs FP32, Batch Size: 8. GNMT, PyTorch TF32 vs FP32, Batch Size: 512. WaveGlow, PyTorch TF32 vs FP32, Batch Size: 10. U-Net Medical, TensorFlow FP16 (Mixed) vs FP16, Batch Size: 16. U-Net Industrial, TensorFlow FP16 (Mixed) vs FP16, Batch Size: 24. TacoTron2, PyTorch FP16 (Mixed) vs FP16, Batch Size: 128.

cuDNN 8的新增功能

cuDNN 8针对A100 GPU进行了优化，提供了比V100 GPU高出5倍的高性能，并且包括针对会话AI和计算机视觉等应用程序的新优化和API。经过重新设计，易于使用，集成应用程序，并为开发人员提供了更大的灵活性。

cuDNN 8的亮点包括：

已针对包括新TensorFloat-32，FP16和FP32在内的NVIDIA A100 GPU的峰值性能进行了调整
重新设计的低级API可直接访问cuDNN内核，以实现更好的控制和性能调整
向后兼容层保持对cuDNN 7.x的支持，使开发人员可以管理向新cuDNN 8 API的过渡
针对计算机视觉，语音和语言理解网络的新优化
融合运算符以新API加速卷积神经网络

cuDNN 8现在提供六个较小的库，可在集成到应用程序时提供粒度。

主要特征

适用于所有常见卷积的Tensor Core加速，包括2D，3D，分组，深度可分离以及使用NHWC和NCHW输入和输出进行扩张
针对计算机视觉和语音模型的优化内核，包括ResNet，ResNext，SSD，MaskRCNN，Unet，VNet，BERT，GPT-2，Tacotron2和WaveGlow
支持FP32，FP16和TF32浮点格式以及INT8和UINT8整数格式
4d张量的任意维排序，跨距和子区域意味着可以轻松集成到任何神经网络实现中
加速任何CNN架构上的融合操作

cuDNN在Windows和Linux上受数据中心和移动GPU中的Ampere，Turing，Volta，Pascal，Maxwell和Kepler GPU体系结构支持。

cuDNN加速框架

cuDNN概述的更多相关文章

tensorflow各个版本的CUDA以及Cudnn版本对应关系
概述,需要注意以下几个问题: (1)NVIDIA的显卡驱动程序和CUDA完全是两个不同的概念哦!CUDA是NVIDIA推出的用于自家GPU的并行计算框架,也就是说CUDA只能在NVIDIA的GPU上运 ...
在cuDNN中简化Tensor Ops
在cuDNN中简化Tensor Ops 在Tesla V100 GPU中引入神经网络模型以来,神经网络模型已迅速利用NVIDIA Tensor Cores进行深度学习.例如,基于Tensor Core ...
cuDNN 功能模块解析
Abstract 本cuDNN 8.0.4开发人员指南概述了cuDNN功能,如可自定义的数据布局.支持灵活的dimension ordering,striding,4D张量的子区域,这些张量用作其所有 ...
【AR实验室】ARToolKit之概述篇
0x00 - 前言我从去年就开始对AR(Augmented Reality)技术比较关注,但是去年AR行业一直处于偶尔发声的状态,丝毫没有其"异姓同名"的兄弟VR(Virtual ...
Recurrent Neural Network系列1--RNN（循环神经网络）概述
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 本文翻译自 RECURRENT NEURAL NETWORKS T ...
Swift3.0服务端开发(一) 完整示例概述及Perfect环境搭建与配置（服务端+iOS端）
本篇博客算是一个开头,接下来会持续更新使用Swift3.0开发服务端相关的博客.当然,我们使用目前使用Swift开发服务端较为成熟的框架Perfect来实现.Perfect框架是加拿大一个创业团队开发 ...
.Net 大型分布式基础服务架构横向演变概述
一. 业务背景构建具备高可用,高扩展性,高性能,能承载高并发,大流量的分布式电子商务平台,支持用户,订单,采购,物流,配送,财务等多个项目的协作,便于后续运营报表,分析,便于运维及监控. 二. 基础 ...
[C#] 进阶 - LINQ 标准查询操作概述
LINQ 标准查询操作概述序 “标准查询运算符”是组成语言集成查询 (LINQ) 模式的方法.大多数这些方法都在序列上运行,其中的序列是一个对象,其类型实现了IEnumerable<T> ...
【基于WinForm+Access局域网共享数据库的项目总结】之篇一：WinForm开发总体概述与技术实现
篇一:WinForm开发总体概述与技术实现篇二:WinForm开发扇形图统计和Excel数据导出篇三:Access远程连接数据库和窗体打包部署 [小记]:最近基于WinForm+Access数据库 ...

随机推荐

TP5 验证-内置规则
系统内置的验证规则如下: 格式验证类 require 验证某个字段必须,例如: 'name'=>'require' number 或者 integer 验证某个字段的值是否为数字(采用filte ...
dedecms后台一些时间等验证方法（plus/diy.php）
<?php if(trim(@$_POST['name'])==''){ $err=2; } if(trim(@$_POST['tel'])==''){ $err=1; }else{ @$_PO ...
hdu4302 set或者线段树
题意: 一条蛇生活在一个管子里,然后管子上面的某些位置会一次出现食物,每次蛇都会吃最近的食物,吃完之后就原地不动,等待下一次吃食物,如果有两个食物距离蛇一样远并且都是最近的,那么蛇不会掉头 ...
DVWA之Reflected XSS(反射型XSS)
目录 Low Medium High Impossible Low 源代码: <?php header ("X-XSS-Protection: 0"); // Is ther ...
Docker用Dockerfile定制镜像
用Dockerfile定制镜像镜像的定制实际上就是定制每一层所添加的配置.文件.如果我们可以把每一层修改.安装.构建.操作的命令都写入一个脚本,用这个脚本来构建.定制镜像,那之前提示的无法重复的问题 ...
(1) arm 指令格式
arm 指令的基本格式如下: <opcode>{<cond>}{S}{.W\.N} <Rd>,<Rn>{,<operand2>} opcod ...
【pytest系列】- fixture测试夹具详解
如果想从头学起pytest,可以去看看这个系列的文章! https://www.cnblogs.com/miki-peng/category/1960108.html fixture的优势 pyt ...
[LeetCode每日一题]1143. 最长公共子序列
[LeetCode每日一题]1143. 最长公共子序列问题给定两个字符串 text1 和 text2,返回这两个字符串的最长公共子序列的长度.如果不存在公共子序列 ,返回 0 . 一个字符串 ...
InnoDB解决幻读的方案——LBCC&MVCC
最近要在公司内做一次技术分享,思来想去不知道该分享些什么,最后在朋友的提示下,准备分享一下MySQL的InnoDB引擎下的事务幻读问题与解决方案--LBCC&MVCC.经过好几天的熬夜通宵,终 ...
面试题---->线程的入门,读完可以应付一般的面试(管理员不要移除我的随笔啊)
这个都是入门和一般的常规知识,大佬轻喷 ①.继承Thread类 ②.实现Runnable接口(常用,优点多) ③.实现Callable接口实现Runnable和Callable接口的类只能当作一个可 ...

cuDNN概述

cuDNN概述的更多相关文章

随机推荐

热门专题