【CUDA开发-并行计算】NVIDIA深度学习应用之五大杀器
来自吉浦迅科技
整理发布
http://mp.weixin.qq.com/s?__biz=MjM5NTE3Nzk4MQ==&mid=2651231163&idx=1&sn=d48b4480da3481de8ae20e78b1ee22df&scene=23&srcid=0605uZ1nd6QlqnK6AJdMlZkI#rd
第五名:Tesla K80
Tesla ——英伟达高端大气上档次专用计算卡品牌,以性能高、稳定性强,适用于长时间高强度计算著称。
Tesla K80 双GPU 加速器可透过一卡双 GPU 提供双倍传输量,内置24GB GDDR5 存储器,每颗 GPU 有 12GB 存储器,比上代Tesla K40 GPU 提供多两倍存储器可处理更大的资料集分析。Tesla K80 内建4,992 CUDA 并行运算核心,可比仅用CPU 运算提升高达10 倍应用加速效能,单精度峰值浮点性能为8.74
Teraflops,双精度峰值浮点性能为2.91 Teraflops,峰值内存带宽为480 GB/s,非常适合于数据密集型应用。
|
特性 |
Tesla K80 |
Tesla K40 |
|
GPU |
2 颗 Kepler GK210 |
1 Kepler GK110B |
|
峰值双精度浮点性能 |
2.91 Tflops (GPU 动态提速频率) |
1.66 Tflops (GPU 动态提速频率) |
|
峰值单精度浮点性能 |
8.74 Tflops (GPU 动态提速频率) |
5 Tflops (GPU 动态提速频率) |
|
存储器带宽(ECC关闭)2 |
480 GB/s (每颗GPU 240 GB/s) |
288 GB/sec |
|
存储器容量(GDDR5) |
24 GB (每颗GPU 12GB) |
12 GB |
|
CUDA核心数量 |
4992 个 (每颗 GPU |
2880 |
上榜理由:双精度计算之冠,舍我其谁?
适用机型:机架式服务器
市场零售价:3万人民币
第四名:Tesla M40
Tesla家族第一款Maxwell架构计算卡!
Maxwell架构除了双精度是弱外,其他各方面都十分优秀,比如加入了寄存器的缓冲,用来消除寄存器的bank conflict,再比如加入远程原子操作,即shared memory能自行计算,不占用SP,同时还提高了原子操作的性能。
英伟达号称Tesla M40 GPU 加速器是全球快的深度学习训练加速器,专为显著缩短训练时间而定制。采用了完整的麦克斯韦架构大核心GM200,3072个CUDA核心,单精度浮点计算突破7TFlops,而双精度几乎只能呵呵了。
|
特性 |
Tesla K80 |
Tesla M40 |
|
GPU |
2 颗 Kepler GK210 |
1 Maxwell GM200 |
|
峰值双精度浮点性能 |
2.91 Tflops (GPU 动态提速频率) |
0.21Tflops |
|
峰值单精度浮点性能 |
8.74 Tflops (GPU 动态提速频率) |
7 Tflops |
|
存储器带宽(ECC关闭)2 |
480 GB/s (每颗GPU 240 GB/s) |
384GB/sec |
|
存储器容量(GDDR5) |
24 GB (每颗GPU 12GB) |
12 GB |
|
CUDA核心数量 |
4992 个 (每颗 GPU |
3072 |
上榜理由:高富帅之不需要双精度的首选,你值得拥有!
适用机型:机架式服务器
市场零售价:3.3万人民币
第三名:Titan X
小编觉得让GPU在机器学习上真正开始发扬光大的是Titan
X的出现!
同样采用了完整的麦克斯韦架构大核心GM200,3072个CUDA核心,单精度浮点计算7TFlops,12GB显存,再加上同时发布的英伟达DIGITS深度学习GPU训练系统的加持,更是让数据科学家和研究人员如虎添翼,能够通过更快的模型训练和更复杂的模型设计来创造更准确的神经网络,从而加速其深度学习项目和产品的开发工作,也因此让Titan X声名大噪!关键让人泪奔的还有价格:9千人民币有找!
|
特性 |
Titan X |
TeslaM40 |
|
GPU |
1 Maxwell GM200 |
1 Maxwell GM200 |
|
峰值双精度浮点性能 |
0.21Tflops |
0.21Tflops |
|
峰值单精度浮点性能 |
7Tflops |
7 Tflops |
|
存储器带宽(ECC关闭)2 |
384 GB/s |
384GB/sec |
|
存储器容量(GDDR5) |
12 GB |
12 GB |
|
CUDA核心数量 |
3072 |
3072 |
上榜理由:屌丝的逆袭!
适用机型:塔式服务器/工作站
市场零售价:8866元人民币(以华硕Titan X某东商城价格为例)
第二名:GTX1080
上个月英伟达 正式发布了新一代旗舰显卡 GeForce GTX 1080,应该算是首款Pascal上市的显卡产品。
Pascal架构的Half2向量操作特性,免费了200%的性能(不过是半精度),可以说早买早收益。而本月英伟达最新的cuDNN5开放下载,可以在单一NVIDIA Pascal GPU上最高实现44%的训练速度提升,这使得GTX1080充满了期待。尽管有开发者表示显存没有Titan X高,但谁叫GTX1080的价格只有Titan
X的2/3呢?
|
特性 |
Titan X |
GTX1080 |
|
GPU |
1 Maxwell GM200 |
1 Pascal GP104 |
|
峰值双精度浮点性能 |
0.21Tflops |
N/A |
|
峰值单精度浮点性能 |
7Tflops |
9 Tflops |
|
存储器带宽(ECC关闭)2 |
384 GB/s |
320GB/sec |
|
存储器容量(GDDR5) |
12 GB |
8 GB |
|
CUDA核心数量 |
3072 |
2560 |
上榜理由:让NVIDIA在机器学习的道路上走得更加深远
适用机型:塔式服务器/工作站
市场零售价:5600元人民币(华硕GTX1080某东商城开始预售)
第一名:Tesla P100
小编只能说:这是一款大杀器,所有资料都来自于网路上。传言,它只开启了3584个单精度、1792个双精度核心,即便如此,单、双精度浮点性能也高达10.6TFlops、5.3TFlops,同时还搭配了4096-bit 16GB HBM2高带宽显存,并支持全新的NVLink互连总线,取代传统PCI-E
——它就是传说中的Tesla P100! 英伟达声称将推动深度学习和HPC应用性能跨越式发展:其中,全新的Pascal架构实现了巨大的性能飞跃,半精度指令为深度学习提供了超过 21 Teraflops 的峰值性能;NVLink 将CPU与GPU之间的带宽实现5倍加速、CoWoS
和 HBM2带来3倍带宽提升;页面迁移引擎带来了无限制的寻址能力,实现更强的可编程性。
网上传言单颗P100都能干掉两颗M40,领先幅度10-20%不等,而对比消费级游戏卡,P1001颗已经相当于GTX Titan X四颗的水准。
而最新发布的cuDNN5也特别强调了对Tesla P100的支持!
上榜理由:高富帅的顶级装备
适用机型:NVIDIA
DGX-1
市场零售价:据说不-单-卖!
【CUDA开发-并行计算】NVIDIA深度学习应用之五大杀器的更多相关文章
- 【ARM-Linux开发】【CUDA开发】【深度学习与神经网络】Jetson Tx2安装相关之三
JetPack(Jetson SDK)是一个按需的一体化软件包,捆绑了NVIDIA®Jetson嵌入式平台的开发人员软件.JetPack 3.0包括对Jetson TX2 , Jetson TX1和J ...
- CUDA上的量化深度学习模型的自动化优化
CUDA上的量化深度学习模型的自动化优化 深度学习已成功应用于各种任务.在诸如自动驾驶汽车推理之类的实时场景中,模型的推理速度至关重要.网络量化是加速深度学习模型的有效方法.在量化模型中,数据和模型参 ...
- NVIDIA深度学习Tensor Core性能解析(上)
NVIDIA深度学习Tensor Core性能解析(上) 本篇将通过多项测试来考验Volta架构,利用各种深度学习框架来了解Tensor Core的性能. 很多时候,深度学习这样的新领域会让人难以理解 ...
- NVIDIA深度学习Tensor Core性能解析(下)
NVIDIA深度学习Tensor Core性能解析(下) DeepBench推理测试之RNN和Sparse GEMM DeepBench的最后一项推理测试是RNN和Sparse GEMM,虽然测试中可 ...
- 【ARM-Linux开发】【CUDA开发】NVIDIA Jetson TX2 进阶:Nsight Eclipse Edition
嵌入式平台:NVIDIA Jetson TX2 嵌入式系统:Ubuntu16.04 虚拟机系统:Ubuntu14.04 一.NSight简介 Jetpack开发工具为人工智能提供了一整套软件架构,包括 ...
- 【深度学习】深入理解优化器Optimizer算法(BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam)
在机器学习.深度学习中使用的优化算法除了常见的梯度下降,还有 Adadelta,Adagrad,RMSProp 等几种优化器,都是什么呢,又该怎么选择呢? 在 Sebastian Ruder 的这篇论 ...
- Pytorch1.0深度学习:损失函数、优化器、常见激活函数、批归一化详解
不用相当的独立功夫,不论在哪个严重的问题上都不能找出真理:谁怕用功夫,谁就无法找到真理. —— 列宁 本文主要介绍损失函数.优化器.反向传播.链式求导法则.激活函数.批归一化. 1 经典损失函数 1. ...
- 【并行计算-CUDA开发】 NVIDIA Jetson TX1
概述 NVIDIA Jetson TX1是计算机视觉系统的SoM(system-on-module)解决方案.它组合了最新的NVIDIAMaxwell GPU架构,其具有ARM Cortex-A57 ...
- 【ARM-Linux开发】【CUDA开发】NVIDIA TEGRA X1:LINUX驱动程序包多媒体用户指南
NVIDIA TEGRA X1:LINUX驱动程序包多媒体用户指南 转载请注明作者和出处:http://blog.csdn.net/u011475210 嵌入式平台:NVIDIA Jetson TX1 ...
随机推荐
- .prop()和.attr()的区别
具有 true 和 false 两个属性的属性,如 checked, selected 或者 disabled 使用prop(),其他的使用 attr()
- runtime - 消息发送(objc_msgSend)
http://www.jianshu.com/p/95c8cb186673 在OC中,我们对方法的调用都会被转换成内部的消息发送执行对objc_msgSend方法的调用,掌握好消息发送,可以让我们在编 ...
- vue 实战
vue 实战 Vue命令行工具vue-cli https://www.cnblogs.com/xiaohuochai/p/7277771.html https://github.com/ymblog/ ...
- Async programming
Asynchrony, in computer programming, refers to the occurrence of events independent of the mainprogr ...
- es6 函数解构的用途
es6的变量解构赋值很方便,那具体有哪些用途呢? 1.变换变量的值 let n = 10; let m = 20; [n, m] = [m, n] 这样n , m 的值 会互换, 即:n = 20, ...
- Mac Sublime Text使用python3运行脚本(command+b)
默认安装好sublime, 使用快捷键command+b的时候, 会使用python2版本运行 下面就改为用python3运行, 也可以python2运行 一. 新建文件 Sublime Text - ...
- eclipseWeb项目如何实现网址发送给外人——内部穿透
教程:https://blog.csdn.net/Feihongxiansen/article/details/94480480 部署完成后: 打开cmd命令: 暴露端口8081成功: 将eclips ...
- 访问者模式(Visitor Patten)
参考文章: http://www.importnew.com/15561.html 定义: 封装某些作用于某种数据结构中各元素的操作,它可以在不改变数据结构的前提下定义作用于这些元素的新的操作. um ...
- Linux上tomcat部署web项目,访问报错"ip访问时间过长"
项目原来是可以访问的,后来突然不能不访问了,系统ip也是能ping通的,后来就想是不是防火墙的问题,查看一下还真是 原因:Linux服务器上的防火墙开着,关闭即可 1.查看firewall服务状态 s ...
- ModuleNotFoundError: No module named 'pymysql'
出现此提示表示系统中没有安装PyMySQL,可以通过pip PyMySQL进行安装. 安装之后,执行import pymysql仍然不可用! why? 检查后发现系统中存在python2与python ...