来自吉浦迅科技
整理发布

http://mp.weixin.qq.com/s?__biz=MjM5NTE3Nzk4MQ==&mid=2651231163&idx=1&sn=d48b4480da3481de8ae20e78b1ee22df&scene=23&srcid=0605uZ1nd6QlqnK6AJdMlZkI#rd

第五名:Tesla K80

  Tesla ——英伟达高端大气上档次专用计算卡品牌,以性能高、稳定性强,适用于长时间高强度计算著称。

Tesla K80 双GPU 加速器可透过一卡双 GPU 提供双倍传输量,内置24GB GDDR5 存储器,每颗 GPU 有 12GB 存储器,比上代Tesla K40 GPU 提供多两倍存储器可处理更大的资料集分析。Tesla K80 内建4,992 CUDA 并行运算核心,可比仅用CPU 运算提升高达10 倍应用加速效能,单精度峰值浮点性能为8.74
Teraflops,双精度峰值浮点性能为2.91 Teraflops,峰值内存带宽为480 GB/s,非常适合于数据密集型应用。

特性

Tesla K80

Tesla K40

GPU

2 颗 Kepler GK210

1 Kepler GK110B

峰值双精度浮点性能

2.91 Tflops (GPU 动态提速频率)

1.87 Tflops (基础频率)

1.66 Tflops (GPU 动态提速频率)

1.43 Tflops (基础频率)

峰值单精度浮点性能

8.74 Tflops (GPU 动态提速频率)

5.6 Tflops (基础频率)

5 Tflops (GPU 动态提速频率)

4.29 Tflops (基础频率)

存储器带宽(ECC关闭)2

480 GB/s (每颗GPU 240 GB/s)

288 GB/sec

存储器容量(GDDR5)

24 GB (每颗GPU 12GB)

12 GB

CUDA核心数量

4992 个 (每颗 GPU
2496个)

2880

上榜理由:双精度计算之冠,舍我其谁?

适用机型:机架式服务器

市场零售价:3万人民币

第四名:Tesla M40

Tesla家族第一款Maxwell架构计算卡!
Maxwell架构除了双精度是弱外,其他各方面都十分优秀,比如加入了寄存器的缓冲,用来消除寄存器的bank conflict,再比如加入远程原子操作,即shared memory能自行计算,不占用SP,同时还提高了原子操作的性能。

英伟达号称Tesla M40 GPU 加速器是全球快的深度学习训练加速器,专为显著缩短训练时间而定制。采用了完整的麦克斯韦架构大核心GM200,3072个CUDA核心,单精度浮点计算突破7TFlops,而双精度几乎只能呵呵了。

特性

Tesla K80

Tesla M40

GPU

2 颗 Kepler GK210

1 Maxwell GM200

峰值双精度浮点性能

2.91 Tflops (GPU 动态提速频率)

1.87 Tflops (基础频率)

0.21Tflops

峰值单精度浮点性能

8.74 Tflops (GPU 动态提速频率)

5.6 Tflops (基础频率)

7 Tflops

存储器带宽(ECC关闭)2

480 GB/s (每颗GPU 240 GB/s)

384GB/sec

存储器容量(GDDR5)

24 GB (每颗GPU 12GB)

12 GB

CUDA核心数量

4992 个 (每颗 GPU
2496个)

3072

上榜理由:高富帅之不需要双精度的首选,你值得拥有!

适用机型:机架式服务器

市场零售价:3.3万人民币

第三名:Titan X

小编觉得让GPU在机器学习上真正开始发扬光大的是Titan
X的出现!



       同样采用了完整的麦克斯韦架构大核心GM200,3072个CUDA核心,单精度浮点计算7TFlops,12GB显存,再加上同时发布的英伟达DIGITS深度学习GPU训练系统的加持,更是让数据科学家和研究人员如虎添翼,能够通过更快的模型训练和更复杂的模型设计来创造更准确的神经网络,从而加速其深度学习项目和产品的开发工作,也因此让Titan X声名大噪!关键让人泪奔的还有价格:9千人民币有找!

特性

Titan X

TeslaM40

GPU

1 Maxwell GM200

1 Maxwell GM200

峰值双精度浮点性能

0.21Tflops

0.21Tflops

峰值单精度浮点性能

7Tflops

7 Tflops

存储器带宽(ECC关闭)2

384 GB/s

384GB/sec

存储器容量(GDDR5)

12 GB

12 GB

CUDA核心数量

3072

3072

上榜理由:屌丝的逆袭!

适用机型:塔式服务器/工作站

市场零售价:8866元人民币(以华硕Titan X某东商城价格为例)

第二名:GTX1080

上个月英伟达 正式发布了新一代旗舰显卡 GeForce GTX 1080,应该算是首款Pascal上市的显卡产品。

Pascal架构的Half2向量操作特性,免费了200%的性能(不过是半精度),可以说早买早收益。而本月英伟达最新的cuDNN5开放下载,可以在单一NVIDIA Pascal GPU上最高实现44%的训练速度提升,这使得GTX1080充满了期待。尽管有开发者表示显存没有Titan X高,但谁叫GTX1080的价格只有Titan
X的2/3呢?

特性

Titan X

GTX1080

GPU

1 Maxwell GM200

1 Pascal GP104

峰值双精度浮点性能

0.21Tflops

N/A

峰值单精度浮点性能

7Tflops

9 Tflops

存储器带宽(ECC关闭)2

384 GB/s

320GB/sec

存储器容量(GDDR5)

12 GB

8 GB

CUDA核心数量

3072

2560

上榜理由:让NVIDIA在机器学习的道路上走得更加深远

适用机型:塔式服务器/工作站

市场零售价:5600元人民币(华硕GTX1080某东商城开始预售)

第一名:Tesla P100

小编只能说:这是一款大杀器,所有资料都来自于网路上。传言,它只开启了3584个单精度、1792个双精度核心,即便如此,单、双精度浮点性能也高达10.6TFlops、5.3TFlops,同时还搭配了4096-bit 16GB HBM2高带宽显存,并支持全新的NVLink互连总线,取代传统PCI-E

——它就是传说中的Tesla P100!  英伟达声称将推动深度学习和HPC应用性能跨越式发展:其中,全新的Pascal架构实现了巨大的性能飞跃,半精度指令为深度学习提供了超过 21 Teraflops 的峰值性能;NVLink 将CPU与GPU之间的带宽实现5倍加速、CoWoS
和 HBM2带来3倍带宽提升;页面迁移引擎带来了无限制的寻址能力,实现更强的可编程性。    

网上传言单颗P100都能干掉两颗M40,领先幅度10-20%不等,而对比消费级游戏卡,P1001颗已经相当于GTX Titan X四颗的水准。

而最新发布的cuDNN5也特别强调了对Tesla P100的支持!

上榜理由:高富帅的顶级装备

适用机型:NVIDIA
DGX-1

市场零售价:据说不-单-卖!


【CUDA开发-并行计算】NVIDIA深度学习应用之五大杀器的更多相关文章

  1. 【ARM-Linux开发】【CUDA开发】【深度学习与神经网络】Jetson Tx2安装相关之三

    JetPack(Jetson SDK)是一个按需的一体化软件包,捆绑了NVIDIA®Jetson嵌入式平台的开发人员软件.JetPack 3.0包括对Jetson TX2 , Jetson TX1和J ...

  2. CUDA上的量化深度学习模型的自动化优化

    CUDA上的量化深度学习模型的自动化优化 深度学习已成功应用于各种任务.在诸如自动驾驶汽车推理之类的实时场景中,模型的推理速度至关重要.网络量化是加速深度学习模型的有效方法.在量化模型中,数据和模型参 ...

  3. NVIDIA深度学习Tensor Core性能解析(上)

    NVIDIA深度学习Tensor Core性能解析(上) 本篇将通过多项测试来考验Volta架构,利用各种深度学习框架来了解Tensor Core的性能. 很多时候,深度学习这样的新领域会让人难以理解 ...

  4. NVIDIA深度学习Tensor Core性能解析(下)

    NVIDIA深度学习Tensor Core性能解析(下) DeepBench推理测试之RNN和Sparse GEMM DeepBench的最后一项推理测试是RNN和Sparse GEMM,虽然测试中可 ...

  5. 【ARM-Linux开发】【CUDA开发】NVIDIA Jetson TX2 进阶:Nsight Eclipse Edition

    嵌入式平台:NVIDIA Jetson TX2 嵌入式系统:Ubuntu16.04 虚拟机系统:Ubuntu14.04 一.NSight简介 Jetpack开发工具为人工智能提供了一整套软件架构,包括 ...

  6. 【深度学习】深入理解优化器Optimizer算法(BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam)

    在机器学习.深度学习中使用的优化算法除了常见的梯度下降,还有 Adadelta,Adagrad,RMSProp 等几种优化器,都是什么呢,又该怎么选择呢? 在 Sebastian Ruder 的这篇论 ...

  7. Pytorch1.0深度学习:损失函数、优化器、常见激活函数、批归一化详解

    不用相当的独立功夫,不论在哪个严重的问题上都不能找出真理:谁怕用功夫,谁就无法找到真理. —— 列宁 本文主要介绍损失函数.优化器.反向传播.链式求导法则.激活函数.批归一化. 1 经典损失函数 1. ...

  8. 【并行计算-CUDA开发】 NVIDIA Jetson TX1

    概述 NVIDIA Jetson TX1是计算机视觉系统的SoM(system-on-module)解决方案.它组合了最新的NVIDIAMaxwell GPU架构,其具有ARM Cortex-A57 ...

  9. 【ARM-Linux开发】【CUDA开发】NVIDIA TEGRA X1:LINUX驱动程序包多媒体用户指南

    NVIDIA TEGRA X1:LINUX驱动程序包多媒体用户指南 转载请注明作者和出处:http://blog.csdn.net/u011475210 嵌入式平台:NVIDIA Jetson TX1 ...

随机推荐

  1. react-native 在iOS上使用http链接的图片地址不显示| iOS9 & iOS10 HTTP 不能正常使用的解决办法

    https://segmentfault.com/a/1190000002933776 今天升级Xcode 7.0 bata发现网络访问失败.输出错误信息 The resource could not ...

  2. gettid和pthread_self区别

    http://blog.csdn.net/rsyp2008/article/details/45150621 1 线程ID获取方法 Linux下获取线程有两种方法: 1)gettid或者类似getti ...

  3. Linked List Sorting

    静态链表(用结构体数组模拟链表)     1052 Linked List Sorting (25分)   A linked list consists of a series of structur ...

  4. 基本例程(4-1)手势识别C++ 和简单形状匹配

    扩展库https://blog.csdn.net/Taily_Duan/article/details/52130135 opencv3.3+扩展库 /************************ ...

  5. 电商平台+keepalived高可用

    192.168.189.131 电商平台 192.168.189.129 MySQL主192.168.189.130 MySQL备192.168.189.181 VIP 配置MySQL为互为主从并结合 ...

  6. SSFOJ P1453 子序列(一) 题解

    每日一题 day61 打卡 Analysis las数组表示的是最近一个为j的位置为是什么. dp数组的含义是以str[i]为结尾的子序列数量. 于是有状态转移方程: dp[las[i][j]]+=d ...

  7. rushjs来自微软的单体仓库管理工具

    rushjs 是来自微软的单体仓库管理工具 ,与lerna 类似但是使用上稍显复杂 安装 npm install -g @microsoft/rush   简单使用 一个传统的基于npm 的处理 ~$ ...

  8. cloudevents 通用event 描述指南

    cloudevents 是由cncf 组织管理的一个通用event描述指南 特性: 一致性 可理解性 可移植性 说明 cloudevents 不仅提供了核心描述,同时也包含了不同协议的指南说明(htt ...

  9. pipelinewise 学习一 docker方式安装

    pipelinewise 没有提供基于pip 包的模式进行安装,而且推荐使用docker 以及源码的方式 以下是一个使用docker运行的方式 安装   git clone https://githu ...

  10. 我用AI(Adobe Illustrator CS6)合并路径的两个常用方法

    作为一个切图仔,经常与设计大佬的PSD打交道,PSD里面又有各种icon图标需要导出,偷懒的方法直接导出png图片,丢个背景图上页面完美解决问题!! 第二天来个需求,能不能把这个icon图标给我换个颜 ...