【CUDA开发-并行计算】NVIDIA深度学习应用之五大杀器
来自吉浦迅科技
整理发布
http://mp.weixin.qq.com/s?__biz=MjM5NTE3Nzk4MQ==&mid=2651231163&idx=1&sn=d48b4480da3481de8ae20e78b1ee22df&scene=23&srcid=0605uZ1nd6QlqnK6AJdMlZkI#rd
第五名:Tesla K80
Tesla ——英伟达高端大气上档次专用计算卡品牌,以性能高、稳定性强,适用于长时间高强度计算著称。
Tesla K80 双GPU 加速器可透过一卡双 GPU 提供双倍传输量,内置24GB GDDR5 存储器,每颗 GPU 有 12GB 存储器,比上代Tesla K40 GPU 提供多两倍存储器可处理更大的资料集分析。Tesla K80 内建4,992 CUDA 并行运算核心,可比仅用CPU 运算提升高达10 倍应用加速效能,单精度峰值浮点性能为8.74
Teraflops,双精度峰值浮点性能为2.91 Teraflops,峰值内存带宽为480 GB/s,非常适合于数据密集型应用。
特性 |
Tesla K80 |
Tesla K40 |
GPU |
2 颗 Kepler GK210 |
1 Kepler GK110B |
峰值双精度浮点性能 |
2.91 Tflops (GPU 动态提速频率) |
1.66 Tflops (GPU 动态提速频率) |
峰值单精度浮点性能 |
8.74 Tflops (GPU 动态提速频率) |
5 Tflops (GPU 动态提速频率) |
存储器带宽(ECC关闭)2 |
480 GB/s (每颗GPU 240 GB/s) |
288 GB/sec |
存储器容量(GDDR5) |
24 GB (每颗GPU 12GB) |
12 GB |
CUDA核心数量 |
4992 个 (每颗 GPU |
2880 |
上榜理由:双精度计算之冠,舍我其谁?
适用机型:机架式服务器
市场零售价:3万人民币
第四名:Tesla M40
Tesla家族第一款Maxwell架构计算卡!
Maxwell架构除了双精度是弱外,其他各方面都十分优秀,比如加入了寄存器的缓冲,用来消除寄存器的bank conflict,再比如加入远程原子操作,即shared memory能自行计算,不占用SP,同时还提高了原子操作的性能。
英伟达号称Tesla M40 GPU 加速器是全球快的深度学习训练加速器,专为显著缩短训练时间而定制。采用了完整的麦克斯韦架构大核心GM200,3072个CUDA核心,单精度浮点计算突破7TFlops,而双精度几乎只能呵呵了。
特性 |
Tesla K80 |
Tesla M40 |
GPU |
2 颗 Kepler GK210 |
1 Maxwell GM200 |
峰值双精度浮点性能 |
2.91 Tflops (GPU 动态提速频率) |
0.21Tflops |
峰值单精度浮点性能 |
8.74 Tflops (GPU 动态提速频率) |
7 Tflops |
存储器带宽(ECC关闭)2 |
480 GB/s (每颗GPU 240 GB/s) |
384GB/sec |
存储器容量(GDDR5) |
24 GB (每颗GPU 12GB) |
12 GB |
CUDA核心数量 |
4992 个 (每颗 GPU |
3072 |
上榜理由:高富帅之不需要双精度的首选,你值得拥有!
适用机型:机架式服务器
市场零售价:3.3万人民币
第三名:Titan X
小编觉得让GPU在机器学习上真正开始发扬光大的是Titan
X的出现!
同样采用了完整的麦克斯韦架构大核心GM200,3072个CUDA核心,单精度浮点计算7TFlops,12GB显存,再加上同时发布的英伟达DIGITS深度学习GPU训练系统的加持,更是让数据科学家和研究人员如虎添翼,能够通过更快的模型训练和更复杂的模型设计来创造更准确的神经网络,从而加速其深度学习项目和产品的开发工作,也因此让Titan X声名大噪!关键让人泪奔的还有价格:9千人民币有找!
特性 |
Titan X |
TeslaM40 |
GPU |
1 Maxwell GM200 |
1 Maxwell GM200 |
峰值双精度浮点性能 |
0.21Tflops |
0.21Tflops |
峰值单精度浮点性能 |
7Tflops |
7 Tflops |
存储器带宽(ECC关闭)2 |
384 GB/s |
384GB/sec |
存储器容量(GDDR5) |
12 GB |
12 GB |
CUDA核心数量 |
3072 |
3072 |
上榜理由:屌丝的逆袭!
适用机型:塔式服务器/工作站
市场零售价:8866元人民币(以华硕Titan X某东商城价格为例)
第二名:GTX1080
上个月英伟达 正式发布了新一代旗舰显卡 GeForce GTX 1080,应该算是首款Pascal上市的显卡产品。
Pascal架构的Half2向量操作特性,免费了200%的性能(不过是半精度),可以说早买早收益。而本月英伟达最新的cuDNN5开放下载,可以在单一NVIDIA Pascal GPU上最高实现44%的训练速度提升,这使得GTX1080充满了期待。尽管有开发者表示显存没有Titan X高,但谁叫GTX1080的价格只有Titan
X的2/3呢?
特性 |
Titan X |
GTX1080 |
GPU |
1 Maxwell GM200 |
1 Pascal GP104 |
峰值双精度浮点性能 |
0.21Tflops |
N/A |
峰值单精度浮点性能 |
7Tflops |
9 Tflops |
存储器带宽(ECC关闭)2 |
384 GB/s |
320GB/sec |
存储器容量(GDDR5) |
12 GB |
8 GB |
CUDA核心数量 |
3072 |
2560 |
上榜理由:让NVIDIA在机器学习的道路上走得更加深远
适用机型:塔式服务器/工作站
市场零售价:5600元人民币(华硕GTX1080某东商城开始预售)
第一名:Tesla P100
小编只能说:这是一款大杀器,所有资料都来自于网路上。传言,它只开启了3584个单精度、1792个双精度核心,即便如此,单、双精度浮点性能也高达10.6TFlops、5.3TFlops,同时还搭配了4096-bit 16GB HBM2高带宽显存,并支持全新的NVLink互连总线,取代传统PCI-E
——它就是传说中的Tesla P100! 英伟达声称将推动深度学习和HPC应用性能跨越式发展:其中,全新的Pascal架构实现了巨大的性能飞跃,半精度指令为深度学习提供了超过 21 Teraflops 的峰值性能;NVLink 将CPU与GPU之间的带宽实现5倍加速、CoWoS
和 HBM2带来3倍带宽提升;页面迁移引擎带来了无限制的寻址能力,实现更强的可编程性。
网上传言单颗P100都能干掉两颗M40,领先幅度10-20%不等,而对比消费级游戏卡,P1001颗已经相当于GTX Titan X四颗的水准。
而最新发布的cuDNN5也特别强调了对Tesla P100的支持!
上榜理由:高富帅的顶级装备
适用机型:NVIDIA
DGX-1
市场零售价:据说不-单-卖!
【CUDA开发-并行计算】NVIDIA深度学习应用之五大杀器的更多相关文章
- 【ARM-Linux开发】【CUDA开发】【深度学习与神经网络】Jetson Tx2安装相关之三
JetPack(Jetson SDK)是一个按需的一体化软件包,捆绑了NVIDIA®Jetson嵌入式平台的开发人员软件.JetPack 3.0包括对Jetson TX2 , Jetson TX1和J ...
- CUDA上的量化深度学习模型的自动化优化
CUDA上的量化深度学习模型的自动化优化 深度学习已成功应用于各种任务.在诸如自动驾驶汽车推理之类的实时场景中,模型的推理速度至关重要.网络量化是加速深度学习模型的有效方法.在量化模型中,数据和模型参 ...
- NVIDIA深度学习Tensor Core性能解析(上)
NVIDIA深度学习Tensor Core性能解析(上) 本篇将通过多项测试来考验Volta架构,利用各种深度学习框架来了解Tensor Core的性能. 很多时候,深度学习这样的新领域会让人难以理解 ...
- NVIDIA深度学习Tensor Core性能解析(下)
NVIDIA深度学习Tensor Core性能解析(下) DeepBench推理测试之RNN和Sparse GEMM DeepBench的最后一项推理测试是RNN和Sparse GEMM,虽然测试中可 ...
- 【ARM-Linux开发】【CUDA开发】NVIDIA Jetson TX2 进阶:Nsight Eclipse Edition
嵌入式平台:NVIDIA Jetson TX2 嵌入式系统:Ubuntu16.04 虚拟机系统:Ubuntu14.04 一.NSight简介 Jetpack开发工具为人工智能提供了一整套软件架构,包括 ...
- 【深度学习】深入理解优化器Optimizer算法(BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam)
在机器学习.深度学习中使用的优化算法除了常见的梯度下降,还有 Adadelta,Adagrad,RMSProp 等几种优化器,都是什么呢,又该怎么选择呢? 在 Sebastian Ruder 的这篇论 ...
- Pytorch1.0深度学习:损失函数、优化器、常见激活函数、批归一化详解
不用相当的独立功夫,不论在哪个严重的问题上都不能找出真理:谁怕用功夫,谁就无法找到真理. —— 列宁 本文主要介绍损失函数.优化器.反向传播.链式求导法则.激活函数.批归一化. 1 经典损失函数 1. ...
- 【并行计算-CUDA开发】 NVIDIA Jetson TX1
概述 NVIDIA Jetson TX1是计算机视觉系统的SoM(system-on-module)解决方案.它组合了最新的NVIDIAMaxwell GPU架构,其具有ARM Cortex-A57 ...
- 【ARM-Linux开发】【CUDA开发】NVIDIA TEGRA X1:LINUX驱动程序包多媒体用户指南
NVIDIA TEGRA X1:LINUX驱动程序包多媒体用户指南 转载请注明作者和出处:http://blog.csdn.net/u011475210 嵌入式平台:NVIDIA Jetson TX1 ...
随机推荐
- python Tkinter的Text组件中创建x轴和y轴滚动条
#!/usr/bin/python #coding: utf-8 from Tkinter import * root = Tk() root.title("记事本") root. ...
- React 顶层 API
概览 组件 使用 React 组件可以将 UI 拆分为独立且复用的代码片段,每部分都可独立维护.你可以通过子类 React.Component 或 React.PureComponent 来定义 Re ...
- react native iOS真机调试-联网问题与js严格模式
rn:strict mode does not allow function declarations in a lexically nested statement https://blog.csd ...
- Xcode 创建.a和framework静态库(转)
最近因为项目中的聊天SDK,需要封装成静态库,所以实践了一下创建静态库的步骤,做下记录. 库介绍 库从本质上来说是一种可执行代码的二进制格式,可以被载入内存中执行.库分静态库和动态库两种.iOS中的静 ...
- Ansible自动部署lnmp架构+上线电商
1.首先准备3台机器 ansible机器:192.168.52.34 目标主机:192.168.52.35 目标主机:192.168.52.36 2.关闭防火墙 [root@localhost ~]# ...
- yolov3
YOLOv3没有太多的创新,主要是借鉴一些好的方案融合到YOLO里面.不过效果还是不错的,在保持速度优势的前提下,提升了预测精度,尤其是加强了对小物体的识别能力(yolov1在这方面是有缺陷的). 本 ...
- Mac Sublime Text使用python3运行脚本(command+b)
默认安装好sublime, 使用快捷键command+b的时候, 会使用python2版本运行 下面就改为用python3运行, 也可以python2运行 一. 新建文件 Sublime Text - ...
- 何时使用 django 以及何时不用?
选择一种语言和框架,因为你在上一个项目中使用了它或者因为你更熟悉它,但是这不是正确的方法. 项目启动 在开始一个新的软件项目之前,您需要评估哪种语言和框架最适合您所期望的结果.什么对你最重要?安全性. ...
- 分布式id的生成方式——雪花算法
雪花算法是twitter开源的一个算法. 由64位0或1组成,其中41位是时间戳,10位工作机器id,12位序列号,该类通过方法nextID()实现id的生成,用Long数据类型去存储. 我们使用id ...
- SpringSecurity匿名用户访问权限
在SpringSecurity中定义一个匿名访问权限,实现未登录用户可以访问默写页面 <http use-expressions="false" entry-point-re ...