NVIDIA各个领域芯片现阶段的性能和适应范围

NVIDIA作为老牌显卡厂商，在AI领域深耕多年。功夫不负有心人，一朝AI火，NVIDIA大爆发，NVIDIA每年送给科研院所和高校的大量显卡，大力推广Physix和CUDA，终于钓了产业的大鱼。

由弱到强理一下NVIDIA的现有产品线，在AMD锐龙发力之后，NVIDIA已经取代Intel，称为新的牙膏厂。

在与人工智能与机器人有关的平台上，NVIDAI产品线性能由低到高依次为Tegra X系列、GeForce 系列、DRIVER系列、Titan 系列、TESLA系列。

Linux系统是广泛应用的OS，可以以各种形态存在，甚至可以裁剪到么有MU的微型计算机上。现有支持较为完备的流行的计算机OS主要为CentOS和ubuntu，Fedora在消费级商业化上做的还是差了一点。

一、SHIELD掌机系统

完整规格 SHIELD掌机系统 是基于TX1-CPU的集成平台

处理器 NVIDIA® Tegra® X1 处理器，搭载 256 核 GPU 和 3 GB RAM

视频功能支持 4K HDR
以 60 FPS 的帧速率播放分辨率高达 4K 的 HDR 内容 (H.265/HEVC)
以 60 FPS 的帧速率播放分辨率高达 4K 的内容（VP8、VP9、H.264、MPEG1/2）
以 60 FPS 的帧速率播放分辨率高达 1080p 的内容（H.263、MJPEG、MPEG4、WMV9/VC1）

通过 HDMI 提供 Dolby Atmos 和 DTS-X 环绕立体声透传音效
通过 HDMI 和 USB 播放高达 24 位/192 kHz 的高清音频内容
通过 USB 播放高达 24 位/192 kHz 的高清音频内容

操作系统 Android 7.0

软件更新直接由 NVIDIA 提供 SHIELD 软件更新

二、嵌入式平台的Jetson

现有的平台为TX2和TX1，提供开发套件....

参考CPU两倍于820处理器

基于TX1和TX2，NVIDIA为移动机器人系统提供了不同层级的混搭，面对开发者的开发板、和集成视觉系统的工业套件。

模块技术规格

	Jetson TX2	Jetson TX1
GPU	NVIDIA Pascal™、256 颗 CUDA 核心	NVIDIA Maxwell™、256 颗 CUDA 核心
CPU	HMP Dual Denver 2/2 MB L2 + Quad ARM® A57/2 MB L2	Quad ARM® A57/2 MB L2
视频	4K x 2K 60 Hz 编码 (HEVC) 4K x 2K 60 Hz 解码（12 位支持）	4K x 2K 30 Hz 编码 (HEVC) 4K x 2K 60 Hz 解码（10 位支持）
内存	8 GB 128 位 LPDDR4 58.3 GB/s	4 GB 64 位 LPDDR4 25.6 GB/s
显示器	2 个 DSI 接口、2 个 DP 1.2 接口/HDMI 2.0 接口/eDP 1.4 接口	2 个 DSI 接口、1 个 eDP 1.4 接口/DP 1.2 接口/HDMI 接口
CSI	超级多 6 个摄像头（2 通道 CSI2 D-PHY 1.2（每个通道 2.5 Gbps）	超级多 6 个摄像头（2 通道） CSI2 D-PHY 1.1（每个通道 1.5 Gbps）
PCIE	Gen 2 \| 1x4 + 1x1 或 2x1 + 1x2	Gen 2 \| 1x4 + 1x1
数据存储	32 GB eMMC、SDIO、SATA	16 GB eMMC、SDIO、SATA
其他	CAN、UART、SPI、I2C、I2S、GPIO	UART、SPI、I2C、I2S、GPIO
USB	USB 3.0 + USB 2.0
连接	1 千兆以太网、802.11ac WLAN、蓝牙
机械	50 毫米 x 87 毫米（400 针兼容板对板连接器）

支持平台：

基于TX2 的平台可运行ubuntu系统。

NVIDIA为此计算平台贡献了软件开发套件：https://developer.nvidia.com/embedded/downloads#?tx=$software,l4t-tk1。

性能：

FLOPS：TX1上，配置是Tegra X1+4G LPDDR4，GPU是256个CUDA的Maxwell，TX2则升级为Tegra Parker处理器，也就是16nm 6核CPU（2x丹佛+4xA57），所以GPU部分也升级为Pascal架构，同样256个CUDA，浮点性能1.5 TeraFLOPS，也就是提高了50%。

Jetson TX2 延续了tegra系列体积小巧、高度集成的特性，大小仅相当于一张信用卡。与前一代Jetson TX1相比，TX2能提供两倍的功效。GPU、CPU都进行了升级，其中GPU变成了Pascal 架构（16 nm工艺）。这意味着Jetson 系列进入了 Pascal 架构时代。内存、存储都增加了一倍，提供了 8G 内存、32G 固态存储器。支持802.11ac WLAN和蓝牙。

功耗TDP：15W

购买：

【注1】你想申请TX2，你需要拥有有效且公认的大学电子邮件地址就可以了。笔者就不在这具体购买流程请咨询代购商。
【注2】TX2在某宝上也能购买，当然笔者走的是教育优惠。

三、消费级计算平台的GeForce

面向专业图形工作站应用的Quadro系列，硬件核心和GeForce是相同的。

GeForce平台为消费级显卡，主要用途依然是3D渲染。消费用途主要是玩游戏和PS，工业用途做2维和三维图像处理。NVIDAI把Physix和CUDA普及到GeForce平台，GeForce平台也开始了另一新的功能，兼职做科学计算。

GeForce平台产品眼花缭乱，玩游戏的人群比做机器人的人群覆盖面更广，需求也更多样化。以现有最新的帕斯卡构架的消费级显卡来说，从低端的GT1030 到高端的GTX1080TI，参数性能价格已有天壤之别。

GeForce GT 1030显卡基于GP108-300核心，拥有384个CUDA处理器，基础核心频率1227MHz，boost频率1468MHz。使用2GB GDDR5显存，显存位宽64-bit，带宽48GB/s。支持最新的DX12，OpenGL4.5等特性，TDP仅30W。价格最低不到500块。

GeForceGTX1080拥有2560个CUDA处理器，核心频率1607MHz，boost频率1733MHz，等效显存频率10GHz。显卡位宽为256bit，带宽320GB/s。公版显卡最高温度94℃，采用单8pin供电，TDP180w。

GeForceGTX1080强于GeForceGTX980SLI，甚至比GeForceGTXTitanX还要强，大概超过TitanX2成。单卡浮点运算次数上,GTX1080Ti（显存8GB）达到11.5T FLOPs。兵荒马乱的年月，GTX1080Ti已经涨到了6000+。

因为CUDA的存在，大量的科研计算使用GeForce卡做并行计算，现在AI最流行CUDA做深度学习。

TDP：30W-300W。移动计算机平台TDP低至15w。

四、为自动驾驶开发的Tesla系列

NVIDIA Driver系列为自动驾驶提供一整套计算解决方案想，现有平台有 NVIDIA DRIVER PX、NVIDIA DXG1、NVIDIA DRIVER IX。

Driver PX : https://www.nvidia.com/zh-cn/self-driving-cars/drive-px/

可扩展架构适用于各种配置。从功率为 10 瓦的被动冷却型移动处理器，到双移动处理器加双独立 GPU 的多芯片配置（可提供每秒 24 万亿次的深度学习运算），都在此架构的支持范围内。您可并行使用多个 DRIVE PX 平台来实现完全自动驾驶。

DRIVER PX Pegasus AI 计算机拥有高达 320 TOPS的深度学习计算能力。「Pegasus」之运算能力达到320 TOPS(Trillion Operations Per Second)，超越其前代平台「Drive PX 2」之运算能力高达10倍。此运算能力主要来自于4颗处理器-2颗为以NVIDIA目前最新GPU架构「Volta」为核心的SoC「Xavier」、以及另外2颗为车用机械视觉与深度学习所准备的专用GPU。

DRIVE PX Xavier 能够提供 20 TOPS 的高性能，而功耗仅有20 瓦。单个 Xavier AI 处理器中就包含了 70 亿个晶体管，能够取代目前配备多个移动 SoC 和两个独立 GPU 的 DRIVE PX，且功耗大幅下降。Xavier为低功耗自动驾驶平台。

NVIDIA DRIVER IX 系列在硬件基础上集成了一些与自动驾驶有关的软件功能，如基于深度学习的面部识别、视线追踪、和对话功能。

CES2018展会上，百度的“阿波罗”(Apollo)自动驾驶项目将使用英伟达的Drive Xavier自动驾驶计算平台。百度的阿波罗项目致力于通过与一系列汽车制造商、供应商以及科技公司合作，为自动驾驶汽车打造一个开放平台。

五、GPU加速计算的Tesla系列

Tesla本是第一代产品的架构名称，后来演变成了这个系列产品的名称了。在NVIDIA的产品列表上，被定义为数据中心产品，产品线为TESLA、DXG、DXG-Station、HGX。

现在NVIDIA官方显示的产品有TESLA-P40和TESLA-P6。P40浮点运算为47T FLOPS。TESLA-P40的成品价格为4W+（显存24GB）。

黄仁勋在GTC2017 上发布了TESLA V100和他的 VoltaGPU。仔细读一下文章，有不少知识：英伟达Volta架构：为深度学习而生的Tensor Core。当然，TESLA的价格吗，15万$，100万呢....

Tesla V100 可以提供业界领先的浮点和整型计算性能。峰值计算速度（基于 GPU Boost 时钟频率）：

双精度浮点（FP64）运算性能：7.5 TFLOP/s；

单精度（FP32）运算性能：15 TFLOP/s;

混合精度矩阵乘法和累加：120 Tensor TFLOP/s。

新的 Tensor Core 是 Volta GV100 最重要的特征，有助于提高训练神经网络所需的性能。Tesla V100 的 Tensor Core 能够为训练、推理应用的提供120 Tensor TFLOPS。

Tensor核

..................

NVIDIA TITAN，英伟达联合创始人兼CEO黄仁勋在NIPS2017全球神经信息处理系统大会上突然发布了全新的TITAN显卡，NVIDIA TITAN V！新显卡基于新一代的Volta架构打造，完整的GV100核心，峰值浮点性能高达110TFlops，相当于TITAN Xp 12Tflops的9倍。Titan也可以面对消费者，相对于TESLA V100，便宜了不少，只要3000$，也要2万块。

消费级旗舰显卡基于12nm GV100核心，内建5120颗CUDA核心，640颗Tensor核心（用于AI专门计算和加速），核心主频1200MHz，加速频率1455MHz。搭配12GB HBM2显存，位宽3072bit，总带宽653GB/s。性能方面，单精度浮点15 TFLOPS，此前公布时给出的110T仅仅是用于深度学习的Tensor内核性能，所以这样话，比TITAN Xp提高了24%左右。

TITAN V使用Volta构架，使用了Tensor核，和适合微型的企业和研究机构做深度学习。https://www.nvidia.com/zh-cn/titan/titan-v/。

DGX-1 定位为个人计算中心，价格为5万$。参考：https://www.nvidia.com/zh-cn/data-center/dgx-systems/，系统CPU使用的是8块TESLA V100，128GB显存。提供960 TFLOPS（GPU FP16）性能。

...................

差不多结束了，当然据说百度谷歌都有一次性集成两万张TESLA显卡的习惯。

NVIDIA各个领域芯片现阶段的性能和适应范围的更多相关文章

NVIDIA数据中心深度学习产品性能
NVIDIA数据中心深度学习产品性能在现实世界的应用程序中部署AI,需要训练网络以指定的精度融合.这是测试AI系统的最佳方法-准备将其部署在现场,因为网络随后可以提供有意义的结果(例如,对视频流正确 ...
Nvidia 的新显卡架构 Maxwell 性能相比开普勒提升了多少？
作者:喵西和熊链接:https://www.zhihu.com/question/22630075/answer/29041618来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注 ...
TensorRT加速 ——NVIDIA终端AI芯片加速用，可以直接利用caffe或TensorFlow生成的模型来predict（inference）
官网:https://developer.nvidia.com/tensorrt 作用:NVIDIA TensorRT™ is a high-performance deep learning inf ...
深入理解CPU和异构计算芯片GPU/FPGA/ASIC （下篇）
3.2.1 CPU计算能力分析这里CPU计算能力用Intel的Haswell架构进行分析,Haswell架构上计算单元有2个FMA(fused multiply-add),每个FMA可以对256bi ...
vr的延迟和渲染效率优化与Nvidia VRWorks
http://blog.csdn.net/leonwei/article/details/50966071 vr现在正处于风生水起的阶段,但是vr的性能一直是大问题,最主要的问题就是响应延迟,玩家改变 ...
CPU性能PK
CPU性能PK AMD vs Intel 2020: Who Makes the Best CPUs? 英文原文链接:https://www.tomshardware.com/features/amd ...
人工智能AI芯片与Maker创意接轨（中）
在人工智能AI芯片与Maker创意接轨(上)这篇文章中,介绍人工智能与深度学习,以及深度学习技术的应用,了解内部真实的作业原理,让我们能够跟上这波AI新浪潮.系列文来到了中篇,将详细介绍目前市面上的各 ...
[转帖]疑似兆芯开先KX-7000跑分曝光：IPC性能大幅提升
疑似兆芯开先KX-7000跑分曝光:IPC性能大幅提升 https://www.bilibili.com/read/cv4028300 数码 11-23 1589阅读28点赞22评论尽管有ARM架构 ...
使用NVIDIA A100 TF32获得即时加速
使用NVIDIA A100 TF32获得即时加速 NVIDIA A100带来了我们公司历史上最大的单代性能增长.这是一个新的结构创新,这是一个多功能的支持,这是一个多功能的结构支持.TF32是用于深度 ...

随机推荐

FTP指令说明
安装vsftpd: listen=YES: 是否监听端口 anonymous_enable=NO: 是否启用匿名用户 local_enable=YES: 是否允许本地用户登录 write_enable ...
[VueJS + Typescript] Decouple Dependencies Using IoC Containers in Vue with TypeScript and InversifyJS
Using Object Oriented Programming, OOP, style allows us to apply Inversion of Control, IoC, and more ...
.net Core使用Orcle官方驱动连接数据库 C#参考教程 http://www.csref.cn
.net Core使用Orcle官方驱动连接数据库最近在研究.net Core,因为公司的项目用到的都是Oracle数据库,所以简单试一下.net Core怎样连接Oracle. Oracle官 ...
MPEG2、MPEG4、H264的差异
iso(国际标准化组织) MPEG系列 ITU-T(国际电联)h.系列 H.264:iso与ITU联合制定,数据压缩比超牛! MPEG-2简介 MPEG-2制定于1994年,设计目标是高级工业标准的图 ...
bzoj4974: [Lydsy1708月赛]字符串大师
脑洞题...玄学假如是a[i]!=i,说明构成了循环节长为a[i]的循环,那就去%一下(别想多)看一下是循环节中的第几个咯. 否则新填的这个不能和前面构成任何循环,那就不停往前跳去把不能填的标记一下 ...
【HDU 4547】 CD操作
[题目链接] 点击打开链接 [算法] 分四种情况讨论 : 1. 当前目录和目标目录是同一目录,不需要变换,答案为0 2. 当前目录是目标目录的祖先,答案为当前目录的深度 - 目标目录的深度 3. 当前 ...
iOS开发——多线程
很多朋友都说iOS开发中,最难理解和学习的就是多线程,很多的原理实现都是通过log看到,也比较抽象,本人也是在多线程方面投入过很多脑细胞..无论这方面的知识掌握和应用起来是否轻松,牢固的基本功.正确的 ...
Spring通过注解注入有参
1.通过注解方式注入有参的构造函数把@Autowired注解放在构造函数上方,在构造函数里写上需要注入的形参即可 2.通过XML配置文件方式定义有参构造函数
F5 SSLVPN 的安装问题
WIN10下安装SSLVPN问题 1.右击计算机 -->选择管理-->查看安装的插件是否显示感叹号 2.如果显示感叹号-->则进行更新驱动-->>手动选择-->网络 ...
Objective-C NSObject与运行时系统
创建: 2018/01/26 完成: 2018/02/02 遗留: TODO NSObject 运行时系统程序运行时候起作用的系统? NSObject是运行时系统的接口(API) 属性只有一 ...

NVIDIA各个领域芯片现阶段的性能和适应范围

模块技术规格

NVIDIA各个领域芯片现阶段的性能和适应范围的更多相关文章

随机推荐

热门专题