NVIDIA RTX4090,你能用它做什么?
都说男生是世界上最简单的动物,为什么呢?举个例子,你要给女朋友送礼,你可以选择包、口红、护肤品、化妆品等,而包的品牌和样式、口红的色号等足以让你挑得眼花缭乱。而男生不一样,如果女生选择给男生送礼,我相信一块 RTX4090 就足以让他高兴得死去活来。
RTX4090 到底是何方神圣?它凭什么赢得所有男生的“芳心”?
了解GTX4090
我们先来看下 NVIDIA 官方对 RTX4090 的介绍。
The NVIDIA GeForce RTX 4090 is the ultimate GeForce GPU. It brings an enormous leap in performance, efficiency, and AI-powered graphics. Experience ultra-high performance gaming, incredibly detailed virtual worlds, unprecedented productivity, and new ways to create. It’s powered by the NVIDIA Ada Lovelace architecture and comes with 24 GB of G6X memory to deliver the ultimate experience for gamers and creators.
RTX4090 是终极的 GeForce GPU。它带来了性能、效率和人工智能驱动的图形方面的巨大飞跃,体验超高性能的游戏、极其详细的虚拟世界、前所未有的生产力和新的创作方式。它采用 NVIDIA Ada Lovelace 架构,并配备 24 GB G6X 显示内存,为游戏玩家和创作者提供终极体验。
RTX4090 采用的是 AD102 核心,拥有 11 组共 16384 个流处理器、512 个 Tensor Core、176 个 RT Core 和 176 个流处理器单元。RTX4090 采用了 NVIDIA Ada Lovelace 架构,致力于打造出色的游戏与创作、专业图形、AI 和计算性能,采用了新型 SM 多单元流处理器、第四代 Tensor Core、第三代 RT core 等多种新技术。
第四代Tensor Core
NVIDIA DLSS 3 是 AI 驱动图形领域的革命性突破,可大幅提升性能。DLSS 3 由 GeForce RTX40 系列 GPU 所搭载的全新第四代 Tensor Core 和光流加速器提供支持,可利用 AI 创造更多高质量帧。
另外,凭借全新的 FP8 Transformer 引擎,Ada 的全新第四代 Tensor Core 拥有不可思议的飞快速度,可将吞吐量提升 4 倍,达到 1.4 Tensor-petaFLOPS。
第三代RT Core
NVIDIA 发明的 RT Core 在视频游戏中实现了实时光线追踪。这种搭载在 GPU 上的特殊核心专为处理性能需求密集的光线追踪工作负载而设计。
Ada 架构采用的第 3 代 RT Core 不仅将光线与三角形求交性能提高了一倍,还将 RT-TFLOP 峰值性能提高了一倍之多。
新款 RT Core 还配备全新 Opacity Micromap (OMM) 引擎和 Displaced Micro-Mesh (DMM) 引擎。OMM 引擎可大幅提升对 alpha 测试纹理进行光线追踪的速度,此类纹理通常应用于树叶、颗粒和围栏。DMM 引擎能够以近乎 9 倍的速度构建光线追踪边界体积层次结构 (BVH),而所占用的显存只有之前的二十分之一。从而实现几何复杂场景的实时光线追踪。
RTX4090的应用场景
RTX4090 这么强,主要应用在哪些方面呢?
游戏
首先毫无疑问是在游戏方面的应用。RTX4090 是能驾驭各种游戏的硬核 GPU,拥有惊人的性能和超大 24GB G6X 显存,能以 8K 分辨率轻松运行多款热门游戏,支持 HDMI 2.1 所提供的 8K 60Hz HDR 和可变刷新率功能。你可以借助 RTX4090 强大的能力,在 8k 分辨率的 HDR 模式下,可以尽情体验游戏大作,尽享视觉盛宴。这也是为什么 RTX4090 是大部分男生的梦想。
相较于 RTX 3090,RTX4090 的性能基本上能达到它的两倍。当然,相应的功耗也大了不少,比 3090 高出了将近100W。下图是 RTX4090 和 RTX3090Ti 在各个游戏中的性能对比,大家可以看到 RTX4090 的表现是相当亮眼的。
△ RTX4090 vs RTX3090Ti 性能对比
AI绘画
Stable Diffusion 是我们常用的 AI 绘画软件,Stable Diffusion 是支持使用 CPU 或 GPU 来完成 AI 绘画。而在 AI 绘画中,RTX4090 展现出它在目前消费级显卡中最强的 AIGC 性能,处理速度要比次顶级的RTX 4080强上约 30%,相较于 RTX3090 Ti 也有接近 2 倍的性能提升。
说到 AI 绘画,也顺便提一下前面已经说过的 NVIDIA DLSS(深度学习超级采样 )。DLSS 是一种神经图形技术,它使用 AI 来提高性能,创建全新的帧,通过图像重建显示更高分辨率,并提高密集光线追踪内容的图像质量,同时提供最佳的一流的图像质量和响应能力,其实这也是一种 AIGC。DLSS 在部分游戏中已经支持,如今一些创作软件也有利用 DLSS 技术来做加速。这对 GPU 的性能要求很高,即使是上一代最强的 RTX3090 Ti 都难以实现,但新一代 RTX 40 系显卡的 DLSS 3 技术加入帧生成技术,使得单张显卡也都可以进行一些中轻度的创作。
深度学习推理
在大模型的训练阶段,RTX4090 是不行的。为什么这么说呢?RTX4090 虽然算力强,性价比也高,但是不支持 NVLink,这就成为了 RTX4090 不能成为大模型训练的主要原因。当然,相较于 A100 40GB、80GB的大显存,RTX4090 只有 24GB 的显存,也显得相对弱了不少。于大模型训练而言,A100 相较于 RTX4090,并不是因为单卡性能强了多少,而是在于拓展性、服务、显存这些方面的优势。
RTX4090 不适用于大模型训练,为什么却可以用于深度学习推理呢?我们来了解下推理和训练有什么区别。
深度学习推理是指在已经完成训练的深度学习模型上进行实际应用和预测的过程。在深度学习中,模型的训练阶段是为了调整模型的参数和权重,以使其能够准确地对训练数据进行分类、预测或生成。一旦深度学习模型完成训练,它就可以用于推理阶段,即对新的输入数据进行处理和预测。
在训练阶段,GPU 不仅需要存储模型参数,还需要存储梯度、优化器状态、正向传播每一层的中间状态(activation)。训练任务是一个整体,流水线并行的正向传播中间结果是需要存下来给反向传播用的。为了节约内存而使用流水线并行,流水级越多,要存储的中间状态也就更多。
而在推理阶段,模型将接收输入数据,并通过前向传播算法计算输出结果。这个过程不涉及参数的更新或反向传播的计算,而是利用模型已经学到的知识来进行预测。推理任务中的各个输入数据之间并没有关系,因此流水线并行不需要存储很多中间状态。
0元体验RTX4090
在了解 RTX4090 的强大后,你可能在为没办法体验到它而感到遗憾。那么我偷偷告诉你,又拍云联合厚德云推出 RTX4090 GPU,新用户完成注册即可 0 元体验 。你只要完成下面 3 个步骤即可:
1. 创建厚德云账号并完成实名认证;
2. 领取体验金
登录厚德云后在 GPU 中选择 NVIDIA 4090,点击免费体验,按步骤领取体验金即可。
3. 开启体验之旅
领取体验金后即可创建 4090 云主机,点击免费体验,选择镜像,镜像根据需要进行选择,比如 “image-gpu-sd_webui_20231018” 已经预装了 stable Diffusion,然后点击立即下单即可,体验金会抵扣掉下单金额哦。
下单后等待创建,显示运行中就可以使用啦。
NVIDIA RTX4090,你能用它做什么?的更多相关文章
- ubuntu16.04 caffe(GPU模式)安装
历时5天终于完成了,配置中出现了各种各样的Error,这里记录一下,希望能为正在安装的人提供一点帮助. 配置中主要参考博客:http://blog.csdn.net/yhaolpz/article/d ...
- [AI开发]深度学习如何选择GPU?
机器推理在深度学习的影响下,准确性越来越高.速度越来越快.深度学习对人工智能行业发展的贡献巨大,这得益于现阶段硬件计算能力的提升.互联网海量训练数据的出现.本篇文章主要介绍深度学习过程中如何选择合适的 ...
- 嵌入式cpu架构
原文:http://www.kaixin001.com/repaste/11007221_7220618944.html### 内容: 目前主要CPU架构有ARM.X86/Atom.MIPS.Powe ...
- ubuntu(linux)占领小米平板2(mipad2)
昨天 2014年,媳妇坐月子,给媳妇买了mi6和一个小米平板2(16G).是我们人生拥有的第一个平板,激动不已. 买之前看了小米平板1的口碑不错,arm构架,NVIDIA的主板好像,图形处理做得当然没 ...
- Perseus-BERT——业内性能极致优化的BERT训练方案
一,背景——横空出世的BERT全面超越人类 2018年在自然语言处理(NLP)领域最具爆炸性的一朵“蘑菇云”莫过于Google Research提出的BERT(Bidirectional Encode ...
- NVIDIA面目生成器再做突破
导读 NVIDIA创建的AI系统“GAN”可以通过对图像数据库的学习,来随机生成超逼真人脸照片而一炮走红,经过长时间的研发与晚上目前这套系统已经有了极大的进步.除了可以自主学习之外,生成的内容逼真,让 ...
- Fedora 21 安装 Nvidia 驱动以及失败后的补救方法
在 Linux 桌面系统下玩了这么久,大部分时间都是使用 Ubuntu,偶尔使用一下 Fedora.我的电脑中安装有多个 Linux 发行版,见这里<在同一个硬盘上安装多个Linux发行版及Fe ...
- ubuntu14.04+nvidia driver+cuda8+cudnn5+tensorflow0.12
文章在简书里面编辑的,复制过来貌似不太好看,还是到简书的页面看吧: http://www.jianshu.com/p/c89b97d052b7 1.安装环境简介: 硬件: cpu:i7 6700k g ...
- [转]Android通过NDK调用JNI,使用opencv做本地c++代码开发配置方法
原文地址:http://blog.csdn.net/watkinsong/article/details/9849973 有一种方式不需要自己配置所有的Sun JDK, Android SDK以及ND ...
- ubuntu14.04下的NVIDIA Tesla K80显卡驱动的安装教程
搞深度学习如何能够不与浑身是“核”的显卡打交道呢? 人工智能的兴起除了数据量的大量提升,算法的不断改进,计算能力的逐步提高,还离不开软件基础设施的逐步完善.当下的主流的深度学习工具软件无论是Caffe ...
随机推荐
- 《Redis核心技术与实战》学习笔记总结目录
1 Redis学习路径 去年我学习了极客时间的<Redis核心技术与实战>课程,在这门课程的学习中,我经常看到一位课代表的发言,他就是Kaito,他总结了一份Redis学习路径脑图(建议收 ...
- 使用PySpark计算AUC,KS与PSI
当特征数量或者模型数量很多的时候,使用PySpark去计算相关指标会节省很多的时间.网上关于使用PySpark计算相关指标的资料较少,这里抛砖引玉,写了三个风控常用的指标AUC,KS和PSI相关的计算 ...
- Windows校验文件MD5和SHA值的方法
1.需求背景 下载或传输文件后,需要计算文件的MD5.SHA256等校验值,以确保下载或传输后的文件和源文件一致 2.校验方法 如上图所示,可以使用Windows自带的certutil命令来计算一个文 ...
- 内网DNS解析☞dnsmasq
内网DNS解析☞dnsmasq 目录 内网DNS解析☞dnsmasq 简介: 安装dnsmasq 问题: 1.怎么让172.30.1.* 与172.30.2.* 两个网段能互相访问? 2.firewa ...
- Spring Boot虚拟线程与Webflux在JWT验证和MySQL查询上的性能比较
早上看到一篇关于Spring Boot虚拟线程和Webflux性能对比的文章,觉得还不错.内容较长,我就不翻译了,抓重点给大家介绍一下这篇文章的核心内容,方便大家快速阅读. 测试场景 作者采用了一个尽 ...
- Solution -「CSP 2019」Centroid
Description Link. 给定一棵 \(n\) 个点的树,设 \(E\) 为边集,\(V'_x,\ V'_y\) 分别为删去边 \((x,y)\) 后 点 \(x\) 所在的树的点集和点 \ ...
- c语言代码练习10
//判断输入的数字是否为素数#define _CRT_SECURE_NO_WARNINGS 1 #include <stdio.h> int main() { int n = 0; int ...
- 基于 Python 和 Vue 的在线评测系统
基于 Docker,真正一键部署 前后端分离,模块化编程,微服务 ACM/OI 两种比赛模式.实时/非实时评判 任意选择 丰富的可视化图表,一图胜千言 支持 Template Problem,可以添加 ...
- linux的认知与基本命令
一.linux的了解 1. 什么是Linux? a,Linux是一种免费使用和自由传播的类UNIX操作系统,其内核由林纳斯·本纳第克特·托瓦兹于1991年10月5日首次发布.它主要受到Mi ...
- Oracle 11g数据库详解(2017-01-23更新)
Oracle 11g数据库详解 整理者:赤勇玄心行天道 QQ:280604597 Email:280604597@qq.com 大家有什么不明白的地方,或者想要详细了解的地方可以联系我,我会认真回复的 ...