MXNET：深度学习计算-GPU

侯凯 2024-08-18 23:21:09 原文

mxnet的设备管理

MXNet 使用 context 来指定用来存储和计算的设备，例如可以是 CPU 或者 GPU。默认情况下，MXNet 会将数据创建在主内存，然后利用 CPU 来计算。在 MXNet 中，CPU 和 GPU 可分别由 cpu() 和 gpu() 来表示。

需要注意的是，mx.cpu()（或者在括号里填任意整数）表示所有的物理 CPU 和内存。这意味着计算上会尽量使用所有的 CPU 核。

但 mx.gpu() 只代表一块显卡和相应的显卡内存。如果有多块 GPU，我们用 mx.gpu(i) 来表示第 i 块 GPU（i 从 0 开始）且 mx.gpu(0) 和 mx.gpu() 等价。

NDArray 的 GPU 计算

默认情况下，NDArray 存在 CPU 上

x = nd.array([1,2,3])

x

x.context

# output

[ 1.  2.  3.]

<NDArray 3 @cpu(0)>

cpu(0)

我们有多种方法将 NDArray 放置在 GPU 上。例如我们可以在创建 NDArray 的时候通过 ctx 指定存储设备。

a = nd.array([1, 2, 3], ctx=mx.gpu())

a

b = nd.random.uniform(shape=(2, 3), ctx=mx.gpu(1))

b

# output

[ 1.  2.  3.]

<NDArray 3 @gpu(0)>

[[ 0.59118998  0.313164    0.76352036]

 [ 0.97317863  0.35454726  0.11677533]]

<NDArray 2x3 @gpu(1)>

除了在创建时指定，我们也可以通过 copyto 和 as_in_context 函数在设备之间传输数据。下面我们将 CPU 上的 x 复制到 GPU 0 上。

y = x.copyto(mx.gpu())

z = x.as_in_context(mx.gpu())

需要区分的是，如果源变量和目标变量的 context 一致，as_in_context 使目标变量和源变量共享源变量的内存;而 copyto 总是为目标变量新创建内存。

GPU 上的计算

MXNet 的计算会在数据的 context 上执行。为了使用 GPU 计算，我们只需要事先将数据放在 GPU 上面。而计算结果会自动保存在相同的 GPU 上。

注意，MXNet 要求计算的所有输入数据都在同一个 CPU/GPU 上。这个设计的原因是不同 CPU/GPU 之间的数据交互通常比较耗时。因此，MXNet 希望用户确切地指明计算的输入数据都在同一个 CPU/GPU 上。例如，如果将 CPU 上的 x 和 GPU 上的 y 做运算，会出现错误信息。

当我们打印 NDArray 或将 NDArray 转换成 NumPy 格式时，如果数据不在主内存里，MXNet 会自动将其先复制到主内存，从而带来隐形的传输开销。

Gluon 的 GPU 计算

同 NDArray 类似，Gluon 的模型可以在初始化时通过 ctx 指定设备。下面代码将模型参数初始化在 GPU 上。

net = nn.Sequential()

net.add(nn.Dense(1))

net.initialize(ctx=mx.gpu())

当输入是 GPU 上的 NDArray 时，Gluon 会在相同的 GPU 上计算结果。

net(y)

# output

[[ 0.0068339 ]

 [ 0.01366779]

 [ 0.02050169]]

<NDArray 3x1 @gpu(0)>

模型参数存储在相同的 GPU 上。

net[0].weight.data()

[[ 0.0068339]]

<NDArray 1x1 @gpu(0)>

MXNET：深度学习计算-GPU的更多相关文章

MXNet深度学习库简介
MXNet深度学习库简介摘要: MXNet是一个深度学习库, 支持C++, Python, R, Scala, Julia, Matlab以及JavaScript等语言; 支持命令和符号编程; 可以 ...
深度学习中GPU和显存分析
刚入门深度学习时,没有显存的概念,后来在实验中才渐渐建立了这个意识. 下面这篇文章很好的对GPU和显存总结了一番,于是我转载了过来. 作者:陈云链接:https://zhuanlan.zhihu. ...
Caffe深度学习计算框架
Caffe | Deep Learning Framework是一个清晰而高效的深度学习框架,其作者是博士毕业于UC Berkeley的 Yangqing Jia,目前在Google工作.Caffe是 ...
MXNET：深度学习计算-模型构建
进入更深的层次:模型构造.参数访问.自定义层和使用 GPU. 模型构建在多层感知机的实现中,我们首先构造 Sequential 实例,然后依次添加两个全连接层.其中第一层的输出大小为 256,即隐藏 ...
MXNET：深度学习计算-模型参数
我们将深入讲解模型参数的访问和初始化,以及如何在多个层之间共享同一份参数. 之前我们一直在使用默认的初始函数,net.initialize(). from mxnet import init, nd ...
MXNET：深度学习计算-自定义层
虽然 Gluon 提供了大量常用的层,但有时候我们依然希望自定义层.本节将介绍如何使用 NDArray 来自定义一个 Gluon 的层,从而以后可以被重复调用. 不含模型参数的自定义层我们先介绍如何 ...
mxnet深度学习实战学习笔记-9-目标检测
1.介绍目标检测是指任意给定一张图像,判断图像中是否存在指定类别的目标,如果存在,则返回目标的位置和类别置信度如下图检测人和自行车这两个目标,检测结果包括目标的位置.目标的类别和置信度因为目标检 ...
深度学习查看GPU实时使用情况
1.CPU使用情况查看动态查看打开终端,输入: $ top按Ctrl+C退出查看. 即可看到实时的CPU使用情况. 查看版本 $ top -h 即可看到当前procps-ng的版本. 2. gp ...
科普帖：深度学习中GPU和显存分析
知乎的一篇文章: https://zhuanlan.zhihu.com/p/31558973 关于如何使用nvidia-smi查看显存与GPU使用情况,参考如下链接: https://blog.csd ...

随机推荐

UVA - 1625 Color Length[序列DP 提前计算代价]
UVA - 1625 Color Length 白书很明显f[i][j]表示第一个取到i第二个取到j的代价问题在于代价的计算,并不知道每种颜色的开始和结束和模拟赛那道环形DP很想,计算这 ...
[HDU4906]Our happy ending
[HDU4906]Our happy ending 题目大意: 让你构造一个\(n(n\le20)\)个数的数列,其中每个数都为小于等于\(l(l\le10^9)\)的非负整数. 问你能构造出多少个这 ...
零基础学习hadoop到上手工作线路指导初级篇：hive及mapreduce（转）
零基础学习hadoop到上手工作线路指导初级篇:hive及mapreduce:http://www.aboutyun.com/thread-7567-1-1.html mapreduce学习目录总结 ...
大文件拆分方案的java实践（附源码）
引子大文件拆分问题涉及到io处理.并发编程.生产者/消费者模式的理解,是一个很好的综合应用场景,为此,花点时间做一些实践,对相关的知识做一次梳理和集成,总结一些共性的处理方案和思路,以供后续工作中借 ...
继承之final关键字的使用
final关键字使用final关键字坐标识具有"最终的"含义, final可以修饰类.方法.属性.和变量. final修饰类表示该类不能被继承 final修饰方法,则表示该方法不 ...
ProxySQL
ProxySQL http://www.proxysql.com/
how to generate an analog output from a in-built pwm of Atmega 32AVR microcontrloller?
how to generate an analog output from a in-built pwm of Atmega 32AVR microcontrloller? you need a re ...
Linux TC(Traffic Control)框架原理解析
近日的工作多多少少和Linux的流控有点关系.自打几年前知道有TC这么一个玩意儿而且多多少少理解了它的原理之后,我就没有再动过它,由于我不喜欢TC命令行,实在是太繁琐了.iptables命令行也比較繁 ...
crucible 的破解
crucible这个东西用了很久,但是从来都没有想过去破解它,毕竟在公司是不能使用破解软件的.于是再家里面玩一下而已.下载地址运行crucible_keygen 如图: 点击 patch 将选择安 ...
MDX Cookbook 11 - 计算 Year Over Year 增长 (同比计算) ParallelPeriod
这一小节主要介绍如何在一个平行期间的度量值,当前值的对比对象是指当前值的上一年,上一个季度或者其它时间级别上与当前值同一时间点上的的那个对象.有一个非常常见的需求就是对比上一年同一个时间点的某个值来判 ...