首先看这个自动求导的参数：

grad_variables：形状与variable一致，对于y.backward()，grad_variables相当于链式法则dz/dx=dz/dy × dy/dx 中的 dz/dy。grad_variables也可以是tensor或序列。
retain_graph：反向传播需要缓存一些中间结果，反向传播之后，这些缓存就被清空，可通过指定这个参数不清空缓存，用来多次反向传播。
create_graph：对反向传播过程再次构建计算图，可通过backward of backward实现求高阶导数。

注意variables 和 grad_variables 都可以是 sequence。对于scalar（标量，一维向量）来说可以不用填写grad_variables参数，若填写的话就相当于系数。若variables非标量则必须填写grad_variables参数。下面结合参考示例来解释一下这个参数怎么用。

先说一下自己总结的一个通式，适用于所有形式：

对于此式，x的梯度x.grad为

1.scalar标量

注意参数requires_grad=True让其成为一个叶子节点，具有求导功能。

手动求导结果：

代码实现：

import torch as t

from torch.autograd import Variable as v

a = v(t.FloatTensor([2, 3]), requires_grad=True)    # 注意这里为一维，标量

b = a + 3

c = b * b * 3

out = c.mean()

out.backward(retain_graph=True) # 这里可以不带参数，默认值为‘1’，由于下面我们还要求导，故加上retain_graph=True选项

结果：

a.grad

Out[184]:

Variable containing:

  15  
  18
[torch.FloatTensor of size 1x2]

结果与手动计算一样

backward带参数呢？此时的参数为系数

将梯度置零：

a.grad.data.zero_()

再次求导验证输入参数仅作为系数：

n.backward(torch.Tensor([[2,3]]), retain_graph=True)

结果：（2和3应该分别作为系数相乘）

a.grad

Out[196]:

Variable containing:

  30
  54
[torch.FloatTensor of size 1x2]

验证了我们的想法。

2.张量

import torch

from torch.autograd import Variable as V

m = V(torch.FloatTensor([[2, 3]]), requires_grad=True)   # 注意这里有两层括号，非标量

n = V(torch.zeros(1, 2))

n[0, 0] = m[0, 0] ** 2

n[0, 1] = m[0, 1] ** 3

求导：（此时的[[1, 1]]为系数，仅仅作为简单乘法的系数），注意 retain_graph=True，下面我们还要求导，故置为True。

n.backward(torch.Tensor([[1,1]])， retain_graph=True)

结果：

m.grad

Out[184]:

Variable containing:

  4  27

[torch.FloatTensor of size 1x2]

将梯度置零：

m.grad.data.zero_()

再次求导验证输入参数仅作为系数：

n.backward(torch.Tensor([[2,3]]))

结果：4,27 × 2,3 =8,81 验证了系数这一说法

 m.grad

Out[196]:

Variable containing:

  8  81

[torch.FloatTensor of size 1x2]

注意backward参数，由于是非标量，不填写参数将会报错。

3. 另一种重要情形

之前我们求导都相当于是loss对于x的求导，没有接触中间过程。然而对于下面的链式法则我们知道如果知道中间的导数结果，也可以直接计算对于输入的导数。而grad_variables参数在某种意义上就是中间结果。即上面都是z.backward()之类，那么考虑y.backward(b) 或 y.backward(x)是什么意思呢？

下面给出一个例子解释清楚：

import torch

from torch.autograd import Variable

x = Variable(torch.randn(3), requires_grad=True)

y = Variable(torch.randn(3), requires_grad=True)

z = Variable(torch.randn(3), requires_grad=True)

print(x)

print(y)

print(z)

t = x + y

l = t.dot(z)

结果：

# x

Variable containing:

 0.9168

 1.3483

 0.4293

[torch.FloatTensor of size 3]

# y

Variable containing:

 0.4982

 0.7672

 1.5884

[torch.FloatTensor of size 3]

# z

Variable containing:

 0.1352

-0.4037

-0.2425

[torch.FloatTensor of size 3]

在调用 backward 之前，可以先手动求一下导数，应该是： $l = (x+y)^Tz, dl/dx = dl/dy = z, dl/dz=x+y=t, dl/dt=z$

当我们打印x.grad和y.grad时都是 x.grad = y.grad = z。当我们打印z.grad 时为 z.grad = t = x + y。这里都没有问题。重要的来了：

先置零：

x.grad.data.zero_()

y.grad.data.zero_()

z.grad.data.zero_()

看看下面这个情况：

t.backward(z)

print(x.grad)

print(y.grad)

print(z.grad)

此时的结果为：

x和y的导数仍然与上面一样为z。而z的导数为0。解释：
t.backward(z): 若求x.grad: z * dt/dx   即为dl/dt × dt/dx=z

               若求y.grad: z * dt/dy   即为dl/dt × dt/dy=z

               若求z.grad: z * dt/dz   即为dl/dt × dt/dz = z×0 = 0

再验证一下我们的想法：

清零后看看下面这种情况：

t.backward(x)

print(x.grad)

print(y.grad)

print(z.grad)

x和y的导数仍然相等为x。而z的导数为0。解释：
t.backward(x): 若求x.grad: x * dt/dx   即为x × 1 = x

               若求y.grad: x * dt/dy   即为x × 1 = x

               若求z.grad: x * dt/dz   即为x × 0 = 0
验证成功。

另：k.backward(p)接受的参数p必须要和k的大小一样。这一点也可以从通式看出来。

参考：

PyTorch 的 backward 为什么有一个 grad_variables 参数？

PyTorch 中文网

PyTorch中的backward [转]

Calculus on Computational Graphs: Backpropagation

Pytorch 之 backward的更多相关文章

ARTS-S pytorch中backward函数的gradient参数作用
导数偏导数的数学定义参考资料1和2中对导数偏导数的定义都非常明确.导数和偏导数都是函数对自变量而言.从数学定义上讲,求导或者求偏导只有函数对自变量,其余任何情况都是错的.但是很多机器学习的资料和开源 ...
Pytorch autograd,backward详解
平常都是无脑使用backward,每次看到别人的代码里使用诸如autograd.grad这种方法的时候就有点抵触,今天花了点时间了解了一下原理,写下笔记以供以后参考.以下笔记基于Pytorch1.0 ...
pytorch autograd backward函数中 retain_graph参数的作用，简单例子分析，以及create_graph参数的作用
retain_graph参数的作用官方定义: retain_graph (bool, optional) – If False, the graph used to compute the grad ...
pytorch的backward
在学习的过程中遇见了一个问题,就是当使用backward()反向传播时传入参数的问题: net.zero_grad() #所有参数的梯度清零 output.backward(Variable(t.on ...
Pytorch中torch.autograd ---backward函数的使用方法详细解析，具体例子分析
backward函数官方定义: torch.autograd.backward(tensors, grad_tensors=None, retain_graph=None, create_graph ...
关于Pytorch中autograd和backward的一些笔记
参考自<Pytorch autograd,backward详解>: 1 Tensor Pytorch中所有的计算其实都可以回归到Tensor上,所以有必要重新认识一下Tensor. 如果我 ...
深度学习框架PyTorch一书的学习-第三章-Tensor和autograd-2-autograd
参考https://github.com/chenyuntc/pytorch-book/tree/v1.0 希望大家直接到上面的网址去查看代码,下面是本人的笔记 torch.autograd就是为了方 ...
深度学习框架PyTorch一书的学习-第一/二章
参考https://github.com/chenyuntc/pytorch-book/tree/v1.0 希望大家直接到上面的网址去查看代码,下面是本人的笔记 pytorch的设计遵循tensor- ...
TensorFlow2.0初体验
TF2.0默认为动态图,即eager模式.意味着TF能像Pytorch一样不用在session中才能输出中间参数值了,那么动态图和静态图毕竟是有区别的,tf2.0也会有写法上的变化.不过值得吐槽的是, ...

随机推荐

MT【5】蝴蝶效应:一道递推式为二次的数列
评:蝴蝶效应[蝴蝶效应(The Butterfly Effect)是指在一个动力系统中,初始条件下微小的变化能带动整个系统的长期的巨 ...
Android 视频教程源码电子书网址
资源名称资源地址下载量好评率8天快速掌握Android视频教程67集(附源码)http://down.51cto.com/zt/2197 32157Android开发入门之实战技巧和源码 htt ...
[luogu4403][bzoj1271][BJWC2008]秦腾与教学评估
题目描述在秦腾进入北京大学学习的第一个学期,就不幸遇到了前所未有的教学评估.在教学评估期间,同学们被要求八点起床,十一点回宿舍睡觉,不准旷课,上课不准迟到,上课不准睡觉--甚至连著名的北大三角地也在 ...
洛谷 P4151 [WC2011]最大XOR和路径解题报告
P4151 [WC2011]最大XOR和路径题意求无向带权图的最大异或路径范围思路还是很厉害的,上午想了好一会儿都不知道怎么做先随便求出一颗生成树,然后每条返祖边都可以出现一个环,从的路径上 ...
Win10删除anaconda重装
1.找到anaconda安装的文件夹,找到Uninstall-Anaconda.exe,左键双击运行: 2.然后就按照提示开始卸载,会看到如下: 就会卸载完了,然后你就会发现anaconda所在的文件 ...
P1382 楼房 set用法小结
这个sb题目,剧毒... STL大法好首先,我准备用经典的线段树优化扫描线来做.之前的矩形周长把我困了数天导致我胸有成竹. 然后,敲代码半小时,调试半个月......这个,sb,怎么改都是0分+2个 ...
Asp: 解决脚本输出网页出现乱码情况
很久没碰asp,都有点生疏了,唉... 今天写一个小程序,发现网页静态部分输出不会乱码,asp脚本部分输出在360浏览器上会显示乱码,但在firefox和chrome上测试却不会显示乱码,我已经在代码 ...
Gradle安装 Gradle效率提升 eclipse安装gradle插件【我】
Gradle安装从官网下载 gradle4.6版本,也可以从svn地址下载 https://downloads.gradle.org/distributions/gradle-4.6-bin.zip ...
洛谷P2148 [SDOI2009]E&D（博弈论）
洛谷题目传送门先安利蒟蒻仍在施工的博弈论总结首先根据题目,石子被两两分组了,于是根据SG定理,我们只要求出每一组的SG值再全部异或起来就好啦. 把每一对数看成一个ICG,首先,我们尝试构造游戏的状 ...
vue2.0 之列表渲染-v-for
v-for 数组渲染 App.vue代码 <template> <div> <ul> <li v-for="item in list"&g ...