pytorch的backward
在学习的过程中遇见了一个问题,就是当使用backward()反向传播时传入参数的问题:
net.zero_grad() #所有参数的梯度清零
output.backward(Variable(t.ones(1, 10))) #反向传播
这里的backward()中为什么需要传入参数Variable(t.ones(1, 10))呢?没有传入就会报错:
RuntimeError: grad can be implicitly created only for scalar outputs
这个错误的意思就是梯度只能为标量(即一个数)输出隐式地创建
比如有一个例子是:
1)
#使用Tensor新建一个Variable
x = Variable(t.ones(2, 2),requires_grad = True)
x
返回:
tensor([[1., 1.],
[1., 1.]], requires_grad=True)
此时查看该值的grad和grad_fn是没有返回值的,因为没有进行任何操作
x.grad_fn
x.grad
进行求和操作,查看梯度
y = x.sum()
y
返回:
tensor(4., grad_fn=<SumBackward0>)
这时候可查看:
y.grad_fn
返回:
<SumBackward0 at 0x122782978>
可知y是变量Variable x进行sum操作求来的,但是这个时候y.grad是没有返回值的,因为没有使用y进行别的操作
这个时候的x.grad也是没有值的,虽然使用x进行了sum操作,但是还没有对y反向传播来计算梯度
y.backward()#反向传播,计算梯度
然后再查看:
#因为y = x.sum() = (x[0][0] + x[0][1] + x[1][0] + x[1][1])
#每个值的梯度都为1
x.grad
返回:
tensor([[1., 1.],
[1., 1.]])
在这里我们可以看见y能够求出x的梯度,这里的y是一个数,即标量
如果这里我们更改一下y的操作,将y设置为一个二维数组:
from __future__ import print_function
import torch as t
from torch.autograd import Variable
x = Variable(t.ones(, ),requires_grad = True)
y = x +
y.backward()
然后就会报上面的错误:
RuntimeError: grad can be implicitly created only for scalar outputs
总结:
因此当输出不是标量时,调用.backwardI()就会出错
解决办法:
显示声明输出的类型作为参数传入,且参数的大小必须要和输出值的大小相同
x.grad.data.zero_() #将之前的值清零
x.grad
返回:
tensor([[., .],
[., .]])
进行反向传播:
y.backward(y.data)
x.grad
也可以写成,因为Variable和Tensor有近乎一致的接口
y.backward(y)
x.grad
返回:
tensor([[., .],
[., .]])
但是这里返回值与预想的1不同,这个原因是得到的梯度会与参数的值相乘,所以最好传入值为1,如:
y.backward(Variable(t.ones(, )))
x.grad
这样就能够成功返回想要的值了:
tensor([[., .],
[., .]])
更加复杂的操作:
在上面的例子中,x和y都是(2,2)的数组形式,每个yi都只与对应的xi相关
1)如果每个yi都与多个xi相关时,梯度又是怎么计算的呢?
比如x = (x1 = 2, x2 = 4), y = (x12+2x2, 2x1+3x22)
(i,j)的值就是传入.backward()的参数的值
x = Variable(t.FloatTensor([[, ]]),requires_grad = True)
y = Variable(t.zeros(, ))
y[,] = x[,]** + * x[,]
y[,] = * x[,] + * x[,]**
y.backward(Variable(t.ones(, ))) #(i,j)= (,)
x.grad
返回:
tensor([[ ., .]])
2)如果x和y不是相同的数组形式,且每个yi都与多个xi相关时,梯度又是怎么计算的呢?
比如x = (x1 = 2, x2 = 4, x3=5), y = (x12+2x2+4x3, 2x1+3x22+x32)
x = Variable(t.FloatTensor([[, , ]]),requires_grad = True)
y = Variable(t.zeros(, ))
y[,] = x[,]** + * x[,] + * x[,]
y[,] = * x[,] + * x[,]** + x[,]**
y.backward(Variable(t.ones(, )))
x.grad
返回:
tensor([[ ., ., .]])
如果(i, j) = (2,2),结果是否为(12, 52, 28)呢?
x = Variable(t.FloatTensor([[, , ]]),requires_grad = True)
y = Variable(t.zeros(, ))
y[,] = x[,]** + * x[,] + * x[,]
y[,] = * x[,] + * x[,]** + x[,]**
y.backward(Variable(t.FloatTensor([[, ]])))
x.grad
返回:
tensor([[., ., .]])
3)如果你想要分别得到y1,y2对x1,x2,x3的求导值,方法是:
x = Variable(t.FloatTensor([[, , ]]),requires_grad = True)
y = Variable(t.zeros(, ))
y[,] = x[,]** + * x[,] + * x[,]
y[,] = * x[,] + * x[,]** + x[,]**
j = t.zeros(,)#用于存放求导的值
#(i,j)=(,)这样就会对应只求得y1对x1,x2和x3的求导
#retain_variables=True的作用是不在反向传播后释放内存,这样才能够再次反向传播
y.backward(Variable(t.FloatTensor([[, ]])),retain_variables=True)
j[:,] = x.grad.data
x.grad.data.zero_() #将之前的值清零
#(i,j)=(,)这样就会对应只求得y2对x1,x2和x3的求导
y.backward(Variable(t.FloatTensor([[, ]])))
j[:,] = x.grad.data
print(j)
报错:
TypeError: backward() got an unexpected keyword argument 'retain_variables'
原因是新版本使用的参数名为retain_graph,改了即可:
x = Variable(t.FloatTensor([[, , ]]),requires_grad = True)
y = Variable(t.zeros(, ))
y[,] = x[,]** + * x[,] + * x[,]
y[,] = * x[,] + * x[,]** + x[,]**
j = t.zeros(,)#用于存放求导的值
#(i,j)=(,)这样就会对应只求得y1对x1,x2和x3的求导
#retain_graph=True的作用是不在反向传播后释放内存,这样才能够再次反向传播
y.backward(Variable(t.FloatTensor([[, ]])),retain_graph=True)
j[:,] = x.grad.data
x.grad.data.zero_() #将之前的值清零
#(i,j)=(,)这样就会对应只求得y2对x1,x2和x3的求导
y.backward(Variable(t.FloatTensor([[, ]])))
j[:,] = x.grad.data
print(j)
返回:
tensor([[ ., .],
[ ., .],
[ ., .]])
pytorch的backward的更多相关文章
- Pytorch 之 backward
首先看这个自动求导的参数: grad_variables:形状与variable一致,对于y.backward(),grad_variables相当于链式法则dz/dx=dz/dy × dy/dx 中 ...
- ARTS-S pytorch中backward函数的gradient参数作用
导数偏导数的数学定义 参考资料1和2中对导数偏导数的定义都非常明确.导数和偏导数都是函数对自变量而言.从数学定义上讲,求导或者求偏导只有函数对自变量,其余任何情况都是错的.但是很多机器学习的资料和开源 ...
- Pytorch autograd,backward详解
平常都是无脑使用backward,每次看到别人的代码里使用诸如autograd.grad这种方法的时候就有点抵触,今天花了点时间了解了一下原理,写下笔记以供以后参考.以下笔记基于Pytorch1.0 ...
- pytorch autograd backward函数中 retain_graph参数的作用,简单例子分析,以及create_graph参数的作用
retain_graph参数的作用 官方定义: retain_graph (bool, optional) – If False, the graph used to compute the grad ...
- Pytorch中torch.autograd ---backward函数的使用方法详细解析,具体例子分析
backward函数 官方定义: torch.autograd.backward(tensors, grad_tensors=None, retain_graph=None, create_graph ...
- 关于Pytorch中autograd和backward的一些笔记
参考自<Pytorch autograd,backward详解>: 1 Tensor Pytorch中所有的计算其实都可以回归到Tensor上,所以有必要重新认识一下Tensor. 如果我 ...
- 深度学习框架PyTorch一书的学习-第三章-Tensor和autograd-2-autograd
参考https://github.com/chenyuntc/pytorch-book/tree/v1.0 希望大家直接到上面的网址去查看代码,下面是本人的笔记 torch.autograd就是为了方 ...
- 深度学习框架PyTorch一书的学习-第一/二章
参考https://github.com/chenyuntc/pytorch-book/tree/v1.0 希望大家直接到上面的网址去查看代码,下面是本人的笔记 pytorch的设计遵循tensor- ...
- TensorFlow2.0初体验
TF2.0默认为动态图,即eager模式.意味着TF能像Pytorch一样不用在session中才能输出中间参数值了,那么动态图和静态图毕竟是有区别的,tf2.0也会有写法上的变化.不过值得吐槽的是, ...
随机推荐
- ASPxGridView 添加勾选列--全选 和 后端获取勾的行ID
一.HTML 代码 <table style="width: 100%;"> <tr> <td> <asp:Button ID=" ...
- angular 设置年份选择下拉框,并默认今年
<select ng-model="selectedYear" ng-change="yearChange(selectedYear)"> < ...
- JS之onunload、onbeforeunload事件详解
简介 onunload,onbeforeunload都是在刷新或关闭时调用,可以在<script>脚本中通过 window.onunload来调用.区别在于onbeforeunload在o ...
- Shell中判断语句if中-z至-d的意思
[ -a FILE ] 如果 FILE 存在则为真. [ -b FILE ] 如果 FILE 存在且是一个块特殊文件则为真. [ -c FILE ] 如果 FILE 存在且是一个字特殊文件则为真. [ ...
- bat 批处理获取时间语法格式
bat 批处理获取时间语法格式 取年份:echo %date:~0,4% 取月份:echo %date:~5,2% 取日期:echo %date:~8,2% 取星期:echo %date:~10 ...
- OneAPM 获得“2018中国 IT 服务创新奖”,彰显技术创新实力
6月30日,主题为“智能服务 数字中国”的中国 IT 服务创新大会在京召开.作为第22届中国国际软件博览会的重头戏,本次大会由工业和信息化部.北京市人民政府共同主办,中国电子工业标准化技术协会信息技术 ...
- 口碑点餐相关问题FAQ
1.菜品上传中:出现重复错误或者违禁词 检查并修改商家中心本次上传中的重复菜品,或者删除口碑掌柜以及第三方平台已添加的重复菜品(重复菜品临时快捷办法:修改菜品名称) 2.手持pos 打开自动接单,无响 ...
- Linux下对lvm逻辑卷分区大小的调整(针对xfs和ext4不同文件系统)
当我们在安装系统的时候,由于没有合理分配分区空间,在后续维护过程中,发现有些分区空间不够使用,而有的分区空间却有很多剩余空间.如果这些分区在装系统的时候使用了lvm(前提是这些分区要是lvm逻辑卷分区 ...
- A Java Runtime Environment (JRE) or Java Development Kit (JDK) must be available in order to run Eclipse. No Java virtual machine was found after searching the following locations: /usr/local/eclipse/
linux系统下jdk是已经安装好的情况之下软件出现 A Java Runtime Environment (JRE) or Java Development Kit (JDK) must be av ...
- spring-AOP(面向切面编程)-xml方式配置
AOP是针对面向对象编程的一种补充,有时使用面向对象不能很好完成一些额外的功能业务时,可以采用AOP来进行补充. AOP术语: 切面(Aspect) 切面是用于编写切面逻辑的一个类,这个类很类似于JD ...