pytorch的backward

在学习的过程中遇见了一个问题，就是当使用backward()反向传播时传入参数的问题：

net.zero_grad() #所有参数的梯度清零

output.backward(Variable(t.ones(1, 10))) #反向传播

这里的backward()中为什么需要传入参数Variable(t.ones(1, 10))呢？没有传入就会报错：

RuntimeError: grad can be implicitly created only for scalar outputs

这个错误的意思就是梯度只能为标量（即一个数）输出隐式地创建

比如有一个例子是：

1）

#使用Tensor新建一个Variable

x = Variable(t.ones(2, 2),requires_grad = True)

x

tensor([[1., 1.],

        [1., 1.]], requires_grad=True)

此时查看该值的grad和grad_fn是没有返回值的，因为没有进行任何操作

x.grad_fn

x.grad

进行求和操作，查看梯度

y = x.sum()

y

tensor(4., grad_fn=<SumBackward0>)

这时候可查看：

y.grad_fn

<SumBackward0 at 0x122782978>

可知y是变量Variable x进行sum操作求来的，但是这个时候y.grad是没有返回值的，因为没有使用y进行别的操作

这个时候的x.grad也是没有值的，虽然使用x进行了sum操作，但是还没有对y反向传播来计算梯度

y.backward()#反向传播，计算梯度

然后再查看：

#因为y = x.sum() = (x[0][0] + x[0][1] + x[1][0] + x[1][1])

#每个值的梯度都为1

x.grad

tensor([[1., 1.],

        [1., 1.]])

在这里我们可以看见y能够求出x的梯度，这里的y是一个数，即标量

如果这里我们更改一下y的操作，将y设置为一个二维数组：

from __future__ import print_function

import torch as t

from torch.autograd import Variable

x = Variable(t.ones(, ),requires_grad = True)

y = x +

y.backward()

然后就会报上面的错误：

RuntimeError: grad can be implicitly created only for scalar outputs

总结：

因此当输出不是标量时，调用.backwardI()就会出错

解决办法：

显示声明输出的类型作为参数传入,且参数的大小必须要和输出值的大小相同

x.grad.data.zero_() #将之前的值清零

x.grad

tensor([[., .],

        [., .]])

进行反向传播：

y.backward(y.data)

x.grad

也可以写成，因为Variable和Tensor有近乎一致的接口

y.backward(y)

x.grad

tensor([[., .],

        [., .]])

但是这里返回值与预想的1不同，这个原因是得到的梯度会与参数的值相乘，所以最好传入值为1，如：

y.backward(Variable(t.ones(, )))

x.grad

这样就能够成功返回想要的值了：

tensor([[., .],

        [., .]])

更加复杂的操作：

在上面的例子中，x和y都是(2,2)的数组形式，每个y_i都只与对应的x_i相关

1）如果每个y_i都与多个x_i相关时，梯度又是怎么计算的呢？

比如x = (x₁ = 2, x₂ = 4), y = (x₁²+2x₂, 2x₁+3x₂²)

(i,j)的值就是传入.backward()的参数的值

x = Variable(t.FloatTensor([[, ]]),requires_grad = True)

y = Variable(t.zeros(, ))

y[,] = x[,]** +  * x[,]

y[,] =  * x[,] +  * x[,]**

y.backward(Variable(t.ones(, ))) #（i，j）= (,)

x.grad

tensor([[ ., .]])

2）如果x和y不是相同的数组形式，且每个y_i都与多个x_i相关时，梯度又是怎么计算的呢？

比如x = (x₁ = 2, x₂ = 4, x₃=5), y = (x₁²+2x₂+4x₃, 2x₁+3x₂²+x₃²)

x = Variable(t.FloatTensor([[, , ]]),requires_grad = True)

y = Variable(t.zeros(, ))

y[,] = x[,]** +  * x[,] +  * x[,]

y[,] =  * x[,] +  * x[,]** + x[,]**

y.backward(Variable(t.ones(, )))

x.grad

tensor([[ ., ., .]])

如果(i, j) = (2,2),结果是否为(12, 52, 28)呢？

x = Variable(t.FloatTensor([[, , ]]),requires_grad = True)

y = Variable(t.zeros(, ))

y[,] = x[,]** +  * x[,] +  * x[,]

y[,] =  * x[,] +  * x[,]** + x[,]**

y.backward(Variable(t.FloatTensor([[, ]])))

x.grad

tensor([[., ., .]])

3）如果你想要分别得到y₁,y₂对x₁,x₂,x₃的求导值，方法是：

x = Variable(t.FloatTensor([[, , ]]),requires_grad = True)

y = Variable(t.zeros(, ))

y[,] = x[,]** +  * x[,] +  * x[,]

y[,] =  * x[,] +  * x[,]** + x[,]**

j = t.zeros(,)#用于存放求导的值

#(i,j)=(,)这样就会对应只求得y1对x1,x2和x3的求导

#retain_variables=True的作用是不在反向传播后释放内存，这样才能够再次反向传播

y.backward(Variable(t.FloatTensor([[, ]])),retain_variables=True)

j[:,] = x.grad.data

x.grad.data.zero_() #将之前的值清零

#(i,j)=(,)这样就会对应只求得y2对x1,x2和x3的求导

y.backward(Variable(t.FloatTensor([[, ]])))

j[:,] = x.grad.data

print(j)

报错：

TypeError: backward() got an unexpected keyword argument 'retain_variables'

原因是新版本使用的参数名为retain_graph，改了即可：

x = Variable(t.FloatTensor([[, , ]]),requires_grad = True)

y = Variable(t.zeros(, ))

y[,] = x[,]** +  * x[,] +  * x[,]

y[,] =  * x[,] +  * x[,]** + x[,]**

j = t.zeros(,)#用于存放求导的值

#(i,j)=(,)这样就会对应只求得y1对x1,x2和x3的求导

#retain_graph=True的作用是不在反向传播后释放内存，这样才能够再次反向传播

y.backward(Variable(t.FloatTensor([[, ]])),retain_graph=True)

j[:,] = x.grad.data

x.grad.data.zero_() #将之前的值清零

#(i,j)=(,)这样就会对应只求得y2对x1,x2和x3的求导

y.backward(Variable(t.FloatTensor([[, ]])))

j[:,] = x.grad.data

print(j)

tensor([[ .,  .],

        [ ., .],

        [ ., .]])

pytorch的backward的更多相关文章

Pytorch 之 backward
首先看这个自动求导的参数: grad_variables:形状与variable一致,对于y.backward(),grad_variables相当于链式法则dz/dx=dz/dy × dy/dx 中 ...
ARTS-S pytorch中backward函数的gradient参数作用
导数偏导数的数学定义参考资料1和2中对导数偏导数的定义都非常明确.导数和偏导数都是函数对自变量而言.从数学定义上讲,求导或者求偏导只有函数对自变量,其余任何情况都是错的.但是很多机器学习的资料和开源 ...
Pytorch autograd,backward详解
平常都是无脑使用backward,每次看到别人的代码里使用诸如autograd.grad这种方法的时候就有点抵触,今天花了点时间了解了一下原理,写下笔记以供以后参考.以下笔记基于Pytorch1.0 ...
pytorch autograd backward函数中 retain_graph参数的作用，简单例子分析，以及create_graph参数的作用
retain_graph参数的作用官方定义: retain_graph (bool, optional) – If False, the graph used to compute the grad ...
Pytorch中torch.autograd ---backward函数的使用方法详细解析，具体例子分析
backward函数官方定义: torch.autograd.backward(tensors, grad_tensors=None, retain_graph=None, create_graph ...
关于Pytorch中autograd和backward的一些笔记
参考自<Pytorch autograd,backward详解>: 1 Tensor Pytorch中所有的计算其实都可以回归到Tensor上,所以有必要重新认识一下Tensor. 如果我 ...
深度学习框架PyTorch一书的学习-第三章-Tensor和autograd-2-autograd
参考https://github.com/chenyuntc/pytorch-book/tree/v1.0 希望大家直接到上面的网址去查看代码,下面是本人的笔记 torch.autograd就是为了方 ...
深度学习框架PyTorch一书的学习-第一/二章
参考https://github.com/chenyuntc/pytorch-book/tree/v1.0 希望大家直接到上面的网址去查看代码,下面是本人的笔记 pytorch的设计遵循tensor- ...
TensorFlow2.0初体验
TF2.0默认为动态图,即eager模式.意味着TF能像Pytorch一样不用在session中才能输出中间参数值了,那么动态图和静态图毕竟是有区别的,tf2.0也会有写法上的变化.不过值得吐槽的是, ...

随机推荐

thinkphp 3.2 去除调试模式后报错，怎么解决
1.案例一: 最近用ThinkPHP开发一个项目,本地开发测试完成上传到服务器后,第一次打开正常,再刷新页面时就出现 “页面调试错误,无法找开页面,请重试”的错误. 我就郁闷啦,明明本地设置defin ...
CSS实现移动端横向滑动
html: <div class="chosen-container"> <div class="chosen-swiper"> < ...
JS对url进行编码和解码（三种方式区别）
Javascript语言用于编码的函数,一共有三个,最古老的一个就是escape().虽然这个函数现在已经不提倡使用了,但是由于历史原因,很多地方还在使用它,所以有必要先从它讲起. escape 和 ...
mysql中需要注意的编码问题
Angular的12个经典问题，看看你能答对几个？（文末附带Angular测试）
Angular作为目前最为流行的前端框架,受到了前端开发者的普遍欢迎.不论是初学Angular的新手,还是有一定Angular开发经验的开发者,了解本文中的12个经典面试问题,都将会是一个深入了解和学 ...
Android Touch事件传递机制二：单纯的（伪生命周期）这个清楚一点
转载于:http://blog.csdn.net/yuanzeyao/article/details/38025165 在前一篇文章中,我主要讲解了Android源码中的Touch事件的传递过程,现在 ...
【效率工具】SSH一键登录脚本（可一键从跳板机登录线上服务器）
说明前阵子上线,一次性上了十个服务,一直上到凌晨才完事,期间每个服务都要先输入跳板机的登录信息来登录跳板机,然后再输入线上服务器的信息来登录线上服务器,实在是太过于麻烦,而且有些服务还有好几台服务器 ...
关于前端js面向对象编程以及封装组件的思想
demo-richbase 用来演示怎么使用richbase来制作组件的例子作为一名前端工程师,写组件的能力至关重要.虽然javascript经常被人嘲笑是个小玩具,但是在一代代大牛的前仆后继的努力 ...
Vue组件的使用
前面的话组件(component)是Vue最强大的功能之一.组件可以扩展HTML元素,封装可重用的代码,根据项目需求,抽象出一些组件,每个组件里包含了展现.功能和样式.每个页面,根据自己的需要,使用 ...
javascript:面向对象和常见内置对象及操作
本文内容: 面向对象常见内置对象及操作首发日期:2018-05-11 面向对象: JavaScript 是面向对象的编程语言 (OOP).OOP 语言使我们有能力定义自己的对象和变量类型. 对象是 ...

pytorch的backward

pytorch的backward的更多相关文章

随机推荐

热门专题