pytorch-backword函数的理解

函数：\(tensor.backward(params)\)

这个params的维度一定要和tensor的一致，因为tensor如果是一个向量y = [y1,y2,y3]，那么传入的params=[a1,a2,a3]，这三个值是系数，那么是什么的系数呢？
假定对x =[ x1,x2]求导，那么我们知道，
\(dy/dx\) 为：
第一列： \(dy1/dx1,dy2/dx1,dy3/dx1\)
第二列：\(dy1/dx2, dy2/dx2,dy3/dx2\)
从而 \(dy/dx\)是一个3行2列的矩阵，每一列对应了对x1的导数，每一列也就是\(x1\)的梯度向量
而反向计算的时候，并不是返回这个矩阵，而是返回这个矩阵每列的和作为梯度，也就是：\(dy1/dx1+dy2/dx1+dy3/dx1\) 是y对x1的梯度
这就好理解了，系数为\(params=[a1,a2,a3]\)就对应了这加和的三项！也就是，对\(x1\)的梯度实际上是\(a1*dy1/dx1+a2*dy2/dx1+a3*dy3/dx1\)
而输出y是标量的时候，就不需要了，默认的就是\(1.\)

自己重写backward函数时，要写上一个grad_output参数，这个参数就是上面提到的params

这个grad_output参数究竟是什么呢？下面作出解释：
是这样的，假如网络有两层， h = h(x)，y = y(h)
你可以计算\(dy/dx\)，这样，y.backward(),因为\(dy/dy=1\)，那么，backward的参数就可以省略
如果计算h.backward()，因为你想求的是\(dy/dx\)，（这才是输出对于输入的梯度），那么，计算图中的y = y(h)就没有考虑到
因为\(dy/dx = dy/dh * dh/dx\)，h.backward()求得是\(dh/dx\)，那么你必须传入之前的梯度\(dy/dh\)才行，也就是说，h.backward(params=dy/dh)这里面的参数就是\(dy/dh\)

这就好理解了，如果我们自己实现了一层，继承自Function，自己实现静态方法forward和backward时，backward必须有个grad_output参数，这个参数就是计算图中输出对该自定义层的梯度，这样才能求出对输入的梯度。

另外，假设定义的层计算出的是y，调用的就是y.backward(grad_output)，这个里面的参数的维度必须和y是相同的。这也就是为什么前面提到对于输出是多维的，会有个“系数”的原因，这个系数就是后向传播时，该层之前的梯度的累积，这样与本层再累积，才实现了完整的链式法则，最终求出out对input的梯度。

另外，自定义实现forward和backward时，两函数的输入输出是有要求的，即forward的输入必须和~的return相对应，如forward的input有个w参数，那么backward的return就必须在对应的位置返回grad_w，因为只有这样，才能够对相应的输入参数梯度下降。

【pytorch】pytorch-backward()的理解的更多相关文章

ARTS-S pytorch中backward函数的gradient参数作用
导数偏导数的数学定义参考资料1和2中对导数偏导数的定义都非常明确.导数和偏导数都是函数对自变量而言.从数学定义上讲,求导或者求偏导只有函数对自变量,其余任何情况都是错的.但是很多机器学习的资料和开源 ...
Pytorch autograd,backward详解
平常都是无脑使用backward,每次看到别人的代码里使用诸如autograd.grad这种方法的时候就有点抵触,今天花了点时间了解了一下原理,写下笔记以供以后参考.以下笔记基于Pytorch1.0 ...
Pytorch 之 backward
首先看这个自动求导的参数: grad_variables:形状与variable一致,对于y.backward(),grad_variables相当于链式法则dz/dx=dz/dy × dy/dx 中 ...
[pytorch] Pytorch入门
Pytorch入门简单容易上手,感觉比keras好理解多了,和mxnet很像(似乎mxnet有点借鉴pytorch),记一记. 直接从例子开始学,基础知识咱已经看了很多论文了... import t ...
pytorch lstm crf 代码理解重点
好久没有写博客了,这一次就将最近看的pytorch 教程中的lstm+crf的一些心得与困惑记录下来. 原文 PyTorch Tutorials 参考了很多其他大神的博客,https://blog.c ...
pytorch lstm crf 代码理解
好久没有写博客了,这一次就将最近看的pytorch 教程中的lstm+crf的一些心得与困惑记录下来. 原文 PyTorch Tutorials 参考了很多其他大神的博客,https://blog.c ...
Pytorch的LSTM的理解
class torch.nn.LSTM(*args, **kwargs) 参数列表 input_size:x的特征维度 hidden_size:隐藏层的特征维度 num_layers:lstm隐层的层 ...
pytorch autograd backward函数中 retain_graph参数的作用，简单例子分析，以及create_graph参数的作用
retain_graph参数的作用官方定义: retain_graph (bool, optional) – If False, the graph used to compute the grad ...
pytorch的backward
在学习的过程中遇见了一个问题,就是当使用backward()反向传播时传入参数的问题: net.zero_grad() #所有参数的梯度清零 output.backward(Variable(t.on ...

随机推荐

Java基础之反射是什么？
什么是反射,反射能干嘛? 反射是:指程序可以访问.检测和修改它本身状态或行为的一种能力反射是一种能力,所以给的定义就是说明了它能干嘛. 我们平时用反射主要做: 获取类型的相关信息动态调用方法动态 ...
🕵️ 如何绕过 BKY 对 script 的屏蔽
Conmajia January 20, 2019 警告这是试验,警告个屁,请不要多多尝试用它做多余的事. 果不其然,这篇文章立刻被移出主页了,我就说嘛,BKY 哪儿会那么包容和坦然呢? 原文 do ...
docker run 之后执行多条命令
执行 ls docker run microsoft/dotnet ls && cd /root 执行多条使用sh -c命令在run后面加了一个sh -c命令,后面直接加多条语句即 ...
nginx系列10：通过upstream模块选择上游服务器和负载均衡策略round-robin
upstream模块的使用方法 1,使用upstream和server指令来选择上游服务器这两个指令的语法如下图: 示例: 2,对上游服务使用keepalive长连接负载均衡策略round-rob ...
jsp内置对象-page对象
page对象代表jsp本身,只有在jsp页面才有效.page对象本质上是被转换后的Servlet,因此它可以调用任何被Servlet类所定义的方法. 项目ch05案例:创建HttpJSPPage类的对 ...
Web前端-CSS必备知识点
Web前端-CSS必备知识点 css基本内容,类选择符,id选择符,伪类,伪元素,结构,继承,特殊性,层叠,元素分类,颜色,长度,url,文本,字体,边框,块级元素,浮动元素,内联元素,定位. 链接: ...
asp.net mvc 5发布部署遇到403.14
asp.net mvc 5发布部署遇到403.14? HTTP错误 403.14 服务器配置为不列出此目录内容除了设置.net运行的权限 isap和cgi启动状态外.可能是因为你手贱. 将这个钩去掉 ...
.Net Core 学习笔记1——包、元包、框架
.Net Core 是由NuGet包(package)组成的平台. 一起使用的多个包的集合:元包(Metapackage) package 包 (对应以前的程序集概念) Framework 框架 as ...
Storm入门-Storm与Spark对比
作为一名程序员通病就是不安分,对业界的技术总要折腾一番,哪怕在最终实际工作中应用到的就那么一点.最近自己准备入门Storm学习,关于流式大数据框架目前比较流行的有Spark和Storm等,在入门之前, ...
DVWA-命令执行学习笔记
DVWA-命令执行原理: web服务器没有对用户提交的数据进行严格的过滤,造成调用操作系统的命令或者在操作系统恶意拼接拼接命令,以达到攻击者的目的. 1.将DVWA的级别设置为low 1.2查看源代 ...

【pytorch】pytorch-backward()的理解

pytorch-backword函数的理解

【pytorch】pytorch-backward()的理解的更多相关文章

随机推荐

热门专题