从头学pytorch(二) 自动求梯度

PyTorch提供的autograd包能够根据输⼊和前向传播过程⾃动构建计算图，并执⾏反向传播。

Tensor

Tensor的几个重要属性或方法

.requires_grad 设为true的话,tensor将开始追踪在其上的所有操作
.backward()完成梯度计算
.grad属性计算的梯度累积到.grad属性
.detach()解除对一个tensor上操作的追踪,或者用with torch.no_grad()将不想被追踪的操作代码块包裹起来.
.grad_fn属性该属性即创建Tensor的Function类的类型,即该Tensor是由什么运算得来的

几个例子具体地解释一下:

import torch

x = torch.ones(2, 2, requires_grad=True)

print(x)

print(x.grad_fn)

y = x+2

print(y)

print(y.grad_fn)

z = y*y*3

out=z.mean()

print(z,out)

输出

tensor([[1., 1.],

        [1., 1.]], requires_grad=True)

None

tensor([[3., 3.],

        [3., 3.]], grad_fn=<AddBackward>)

<AddBackward object at 0x0000018752434B70>

tensor([[27., 27.],

        [27., 27.]], grad_fn=<MulBackward>) tensor(27., grad_fn=<MeanBackward1>)

y由加法得到,所以y.grad_fn=,x直接创建,其x.grad_fn=None. x这种直接创建的又称为叶子节点.

print(x.is_leaf, y.is_leaf) # True False

可以用.requires_grad_()来用in-place的方式改变requires_grad属性.

a = torch.randn(2, 2) # 缺失情况下默认 requires_grad = False

a = ((a * 3) / (a - 1))

print(a.requires_grad) # False

a.requires_grad_(True)

print(a.requires_grad) # True

b = (a * a).sum()

print(b.grad_fn)

输出

False

True

<SumBackward0 object at 0x0000018752434D30>

梯度

所计算的梯度都是结果变量关于创建变量的梯度。

比如对:

x = torch.ones(2, 2, requires_grad=True)

print(x)

print(x.grad_fn)

y = x+2

print(y)

print(y.grad_fn)

z = y*3

z.backward(torch.ones_like(z))

print(y.grad) #None

print(x.grad)

输出

None

tensor([[3., 3.],

        [3., 3.]])

上述代码相当于创建了一个动态图,其中x是我们创建的变量,y和z都是因为x的改变会改变的结果变量. 所以在这个动态图里能够求的梯度只有$\frac{\partial{z}}{\partial{x}}$,$\frac{\partial{y}}{\partial{x}}$

为什么l.backward(gradient)需要传入一个和l同样形状的gradient?

对于l.backward()而言,当l是标量时,可以不传参,相当于l.backward(torch.tensor(1.))

当l不是标量时,需要传入一个和l同shape的gradient。

假设 x 经过一番计算得到 y，那么 y.backward(w) 求的不是 y 对 x 的导数，而是 l = torch.sum(y*w) 对 x 的导数。w 可以视为 y 的各分量的权重，也可以视为遥远的损失函数 l 对 y 的偏导数（这正是函数说明文档的含义）。特别地，若 y 为标量，w 取默认值 1.0，才是按照我们通常理解的那样，求 y 对 x 的导数

简单地说就是,张量对张量没法求导,所以我们需要人为地定义一个w,把一个非标量的Tensor通过torch.sum(y*w)的形式转换成标量。我们自己定义的这个w的不同,当然最后得到的梯度就不同.通常定义为全1.也就是认为Tensor y中的每一个变量的重要性是等同的.

另一个角度的理解就是,y是一个tensor,是一个向量,有N个标量,这每一个标量都与x有关。对这N个标量我们需要赋以不同的权重,以显示y中每一个标量受到x影响的程度.

比如对

import torch

x = torch.ones(2, 2, requires_grad=True)

print(x)

print(x.grad_fn)

y = x+2

print(y)

print(y.grad_fn)

z = y*3

print(z.shape)

w1=torch.Tensor([[1,2],[1,2]])

z.backward([w1])

print(x.grad)

x.grad.data.zero_()

w2=torch.Tensor([[1,1],[1,1]])

z.backward([w2])

print(x.grad)

输出

tensor([[1., 1.],

        [1., 1.]], requires_grad=True)

None

tensor([[3., 3.],

        [3., 3.]], grad_fn=<AddBackward>)

<AddBackward object at 0x00000187524A6828>

torch.Size([2, 2])

tensor([[3., 6.],

        [3., 6.]])

tensor([[3., 3.],

        [3., 3.]])

对w1和w2而言,z.backward()以后x.grad是不同的。

注意:梯度是累加的,所以第二次计算之前我们做了清零的操作:x.grad.data.zero_()

可以参考:

https://zhuanlan.zhihu.com/p/29923090

https://www.cnblogs.com/zhouyang209117/p/11023160.html

再来看看中断梯度追踪的例子：

x = torch.tensor(1.0, requires_grad=True)

y1 = x ** 2

with torch.no_grad():

    y2 = x ** 3

y3 = y1 + y2

print(x.requires_grad)

print(y1, y1.requires_grad) # True

print(y2, y2.requires_grad) # False

print(y3, y3.requires_grad) # True

输出：

True

tensor(1., grad_fn=<PowBackward0>) True

tensor(1.) False

tensor(2., grad_fn=<ThAddBackward>) True

反向传播,求梯度

y3.backward()

print(x.grad)

输出：

tensor(2.)

为什么是2呢？$ y_3 = y_1 + y_2 = x^2 + x^3$，当 $x=1$ 时 $\frac {dy_3} {dx}$ 不应该是5吗？事实上，由于 $y_2$ 的定义是被torch.no_grad():包裹的，所以与 $y_2$ 有关的梯度是不会回传的，只有与 $y_1$ 有关的梯度才会回传，即 $x^2$ 对 $x$ 的梯度。

上面提到，y2.requires_grad=False，所以不能调用 y2.backward()，会报错：

RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn

此外，如果我们想要修改tensor的数值，但是又不希望被autograd记录（即不会影响反向传播），那么我么可以对tensor.data进行操作。

x = torch.ones(1,requires_grad=True)

print(x.data) # 还是一个tensor

print(x.data.requires_grad) # 但是已经是独立于计算图之外

y = 2 * x

x.data *= 100 # 只改变了值，不会记录在计算图，所以不会影响梯度传播

y.backward()

print(x) # 更改data的值也会影响tensor的值

print(x.grad)

输出：

tensor([1.])

False

tensor([100.], requires_grad=True)

tensor([2.])

从头学pytorch(二) 自动求梯度的更多相关文章

从头学pytorch(二十):残差网络resnet
残差网络ResNet resnet是何凯明大神在2015年提出的.并且获得了当年的ImageNet比赛的冠军. 残差网络具有里程碑的意义,为以后的网络设计提出了一个新的思路. googlenet的思路 ...
从头学pytorch(二十二):全连接网络dense net
DenseNet 论文传送门,这篇论文是CVPR 2017的最佳论文. resnet一文里说了,resnet是具有里程碑意义的.densenet就是受resnet的启发提出的模型. resnet中是把 ...
PyTorch入门学习（二）：Autogard之自动求梯度
autograd包是PyTorch中神经网络的核心部分,简单学习一下. autograd提供了所有张量操作的自动求微分功能. 它的灵活性体现在可以通过代码的运行来决定反向传播的过程, 这样就使得每一次 ...
pytorch 自动求梯度
自动求梯度在深度学习中,我们经常需要对函数求梯度(gradient).PyTorch提供的autograd包能够根据输入和前向传播过程自动构建计算图,并执行反向传播.本节将介绍如何使用autogra ...
Pytorch中的自动求梯度机制和Variable类
自动求导机制是每一个深度学习框架中重要的性质,免去了手动计算导数,下面用代码介绍并举例说明Pytorch的自动求导机制. 首先介绍Variable,Variable是对Tensor的一个封装,操作和T ...
从头学pytorch(三) 线性回归
关于什么是线性回归,不多做介绍了.可以参考我以前的博客https://www.cnblogs.com/sdu20112013/p/10186516.html 实现线性回归分为以下几个部分: 生成数据 ...
Pytorch Autograd (自动求导机制)
Pytorch Autograd (自动求导机制) Introduce Pytorch Autograd库 (自动求导机制) 是训练神经网络时,反向误差传播(BP)算法的核心. 本文通过logisti ...
从头学pytorch(一):数据操作
跟着Dive-into-DL-PyTorch.pdf从头开始学pytorch,夯实基础． Tensor创建创建未初始化的tensor import torch x = torch.empty(5,3 ...
pytorch的自动求导机制 - 计算图的建立
一.计算图简介在pytorch的官网上,可以看到一个简单的计算图示意图, 如下. import torchfrom torch.autograd import Variable x = Variab ...

随机推荐

什么情况用ArrayList or LinkedList呢?
ArrayList 和 LinkedList 是 Java 集合框架中用来存储对象引用列表的两个类.ArrayList 和 LinkedList 都实现 List 接口.先对List做一个简单的了解: ...
Ocelot学习笔记
最近因工作需要,开始学习Ocelot.首先简单介绍一下,Ocelot是一个基于.net core的开源webapi 服务网关项目,目前已经支持了IdentityServer认证.根据作者介绍,Oce ...
.net画二叉树
代码下载地址: 链接: https://pan.baidu.com/s/1bpHayoJ 密码: k6su 接下来看主要代码 1.先构建二叉树的类 public class Node { public ...
three.js使用gpu选取物体并计算交点位置
光线投射法使用three.js自带的光线投射器(Raycaster)选取物体非常简单,代码如下所示: var raycaster = new THREE.Raycaster(); var mouse ...
python3 之字符串编码小结（Unicode、utf-8、gbk、gb2312等）
python3 解释器默认编码为Unicode,由str类型进行表示.二进制数据使用byte类型表示. 字符串通过编码转换成字节串,字节码通过解码成为字符串. encode:str-->byte ...
新闻实时分析系统 Spark Streaming实时数据分析
1.Spark Streaming功能介绍1)定义Spark Streaming is an extension of the core Spark API that enables scalable ...
python3快速入门教程错误和异常
Python 中(至少)有两种错误:语法错误(syntax errors)和异常(exceptions). 语法错误语法错误又称作解析错误: >>> while True prin ...
防范XSS攻击
原文链接:http://www.cnblogs.com/chenty/p/5136834.html 最近,有个项目突然接到总部的安全漏洞报告,查看后知道是XSS攻击. 问题描述: 在页面上有个隐藏域: ...
五分钟了解物联网SIM卡 | 我的物联网成长记10
[摘要] SIM卡是移动通信中不可或缺的组成部分,在物联网解决方案中,设备移动上网也需要使用SIM卡.那么,SIM卡是什么?SIM卡有几种?各种SIM卡有什么区别?本文将为您答疑解惑. 通信进化史过 ...
python遍历所有盘符下的图片并拷贝下来
最近在学习python,闲着无聊就试着写啦这个小的脚本,虽然有很多不足,但是还是收获不少. 该脚本的功能: ①遍历本地计算机中的所有盘符,并将名称记录下来: ②循环遍历盘符下的所有图片(当然这里可以根 ...

从头学pytorch(二) 自动求梯度

Tensor

梯度

从头学pytorch(二) 自动求梯度的更多相关文章

随机推荐

热门专题