自动差分引擎¶

torch.autograd是 PyTorch 的自动差分引擎，可为神经网络训练提供支持。

1. 背景¶

神经网络（NN）是在某些输入数据上执行的嵌套函数的集合。这些函数由参数（由权重和偏差组成）定义，这些参数在 PyTorch 中存储在张量中。

训练 NN 分为两个步骤：

正向传播：在正向传播中，NN 对正确的输出进行最佳猜测。它通过其每个函数运行输入数据以进行猜测。

反向传播：在反向传播中，NN 根据其猜测中的误差调整其参数。它通过从输出向后遍历，收集有关函数参数（梯度）的误差导数并使用梯度下降来优化参数来实现。

2. 在PyTorch中的用法¶

从torchvision加载了经过预训练的 resnet18 模型。我们创建一个随机数据张量来表示具有 3 个通道的单个图像，高度&宽度为 64，其对应的label初始化为一些随机值。

In [1]:

import torch, torchvision

model = torchvision.models.resnet18(pretrained=True)

data = torch.rand(1, 3, 64, 64)

labels = torch.rand(1, 1000)

In [2]:

data

Out[2]:

tensor([[[[0.0421, 0.5498, 0.7633,  ..., 0.2027, 0.8481, 0.4255],

          [0.0836, 0.1886, 0.6250,  ..., 0.7480, 0.9735, 0.9916],

          [0.5927, 0.5473, 0.0020,  ..., 0.0484, 0.4672, 0.3397],

          ...,

          [0.0417, 0.1756, 0.4057,  ..., 0.6818, 0.5592, 0.0416],

          [0.5929, 0.5567, 0.4616,  ..., 0.7430, 0.3945, 0.5043],

          [0.0605, 0.1436, 0.4877,  ..., 0.3241, 0.3844, 0.1287]],

         [[0.8837, 0.8610, 0.0051,  ..., 0.5536, 0.8028, 0.9089],

          [0.2953, 0.7259, 0.1958,  ..., 0.4079, 0.2951, 0.0619],

          [0.7267, 0.6365, 0.2589,  ..., 0.3394, 0.7242, 0.0889],

          ...,

          [0.8844, 0.3406, 0.3673,  ..., 0.5602, 0.8214, 0.5659],

          [0.0224, 0.1693, 0.6389,  ..., 0.7752, 0.6179, 0.7025],

          [0.0381, 0.5284, 0.7387,  ..., 0.0622, 0.8492, 0.6335]],

         [[0.1731, 0.2461, 0.3651,  ..., 0.5243, 0.4385, 0.5899],

          [0.8973, 0.8928, 0.1662,  ..., 0.8957, 0.8555, 0.4384],

          [0.7018, 0.5639, 0.9140,  ..., 0.1942, 0.8108, 0.3777],

          ...,

          [0.5671, 0.1807, 0.6835,  ..., 0.5997, 0.3520, 0.7260],

          [0.4286, 0.2101, 0.6863,  ..., 0.5068, 0.8704, 0.2469],

          [0.6926, 0.3865, 0.5115,  ..., 0.7462, 0.6604, 0.4729]]]])

接下来，我们通过模型的每一层运行输入数据以进行预测。这是正向传播。

In [3]:

prediction = model(data) # forward pass

我们使用模型的预测和相应的标签来计算误差（loss）。下一步是通过网络反向传播此误差。当我们在误差张量上调用.backward()时，开始反向传播。然后，Autograd 会为每个模型参数计算梯度并将其存储在参数的.grad属性中。

In [4]:

loss = (prediction - labels).sum()

loss.backward() # backward pass

接下来，我们加载一个优化器，在本例中为 SGD，学习率为 0.01，动量为 0.9。我们在优化器中注册模型的所有参数。

In [5]:

optim = torch.optim.SGD(model.parameters(), lr=1e-2, momentum=0.9)

最后，我们调用.step()启动梯度下降。优化器通过.grad中存储的梯度来调整每个参数。

In [6]:

optim.step() #gradient descent

In [7]:

optim

Out[7]:

SGD (

Parameter Group 0

    dampening: 0

    lr: 0.01

    momentum: 0.9

    nesterov: False

    weight_decay: 0

)

3. autograd的微分¶

我们用requires_grad=True创建两个张量a和b。这向autograd发出信号，应跟踪对它们的所有操作。

In [8]:

import torch

a = torch.tensor([2., 3.], requires_grad=True)

b = torch.tensor([6., 4.], requires_grad=True)

我们从a和b创建另一个张量Q。

In [9]:

Q = 3*a**3 - b**2

假设a和b是神经网络的参数，Q是误差。在 NN 训练中，我们想要相对于参数的误差，即

当我们在Q上调用.backward()时，Autograd 将计算这些梯度并将其存储在各个张量的.grad属性中。

我们需要在Q.backward()中显式传递gradient参数，因为它是向量。 gradient是与Q形状相同的张量，它表示Q相对于本身的梯度，即

同样，我们也可以将Q聚合为一个标量，然后隐式地向后调用，例如Q.sum().backward()。

In [10]:

external_grad = torch.tensor([1., 1.])

Q.backward(gradient=external_grad)

梯度现在沉积在a.grad和b.grad中

In [11]:

a.grad

Out[11]:

tensor([36., 81.])

In [12]:

Out[12]:

tensor([2., 3.], requires_grad=True)

In [13]:

9*a**2

Out[13]:

tensor([36., 81.], grad_fn=<MulBackward0>)

In [14]:

# check if collected gradients are correct

print(9*a**2 == a.grad)

print(-2*b == b.grad)

tensor([True, True])

tensor([True, True])

pytorch学习笔记二之自动差分引擎的更多相关文章

莫烦pytorch学习笔记(二)——variable
.简介 torch.autograd.Variable是Autograd的核心类,它封装了Tensor,并整合了反向传播的相关实现 Variable和tensor的区别和联系 Variable是篮子, ...
莫烦 - Pytorch学习笔记 [ 二 ] CNN ( 1 )
CNN原理和结构观点提出关于照片的三种观点引出了CNN的作用. 局部性:某一特征只出现在一张image的局部位置中. 相同性: 同一特征重复出现.例如鸟的羽毛. 不变性:subsampling下图 ...
InterSystems Ensemble学习笔记(二) Ensemble创建镜像, 实现自动故障转移
系列目录 InterSystems Ensemble学习笔记(一) Ensemble介绍及安装InterSystems Ensemble学习笔记(二) Ensemble创建镜像, 实现自动故障转移一 ...
[Firefly引擎][学习笔记二][已完结]卡牌游戏开发模型的设计
源地址:http://bbs.9miao.com/thread-44603-1-1.html 在此补充一下Socket的验证机制:socket登陆验证.会采用session会话超时的机制做心跳接口验证 ...
java之jvm学习笔记二(类装载器的体系结构)
java的class只在需要的时候才内转载入内存,并由java虚拟机的执行引擎来执行,而执行引擎从总的来说主要的执行方式分为四种, 第一种,一次性解释代码,也就是当字节码转载到内存后,每次需要都会重新 ...
Java IO学习笔记二
Java IO学习笔记二流的概念在程序中所有的数据都是以流的方式进行传输或保存的,程序需要数据的时候要使用输入流读取数据,而当程序需要将一些数据保存起来的时候,就要使用输出流完成. 程序中的输入输 ...
Django学习笔记二
Django学习笔记二模型类,字段,选项,查询,关联,聚合函数,管理器, 一字段属性和选项 1.1 模型类属性命名限制 1)不能是python的保留关键字. 2)不允许使用连续的下划线,这是由dj ...
ES6学习笔记<二>arrow functions 箭头函数、template string、destructuring
接着上一篇的说. arrow functions 箭头函数 => 更便捷的函数声明 document.getElementById("click_1").onclick = ...
ArcGIS案例学习笔记-CAD数据自动拓扑检查
ArcGIS案例学习笔记-CAD数据自动拓扑检查联系方式:谢老师,135-4855-4328,xiexiaokui#qq.com 功能:针对CAD数据,自动进行拓扑检查优点:类别:地理建模项目实例 ...
python3.4学习笔记(二) 类型判断，异常处理，终止程序
python3.4学习笔记(二) 类型判断,异常处理,终止程序,实例代码: #idle中按F5可以运行代码 #引入外部模块 import xxx #random模块,randint(开始数,结束数) ...

随机推荐

Oracle查询，将某列查询结果用逗号隔开，拼接成一行（listagg函数）
需求:Oracle数据库,通过查询,将查询字段的该列结果用逗号拼接成一行. 1. 查询语法 select listagg('字段',',') within group (order by '字段') ...
SQL语句查询关键字多表查询
目录 SQL语句查询关键字 select from 编写顺序和查询数据前期数据准备编写SQL语句的小技巧查询关键字之筛选 where 逻辑运算符 not and or between not b ...
搭建漏洞环境及实战——搭建XSS测试平台
XSS测试平台是测试XSS漏洞获取cookie并接收Web页面的平台,XSS可以做成JS能做的所有事,包括但不限于窃取cookie.后台增删文章.钓鱼.利用CSS漏洞进行传播.修改网页代码.网站重定向 ...
TypeError: __str__ returned non-string (type WebStepInfo)
错误代码: class CaseStep(models.Model): id = models.AutoField(primary_key=True) casetep = models.Foreign ...
DevSecOps 需要知道的十大 K8s 安全风险及建议
Kubernetes (K8s)是现代云原生世界中的容器管理平台.它实现了灵活.可扩展地开发.部署和管理微服务.K8s 能够与各种云提供商.容器运行时接口.身份验证提供商和可扩展集成点一起工作.然而 ...
真正“搞”懂HTTP协议07之body的玩法（实践篇）
我真没想到这篇文章竟然写了将近一个月,一方面我在写这篇文章的时候阳了,所以将近有两周没干活,另外一方面,我发现在写基于Node的HTTP的demo的时候,我不会Node,所以我又要一边学学Node,一 ...
mysql游标最后一行重复问题
今天用调用存储过程时发现数据有点问题,和预期不一致经排查,发现是游标在遍历过程中重复遍历了,或者说是对游标下标的判断有Bug 调试后发现是游标使用方式不正确应该在循环外先对游标进行一次取值操作,在 ...
ArcGIS Python判断数据是否存在
判断是程序编写的一个基本的操作,也是增强程序稳定性的重要方式.在ArcPy处理数据时,要保证数据存在才能做后续的操作,为源GIS提示使用arcpy自带的Exists函数可判断要素类.表.数据集.sha ...
数论专项复习（一）扩展欧几里得算法(exgcd)
简介扩展欧几里得算法(简称扩欧,exgcd),用来求下列方程的一组解: \[ax+by=(a,b) \] 算法介绍 1. 裴蜀定理裴蜀定理(Bézout's lemma):若 \(a\in \ma ...
【转】C#接口知识
参考:日常收集 C# 接口知识 (知识全面) 目录第一节接口慨述第二节定义接口第三节定义接口成员第四节.访问接口第五节.实现接口第六节.接口转换第七节.覆盖虚接口第一节接口慨述 ...