pytorch笔记 <三>

optimizer.zero_grad()

将梯度变为0，用于每个batch最开始，因为梯度在不同batch之间不是累加的，所以必须在每个batch开始的时候初始化累计梯度，重置为0.

for epoch in range(num_epoches):# 每个epoch

    for inputs,labels in dataloader:# 每个batch

        optimizer.zero_grad()# 初始化梯度

        outputs = model(inputs)# 正向

        _,pred = torch.max(outputs,1)

        loss = criterion(inputs,pred)# 计算loss

        #...

        loss.backward() # 反向

        optimizer.step()# 更新权重

torch.max()

在某个dim上返回最大的值以及在该dim上的索引，所以是返回两个值。

max(input, dim, keepdim=False, out=None)

>>> import torch

>>> a = torch.randn(3,3)

>>> print(torch.max(a,1))

(tensor([1.0404, 1.8460, 0.5961]), tensor([2, 1, 0]))

model(x)输出的是概率，要获得类别必须通过torch.max来获得，但是我们求loss的时候还是求网络输出概率与label的loss，因为我们的label是被one-hot编码的，所以这两者的loss才是有效的，因为交叉熵衡量的是两个概率分布之间的相似度。

optimizer.step() 以及 scheduler.step()

optimizer.step()用在每个batch内，当一个batch的数据计算完之后，通过optimizer.step()函数来完成权重的更新，而scheduler.step()用在每个epoch内，当一个epoch的数据运算完之后，调用一下这个函数，以此来决策是否更新我们的learning_rate超参等。

exp_lr_scheduler = lr_scheduler.StepLR(optimizer_ft, step_size=7, gamma=0.1)

# 每隔step_size个epoch learning_rate变为原来的0.1

# 然后在一个epoch之后执行

exp_lr_scheduler.step()

[Pytorch] pytorch笔记 <三>的更多相关文章

莫烦pytorch学习笔记(二)——variable
.简介 torch.autograd.Variable是Autograd的核心类,它封装了Tensor,并整合了反向传播的相关实现 Variable和tensor的区别和联系 Variable是篮子, ...
莫烦 - Pytorch学习笔记 [ 二 ] CNN ( 1 )
CNN原理和结构观点提出关于照片的三种观点引出了CNN的作用. 局部性:某一特征只出现在一张image的局部位置中. 相同性: 同一特征重复出现.例如鸟的羽毛. 不变性:subsampling下图 ...
pytorch学习笔记（十二）：详解 Module 类
Module 是 pytorch 提供的一个基类,每次我们要搭建自己的神经网络的时候都要继承这个类,继承这个类会使得我们搭建网络的过程变得异常简单. 本文主要关注 Module 类的内部是怎么样 ...
《CMake实践》笔记二：INSTALL/CMAKE_INSTALL_PREFIX
<CMake实践>笔记一:PROJECT/MESSAGE/ADD_EXECUTABLE <CMake实践>笔记二:INSTALL/CMAKE_INSTALL_PREFIX &l ...
jQuery源码笔记(二)：定义了一些变量和函数 jQuery = function(){}
笔记(二)也分为三部分: 一. 介绍: 注释说明:v2.0.3版本.Sizzle选择器.MIT软件许可注释中的#的信息索引.查询地址(英文版)匿名函数自执行:window参数及undefined参数意 ...
Mastering Web Application Development with AngularJS 读书笔记(二)
第一章笔记 (二) 一.scopes的层级和事件系统(the eventing system) 在层级中管理的scopes可以被用做事件总线.AngularJS 允许我们去传播已经命名的事件用一种有效 ...
Python 学习笔记二
笔记二 :print 以及基本文件操作笔记一已取消置顶链接地址 http://www.cnblogs.com/dzzy/p/5140899.html 暑假只是快速过了一遍python ,现在起开始仔 ...
WPF的Binding学习笔记(二)
原文: http://www.cnblogs.com/pasoraku/archive/2012/10/25/2738428.htmlWPF的Binding学习笔记(二) 上次学了点点Binding的 ...
webpy使用笔记(二) session/sessionid的使用
webpy使用笔记(二) session的使用 webpy使用系列之session的使用,虽然工作中使用的是django,但是自己并不喜欢那种大而全的东西~什么都给你准备好了,自己好像一个机器人一样赶 ...
AJax 学习笔记二(onreadystatechange的作用)
AJax 学习笔记二(onreadystatechange的作用) 当发送一个请求后,客户端无法确定什么时候会完成这个请求,所以需要用事件机制来捕获请求的状态XMLHttpRequest对象提供了on ...

随机推荐

java TopK算法
现有一亿个数据,要求从其中找出最小的一万个数,希望所需的时间和空间最小,也就是所谓的topK问题 TopK问题就是从海量的数据中取最大(或最小的)的K个数. TopK问题其实是有线性时间复杂度的解的, ...
Smarty保留变量信息
对php里边的超级全局数组变量信息的使用例如:$_GET.$_POST.$_SESSION.$_COOKIE.$_REQUEST.$_SERVER.$_ENV.$GLOBALS.$_FILES.常量 ...
thinkPHP5.0使用form表单提交数据和删除文章，不用TP的提示页面，使用弹出提示信息
form表单提交数据和删除文章时,TP的默认信息提示页面的看起来不是很好看,想要实现弹窗提示怎么做呢? 前端:可以使用前端的一个知识--iframe,iframe元素会创建包含另外一个文档的内联框架: ...
C++常用数据结构（对照python）
python: c++17: get set extend/update find index size loop list std::vector v[0]; v.emplace_back(&quo ...
MATLAB矩阵操作和算术运算符
矩阵的表示矩阵之间用空格或者是逗号间隔矩阵可以拼接(可以用矩阵拼接) 实部矩阵和虚部矩阵构成复数矩阵,一一对应. 冒号表达式: 格式: e1:e2:e3 e1表示初始值 e2表示步长 e ...
React.js 小书 Lesson7 - 组件的 render 方法
作者:胡子大哈原文链接:http://huziketang.com/books/react/lesson7 转载请注明出处,保留原文链接和作者信息. React.js 中一切皆组件,用 React. ...
Xtrareport 多栏报表
首先看下布局designer 细节: 分组一定要用到GroupHeather 设置好有右边会出现接下来是代码部分 Form1中代码 using DevExpress.XtraReports.UI; ...
IDEA中的一些常用的设置与快捷键
idea 清屏(控制台)快捷键 eclipse清屏快捷键为鼠标右键+R 而在idea中默认并没有清屏console的快捷键所以需要我们自行设置: 1,ctrl+alt+s打开settings 2,找 ...
使用min-content实现容器宽度自适应于内部元素
前言设计师可以分为如下两类: 先做好设计,然后将内容放入静态框架中优秀的设计师充分考虑内容的各个方面及其上下文,并创建适合于内容的设计 HTML原生就是响应式的(HTML内容在视口内流式的分布). ...
input type="file"获取文件名方法
文件上传比较丑,样式调整时会有一个获取文件名,或者包含文件路径的文件名的方法 html代码 <div class="file-box"> <form id=&qu ...