PyTorch 中 weight decay 的设置

先介绍一下 Caffe 和 TensorFlow 中 weight decay 的设置:

在 Caffe 中, SolverParameter.weight_decay 可以作用于所有的可训练参数, 不妨称为 global weight decay, 另外还可以为各层中的每个可训练参数设置独立的 decay_mult, global weight decay 和当前可训练参数的 decay_mult 共同决定了当前可训练参数的 weight decay.
在 TensorFlow 中, 某些接口可以为其下创建的可训练参数设置独立的 weight decay (如 slim.conv2d 可通过 weights_regularizer, bias_regularizer 分别为其下定义的 weight 和 bias 设置不同的 regularizer).

在 PyTorch 中, 模块 (nn.Module) 和参数 (nn.Parameter) 的定义没有暴露与 weight decay 设置相关的 argument, 它把 weight decay 的设置放到了 torch.optim.Optimizer (严格地说, 是 torch.optim.Optimizer 的子类, 下同) 中.

在 torch.optim.Optimizer 中直接设置 weight_decay, 其将作用于该 optimizer 负责优化的所有可训练参数 (和 Caffe 中 SolverParameter.weight_decay 的作用类似), 这往往不是所期望的: BatchNorm 层的 \(\gamma\) 和 \(\beta\) 就不应该添加正则化项, 卷积层和全连接层的 bias 也往往不用加正则化项. 幸运地是, torch.optim.Optimizer 支持为不同的可训练参数设置不同的 weight_decay (params 支持 dict 类型), 于是问题转化为如何将不期望添加正则化项的可训练参数 (如 BN 层的可训练参数及卷积层和全连接层的 bias) 从可训练参数列表中分离出来. 笔者借鉴网上的一些方法, 写了一个满足该功能的函数, 没有经过严格测试, 仅供参考.

"""

作者: 采石工

博客: http://www.cnblogs.com/quarryman/

发布时间: 2020年10月21日

版权声明: 自由分享, 保持署名-非商业用途-非衍生, 知识共享3.0协议.

"""

import torch

from torchvision import models

def split_parameters(module):

    params_decay = []

    params_no_decay = []

    for m in module.modules():

        if isinstance(m, torch.nn.Linear):

            params_decay.append(m.weight)

            if m.bias is not None:

                params_no_decay.append(m.bias)

        elif isinstance(m, torch.nn.modules.conv._ConvNd):

            params_decay.append(m.weight)

            if m.bias is not None:

                params_no_decay.append(m.bias)

        elif isinstance(m, torch.nn.modules.batchnorm._BatchNorm):

            params_no_decay.extend([*m.parameters()])

        elif len(list(m.children())) == 0:

            params_decay.extend([*m.parameters()])

    assert len(list(module.parameters())) == len(params_decay) + len(params_no_decay)

    return params_decay, params_no_decay

def print_parameters_info(parameters):

    for k, param in enumerate(parameters):

        print('[{}/{}] {}'.format(k+1, len(parameters), param.shape))

if __name__ == '__main__':

    model = models.resnet18(pretrained=False)

    params_decay, params_no_decay = split_parameters(model)

    print_parameters_info(params_decay)

    print_parameters_info(params_no_decay)

参考

版权声明

版权声明：自由分享，保持署名-非商业用途-非衍生，知识共享3.0协议。

如果你对本文有疑问或建议，欢迎留言！转载请保留版权声明！

如果你觉得本文不错, 也可以用微信赞赏一下哈.

PyTorch 中 weight decay 的设置的更多相关文章

在神经网络中weight decay
weight decay(权值衰减)的最终目的是防止过拟合.在损失函数中,weight decay是放在正则项(regularization)前面的一个系数,正则项一般指示模型的复杂度,所以weigh ...
pytorch中tensorboardX的用法
在代码中改好存储Log的路径命令行中输入 tensorboard --logdir /home/huihua/NewDisk1/PycharmProjects/pytorch-deeplab-xce ...
转pytorch中训练深度神经网络模型的关键知识点
版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/weixin_42279044/articl ...
详解Pytorch中的网络构造，模型save和load，.pth权重文件解析
转载:https://zhuanlan.zhihu.com/p/53927068 https://blog.csdn.net/wangdongwei0/article/details/88956527 ...
PyTorch中使用深度学习（CNN和LSTM）的自动图像标题
介绍深度学习现在是一个非常猖獗的领域 - 有如此多的应用程序日复一日地出现.深入了解深度学习的最佳方法是亲自动手.尽可能多地参与项目,并尝试自己完成.这将帮助您更深入地掌握主题,并帮助您成为更好的深 ...
第五章——Pytorch中常用的工具
2018年07月07日 17:30:40 __矮油不错哟阅读数:221 1. 数据处理数据加载 ImageFolder DataLoader加载数据 sampler:采样模块 1. 数据处理 ...
Pytorch中RoI pooling layer的几种实现
Faster-RCNN论文中在RoI-Head网络中,将128个RoI区域对应的feature map进行截取,而后利用RoI pooling层输出7*7大小的feature map.在pytorch ...
pytorch中如何使用DataLoader对数据集进行批处理
最近搞了搞minist手写数据集的神经网络搭建,一个数据集里面很多个数据,不能一次喂入,所以需要分成一小块一小块喂入搭建好的网络. pytorch中有很方便的dataloader函数来方便我们进行批处 ...
（原）CNN中的卷积、1x1卷积及在pytorch中的验证
转载请注明处处: http://www.cnblogs.com/darkknightzh/p/9017854.html 参考网址: https://pytorch.org/docs/stable/nn ...

随机推荐

ES6重度学习 demo实例
let 与 const // 并非真正的常量 // const 的本质: const 定义的变量并非常量,并非不可变, // 它定义了一个常量引用一个值.使用 const 定义的对象或者数组,其实是可 ...
Windows Server系统部署MySQL数据库
由于工作需要在阿里云服务器中使用MySQL,所以安装一下MySQL数据库,中间也踩了一些坑,现在将整个过程给大家记录下来,便于后续查找. 阿里云服务器是WinServer2012系统,之前在Windo ...
MVC设计模式-笔记1
MVC不仅仅是一个设计模式,它应该说是一种软件开发架构模式,它包含了很多的设计模式,最为密切是以下三种模式: 1.Observer观察者模式 2.Composite组合模式 3.Strategy策略模 ...
【读书】Into The Air：进入空气稀薄地带
珠穆朗玛峰,世界第一高峰,北部在中国境内,南部在尼泊尔境内.喜欢户外运动的人,曾经在20多岁的时候曾经"大言不惭"说这一辈子一定要去一次珠峰.<Into the Air> ...
深入解析Vue里函数的调用顺序介绍
今天为大家分享一篇对vue里函数的调用顺序介绍,写的十分的全面细致,具有一定的参考价值,对此有需要的朋友可以参考学习下.如有不足之处,欢迎批评指正. method用来定义方法的,比如你@click=& ...
Centos-操作系统相关信息-uname
uname 获取系统相关信息相关选项 -a 显示全部信息 -m 显示系统CPU架构 x86_64 -n 显示主机名, 和 hostname 一样 -s 获取系统类型 -r 内核信息
2020.09.05【NOIP提高组&普及组】模拟赛C组1总结
T1:机器翻译这一道题是一个很简单的队列题目,我们只要每次维护队列元素数量保持在m以内即可 T2:乌龟棋这一道题我一开始比赛是暴力枚举(万事先暴力),很明显这个肯定会超时(30分)那么考虑动态规划 ...
50个你必须了解的Kubernetes面试问题
Kubernetes一直是当今业界的流行语,也是最好的编排工具.它吸引了许多想要提升自己职业生涯的经验丰富的专业人士.HuaWei,Pokemon,Box,eBay,Ing,Yahoo Japan,S ...
Python 3.9 新特性速览
国庆假期,Python 社区发布了 3.9 版本的第一个 stable release. 相比于 3.8,Python 3.9 新特性众多,但不少特性与大多数 Python"使用者" ...
JVM性能调优（3） —— 内存分配和垃圾回收调优
前序文章: JVM性能调优(1) -- JVM内存模型和类加载运行机制 JVM性能调优(2) -- 垃圾回收器和回收策略一.内存调优的目标新生代的垃圾回收是比较简单的,Eden区满了无法分配新对象 ...

PyTorch 中 weight decay 的设置

参考

版权声明

PyTorch 中 weight decay 的设置的更多相关文章

随机推荐

热门专题