pytorch固定BN层参数

背景：基于PyTorch的模型，想固定主分支参数，只训练子分支，结果发现在不同epoch相同的测试数据经过主分支输出的结果不同。

原因：未固定主分支BN层中的running_mean和running_var。

解决方法：将需要固定的BN层状态设置为eval。

问题示例：

环境：torch：1.7.0

# -*- coding:utf-8 -*-

import torch

import torch.nn as nn

import torch.nn.functional as F

class Net(nn.Module):

    def __init__(self):

        super(Net, self).__init__()

        self.conv1 = nn.Conv2d(1, 6, 3)

        self.bn1 = nn.BatchNorm2d(6)

        self.conv2 = nn.Conv2d(6, 16, 3)

        self.bn2 = nn.BatchNorm2d(16)

        # an affine operation: y = Wx + b

        self.fc1 = nn.Linear(16 * 6 * 6, 120)  # 6*6 from image dimension

        self.fc2 = nn.Linear(120, 84)

        self.fc3 = nn.Linear(84, 5)

    def forward(self, x):

        # Max pooling over a (2, 2) window

        x = F.max_pool2d(F.relu(self.bn1(self.conv1(x))), (2, 2))

        # If the size is a square you can only specify a single number

        x = F.max_pool2d(F.relu(self.bn2(self.conv2(x))), 2)

        x = x.view(-1, self.num_flat_features(x))

        x = F.relu(self.fc1(x))

        x = F.relu(self.fc2(x))

        x = self.fc3(x)

        return x

    def num_flat_features(self, x):

        size = x.size()[1:]  # all dimensions except the batch dimension

        num_features = 1

        for s in size:

            num_features *= s

        return num_features

def print_parameter_grad_info(net):

    print('-------parameters requires grad info--------')

    for name, p in net.named_parameters():

        print(f'{name}:\t{p.requires_grad}')

def print_net_state_dict(net):

    for key, v in net.state_dict().items():

        print(f'{key}')

if __name__ == "__main__":

    net = Net()

    print_parameter_grad_info(net)

    net.requires_grad_(False)

    print_parameter_grad_info(net)

    torch.random.manual_seed(5)

    test_data = torch.rand(1, 1, 32, 32)

    train_data = torch.rand(5, 1, 32, 32)

    # print(test_data)

    # print(train_data[0, ...])

    for epoch in range(2):

        # training phase, 假设每个epoch只迭代一次

        net.train()

        pre = net(train_data)

        # 计算损失和参数更新等

        # ....

        # test phase

        net.eval()

        x = net(test_data)

        print(f'epoch:{epoch}', x)

运行结果：

-------parameters requires grad info--------

conv1.weight:   True

conv1.bias:     True

bn1.weight:     True

bn1.bias:       True

conv2.weight:   True

conv2.bias:     True

bn2.weight:     True

bn2.bias:       True

fc1.weight:     True

fc1.bias:       True

fc2.weight:     True

fc2.bias:       True

fc3.weight:     True

fc3.bias:       True

-------parameters requires grad info--------

conv1.weight:   False

conv1.bias:     False

bn1.weight:     False

bn1.bias:       False

conv2.weight:   False

conv2.bias:     False

bn2.weight:     False

bn2.bias:       False

fc1.weight:     False

fc1.bias:       False

fc2.weight:     False

fc2.bias:       False

fc3.weight:     False

fc3.bias:       False

epoch:0 tensor([[-0.0755,  0.1138,  0.0966,  0.0564, -0.0224]])

epoch:1 tensor([[-0.0763,  0.1113,  0.0970,  0.0574, -0.0235]])

可以看到：

net.requires_grad_(False)已经将网络中的各参数设置成了不需要梯度更新的状态，但是同样的测试数据test_data在不同epoch中前向之后出现了不同的结果。

调用print_net_state_dict可以看到BN层中的参数running_mean和running_var并没在可优化参数net.parameters中

bn1.weight

bn1.bias

bn1.running_mean

bn1.running_var

bn1.num_batches_tracked

但在training pahse的前向过程中，这两个参数被更新了。导致整个网络在freeze的情况下，同样的测试数据出现了不同的结果

Also by default, during training this layer keeps running estimates of its computed mean and variance, which are then used for normalization during evaluation. The running estimates are kept with a defaultmomentumof 0.1. source

因此在training phase时对BN层显式设置eval状态：

if __name__ == "__main__":

    net = Net()

    net.requires_grad_(False)

    torch.random.manual_seed(5)

    test_data = torch.rand(1, 1, 32, 32)

    train_data = torch.rand(5, 1, 32, 32)

    # print(test_data)

    # print(train_data[0, ...])

    for epoch in range(2):

        # training phase, 假设每个epoch只迭代一次

        net.train()

        net.bn1.eval()

        net.bn2.eval()

        pre = net(train_data)

        # 计算损失和参数更新等

        # ....

        # test phase

        net.eval()

        x = net(test_data)

        print(f'epoch:{epoch}', x)

可以看到结果正常了：

epoch:0 tensor([[ 0.0944, -0.0372,  0.0059, -0.0625, -0.0048]])

epoch:1 tensor([[ 0.0944, -0.0372,  0.0059, -0.0625, -0.0048]])

交流基地：630390733

pytorch固定BN层参数的更多相关文章

【转载】【caffe转向pytorch】caffe的BN层+scale层=pytorch的BN层
原文地址: https://blog.csdn.net/u011668104/article/details/81532592 ------------------------------------ ...
【转载】 Caffe BN+Scale层和Pytorch BN层的对比
原文地址: https://blog.csdn.net/elysion122/article/details/79628587 ------------------------------------ ...
（原）torch中微调某层参数
转载请注明出处: http://www.cnblogs.com/darkknightzh/p/6221664.html 参考网址: https://github.com/torch/nn/issues ...
Tensorflow训练和预测中的BN层的坑
以前使用Caffe的时候没注意这个,现在使用预训练模型来动手做时遇到了.在slim中的自带模型中inception, resnet, mobilenet等都自带BN层,这个坑在<实战Google ...
【转载】 Pytorch(1) pytorch中的BN层的注意事项
原文地址: https://blog.csdn.net/weixin_40100431/article/details/84349470 ------------------------------- ...
Batch Normalization的算法本质是在网络每一层的输入前增加一层BN层（也即归一化层），对数据进行归一化处理，然后再进入网络下一层，但是BN并不是简单的对数据进行求归一化，而是引入了两个参数λ和β去进行数据重构
Batch Normalization Batch Normalization是深度学习领域在2015年非常热门的一个算法,许多网络应用该方法进行训练,并且取得了非常好的效果. 众所周知,深度学习是应 ...
PyTorch模型读写、参数初始化、Finetune
使用了一段时间PyTorch,感觉爱不释手(0-0),听说现在已经有C++接口.在应用过程中不可避免需要使用Finetune/参数初始化/模型加载等. 模型保存/加载 1.所有模型参数训练过程中,有 ...
BN层
论文名字:Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift 论 ...
【卷积神经网络】对BN层的解释
前言 Batch Normalization是由google提出的一种训练优化方法.参考论文:Batch Normalization Accelerating Deep Network Trainin ...

随机推荐

到底为什么不要用SELECT *
SELECT * 无论工作还是面试,说到sql优化,比说的一个问题就是,代码中sql不要出现 SELECT *,之前一直也没有深入去研究研究,为什么,只是记住了,代码中注意了,但是就在今天逛某某论坛时 ...
keras中seq2seq实现
这里只是简单的一个例子输入序列目标序列 [13, 28, 18, 7, 9, 5] [18, 28, 13] [29, 44, 38, 15, 26, 22] [38, 44, 29] [27, ...
python的pip安装超时问题解决
使用pip install 安装python第三方库时出现了如下错误:pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionP ...
一周一个中间件-hbase
前言 hbase是大数据的生态的一部分,是高可靠性.高性能.列存储.可伸缩.实时读写的数据库系统.介于nosql和RDBMS之间.主要存储非结构化和半结构化的松散数据. 海量数据存储快速随机访问大 ...
D. Numbers on Tree（构造）【CF 1287】
传送门思路: 我们需要抓住唯一的重要信息点"ci",我的做法也是在猜想和尝试中得出的,之后再验证算法的正确性. 我们在构造中发现,如果树上出现了相同的数字,则会让树的构造变得不清 ...
SQL优化之SELECT COUNT(*)
前言 SQL优化之SQL 进阶技巧(上) SQL优化之SQL 进阶技巧(下)中提到使用以下 sql 会导致慢查询 SELECT COUNT(*) FROM SomeTable SELECT COUNT ...
什么是SSL双向认证，与单向认证证书有什么区别？
SSL/TLS证书是用于用户浏览器和网站服务器之间的数据传输加密,实现互联网传输安全保护,大多数情况下指的是服务器证书.服务器证书是用于向浏览器客户端验证服务器,这种是属于单向认证的SSL证书.但是, ...
JVM(五)-垃圾收集器入门
概述: 大家都知道java相较于c.c++而言最大的优点就是JVM会帮助程序员去回收垃圾,实现对内存的自动化管理.那为什么程序员还需要去了解垃圾回收和内存分配?答案很简单,当需要排查各种内存溢内存泄漏 ...
第6.5节 exec函数：一个自说自话的强大Python动态编译器
在Python动态执行的函数中,exec是用于执行一个字符串内包含的Python源码或其编译后对应的字节码. 一. 语法 1. exec(Code, globals=None, local ...
什么是Python迭代器？
迭代器(Iterator):迭代器可以看作是一个特殊的对象,每次调用该对象时会返回自身的下一个元素,从实现上来看,一个迭代器对象必须是定义了__iter__()方法和next()方法的对象. Pyth ...

pytorch固定BN层参数

pytorch固定BN层参数的更多相关文章

随机推荐

热门专题