两篇论文之CNN中正交操作

Link_Z 2024-10-07 15:18:35 原文

　　CNN的权值正交性和特征正交性，在一定程度上是和特征表达的差异性存在一定联系的。

　　下面两篇论文，一篇是在训练中对权值添加正交正则提高训练稳定性，一篇是对特征添加正交性的损失抑制过拟合。

第一篇：Orthonormality Regularization

Xie D, Xiong J, Pu S. All You Need is Beyond a Good Init: Exploring Better Solution for Training Extremely Deep Convolutional Neural Networks with Orthonormality and Modulation[J]. 2017.

contributions

作者针对较深较宽网络训练困难（梯度弥散和爆炸），信号在网络传输不够稳定，提出了两点：

1.强调Conv+BN+ReLU这种module在训练中的必要性

2.提出一种权值的（Orthonormality Regularization）正交正则

另附BN层作用

BN能保证输入和输出的分布一致，从而避免出现梯度弥散和梯度爆炸的情况。

使用公式说明：

当w的N次方过小或者过大时，会出现对应的梯度弥散和梯度爆炸。
而经过BN处理后，会生成均值为0，方差为1的高斯分布（假设输入是高斯分布），从而解决了w的尺度所带来的问题。

Orthonormality Regularization

　　y = WTx，如果||y|| = ||x||，则我们称这种线性变化是保范的，等价条件是W属于正交矩阵，如下式推导：

　　即可计算出正交正则，用于替代SGD中的L2 正则：

experiments

采用44层的残差网络在CIFAR-10数据集上进行训练和测试。两组实验进行对比：
1. 正交初始化+正交正则
2. msra初始化+L2正则

权值非相关性变化过程:
计算网络中各同层卷积核之间的相似度的平均值，作为网络的权值相关系数

最终性能结果：

第二篇：DeCov Loss

Cogswell M, Ahmed F, Girshick R, et al. Reducing Overfitting in Deep Networks by Decorrelating Representations[J]. Computer Science, 2015.

a conference paper at ICLR 2016

　　　作者发现特征相关性较大时，特征差异小，模型泛化较差。而常用的增强泛化的方法是，提高样本多样性和dropout。

contributions

　　提出DeCov Loss增强特征的非相关性，提高模型泛化性能

特征相关性和泛化性能关系的讨论

　　特征相关性，使用特征的协方差矩阵C的Frobenius范数作为指标。用以下指标描述第i个和第j个激活值的相关性。值越大，相关性越大。

　　泛化性能，使用训练准确率和验证准确率的差值作为指标，差值越小说明泛化越好。

Decov Loss

矩阵的C的Frobenius范数：

协方差：

反应两组随机变量的相关性，相关系数如下，其中，等于0即为完全非相关，等于1为完全相关。

当特征完全非相关的理想情况下，协方差矩阵C是一个对角阵。便有了以下的loss：

对应的梯度计算是：

　　

experiments

使用NIN网络，DeCov作用于avg pool层，DeCov Loss和dropout搭配使用泛化性能更好

两篇论文之CNN中正交操作的更多相关文章

顶会两篇论文连发，华为云医疗AI低调中崭露头角
摘要:2020年国际医学图像计算和计算机辅助干预会议(MICCAI 2020),论文接收结果已经公布.华为云医疗AI团队和华中科技大学合作的2篇研究成果入选. 同时两篇研究成果被行业顶会收录,华为云医 ...
网易云安全两篇论文入选计算机视觉顶级会议ICCV
本文由网易云发布. 10月22日至29日,全球计算机视觉顶尖专家们共聚威尼斯,参加ICCV2017国际计算机视觉大会,就领域内最新成果展开集中研讨,大会论文集也代表了计算机视觉领域最新的发展方向和 ...
CNN中各类卷积总结：残差、shuffle、空洞卷积、变形卷积核、可分离卷积等
CNN从2012年的AlexNet发展至今,科学家们发明出各种各样的CNN模型,一个比一个深,一个比一个准确,一个比一个轻量.我下面会对近几年一些具有变革性的工作进行简单盘点,从这些充满革新性的工作中 ...
cv 论文（CNN相关）
最近发现很多以前看的论文都忘了,所以想写点东西来整理下之前的paper,paper主要是cv(computer vision)方向的. 第一篇:Gradient-based learning appl ...
自监督学习(Self-Supervised Learning)多篇论文解读（下）
自监督学习(Self-Supervised Learning)多篇论文解读(下) 之前的研究思路主要是设计各种各样的pretext任务,比如patch相对位置预测.旋转预测.灰度图片上色.视频帧排序等 ...
C#中如何操作2个list
博客搬到了fresky.github.io - Dawei XU,请各位看官挪步.最新的一篇是:C#中如何操作2个list.
《转载-两篇很好的文章整合》Android中自定义控件
两篇很好的文章,有相互借鉴的地方,整合到一起收藏分别转载自:http://blog.csdn.net/xu_fu/article/details/7829721 http://www.cnblogs ...
小白两篇博客熟练操作MySQL 之第一篇
小白两篇博客熟悉操作MySQL 之第一篇一.概述 1. 什么是数据库? 答: 储存数据的仓库, 如: 在ATM的事例中创建的一个db 目录, 称为数据库 2. 什么是Mysql, Oracl ...
小白两篇博客熟练操作MySQL 之第二篇
小白两篇博客熟练操作MySQL 之第二篇一. 视图视图是一个虚拟表,其本质是根据SQL语句获取动态的数据集,并为其命名,用户使用时只需使用名称即可获取结果集, 并可以将其当做表来使用. s ...

随机推荐

NSIS语法解析
注释.!define.变量.!include.常量 ; Script generated by the HM NIS Edit Script Wizard. ; HM NIS Edit Wizard ...
Dockerfile镜像制作时间同步
1.问题描述宿主机与容器时间相差8小时 2.原因宿主机采用了CST时区,CST应该是指(China Shanghai Time,东八区时间)容器采用了UTC时区,UTC应该是指(Coordinat ...
matlab实现一次性实现多个文件夹图片转化为.mat文件
%这里是主函数:命名为readImg.m; clc;clear; %---read_image; filepath = 'G:\人脸重建\data\src_all\';%图片路径可以根据自己需要修改; ...
WebConfig配置文件
<?xml version="1.0"?> <!--注意: 除了手动编辑此文件以外,您还可以使用 Web 管理工具来配置应用程序的设置.可以使用 Visual S ...
自定义事件javascript
自定义事件 1.event构造函数自定义事件 /* * 自定义一个名为build的事件 * bubbles :事件是否冒泡 * cancelable:是否阻止事件的默认操作 * composed:指示 ...
Hadoop 伪分布式安装配置
loj2322 「清华集训 2017」Hello world!
https://loj.ac/problem/2322 先吐槽一下,sb数据毁我青春败我前程. 首先,一个数开根开不了多少次. 当我们把它开到1的时候,我们以后就不需要开他了,我们可以利用并查集跳过他 ...
input[type=file]上传图片及转为base64码以及预览
<input type="file" id="imgurl" capture="camera" accept="image/ ...
洛谷 P1004 方格取数【多线程DP/四维DP/】
题目描述(https://www.luogu.org/problemnew/show/1004) 设有N*N的方格图(N<=9),我们将其中的某些方格中填入正整数,而其他的方格中则放人数字0. ...
idea添加jar包
之前一直使用eclipse,现在使用idea,发现两者引用外部jar的时候不太一样,分享一下. 使用eclipse引用外部jar的时候,我们可以在工程下新建一个lib包来存放,然后add to bui ...