CNN的权值正交性和特征正交性,在一定程度上是和特征表达的差异性存在一定联系的。

  下面两篇论文,一篇是在训练中对权值添加正交正则提高训练稳定性,一篇是对特征添加正交性的损失抑制过拟合。

第一篇:Orthonormality Regularization

Xie D, Xiong J, Pu S. All You Need is Beyond a Good Init: Exploring Better Solution for Training Extremely Deep Convolutional Neural Networks with Orthonormality and Modulation[J]. 2017.

contributions

作者针对较深较宽网络训练困难(梯度弥散和爆炸),信号在网络传输不够稳定,提出了两点:

1.强调Conv+BN+ReLU这种module在训练中的必要性

2.提出一种权值的(Orthonormality Regularization)正交正则

另附BN层作用

BN能保证输入和输出的分布一致,从而避免出现梯度弥散和梯度爆炸的情况。

使用公式说明:

当w的N次方过小或者过大时,会出现对应的梯度弥散和梯度爆炸。
而经过BN处理后,会生成均值为0,方差为1的高斯分布(假设输入是高斯分布),从而解决了w的尺度所带来的问题。

Orthonormality Regularization

  y = WTx,如果||y|| = ||x||,则我们称这种线性变化是保范的,等价条件是W属于正交矩阵,如下式推导:

  即可计算出正交正则,用于替代SGD中的L2 正则:

experiments

采用44层的残差网络在CIFAR-10数据集上进行训练和测试。两组实验进行对比:
1. 正交初始化+正交正则
2. msra初始化+L2正则

权值非相关性变化过程:
计算网络中各同层卷积核之间的相似度的平均值,作为网络的权值相关系数

最终性能结果:

第二篇:DeCov Loss

Cogswell M, Ahmed F, Girshick R, et al. Reducing Overfitting in Deep Networks by Decorrelating Representations[J]. Computer Science, 2015.

a conference paper at ICLR 2016

   作者发现特征相关性较大时,特征差异小,模型泛化较差。而常用的增强泛化的方法是,提高样本多样性和dropout。

contributions

  提出DeCov Loss增强特征的非相关性,提高模型泛化性能

特征相关性和泛化性能关系的讨论

  特征相关性,使用特征的协方差矩阵C的Frobenius范数作为指标。 用以下指标描述第i个和第j个激活值的相关性。值越大,相关性越大。

  泛化性能,使用训练准确率和验证准确率的差值作为指标,差值越小说明泛化越好。

Decov Loss

矩阵的C的Frobenius范数:

协方差:

反应两组随机变量的相关性,相关系数如下,其中 ,等于0即为完全非相关,等于1为完全相关。

当特征完全非相关的理想情况下,协方差矩阵C是一个对角阵。便有了以下的loss:

对应的梯度计算是:

  

experiments

使用NIN网络,DeCov作用于avg pool层,DeCov Loss和dropout搭配使用泛化性能更好

两篇论文之CNN中正交操作的更多相关文章

  1. 顶会两篇论文连发,华为云医疗AI低调中崭露头角

    摘要:2020年国际医学图像计算和计算机辅助干预会议(MICCAI 2020),论文接收结果已经公布.华为云医疗AI团队和华中科技大学合作的2篇研究成果入选. 同时两篇研究成果被行业顶会收录,华为云医 ...

  2. 网易云安全两篇论文入选计算机视觉顶级会议ICCV

    本文由  网易云发布. 10月22日至29日,全球计算机视觉顶尖专家们共聚威尼斯,参加ICCV2017国际计算机视觉大会,就领域内最新成果展开集中研讨,大会论文集也代表了计算机视觉领域最新的发展方向和 ...

  3. CNN中各类卷积总结:残差、shuffle、空洞卷积、变形卷积核、可分离卷积等

    CNN从2012年的AlexNet发展至今,科学家们发明出各种各样的CNN模型,一个比一个深,一个比一个准确,一个比一个轻量.我下面会对近几年一些具有变革性的工作进行简单盘点,从这些充满革新性的工作中 ...

  4. cv 论文(CNN相关)

    最近发现很多以前看的论文都忘了,所以想写点东西来整理下之前的paper,paper主要是cv(computer vision)方向的. 第一篇:Gradient-based learning appl ...

  5. 自监督学习(Self-Supervised Learning)多篇论文解读(下)

    自监督学习(Self-Supervised Learning)多篇论文解读(下) 之前的研究思路主要是设计各种各样的pretext任务,比如patch相对位置预测.旋转预测.灰度图片上色.视频帧排序等 ...

  6. C#中如何操作2个list

    博客搬到了fresky.github.io - Dawei XU,请各位看官挪步.最新的一篇是:C#中如何操作2个list.

  7. 《转载-两篇很好的文章整合》Android中自定义控件

    两篇很好的文章,有相互借鉴的地方,整合到一起收藏 分别转载自:http://blog.csdn.net/xu_fu/article/details/7829721 http://www.cnblogs ...

  8. 小白两篇博客熟练操作MySQL 之 第一篇

    小白两篇博客熟悉操作MySQL  之   第一篇 一.概述 1. 什么是数据库? 答: 储存数据的仓库, 如: 在ATM的事例中创建的一个db 目录, 称为数据库 2. 什么是Mysql, Oracl ...

  9. 小白两篇博客熟练操作MySQL 之 第二篇

    小白两篇博客熟练操作MySQL  之   第二篇 一. 视图 视图是一个虚拟表,其本质是根据SQL语句获取动态的数据集,并为其命名,用户使用时只需使用名称即可获取结果集, 并可以将其当做表来使用. s ...

随机推荐

  1. TF-IDF了解

    http://en.wikipedia.org/wiki/Tf%E2%80%93idf

  2. VS2012与windos版本不兼容问题

    昨天晚上加完班,想着把windows更新下.今天上午就发现再运行VS报错了,提示VS2012与windows版本不兼容,打开.sln文件后,VS自动关闭.错误如下: 查看后网上提示安装VS2012的一 ...

  3. python 日记 day4

    1.为何数据要分类 数据是用来表示状态的,不同的状态应该用不同类型的数据来表示. 2.数据类型 数字 字符串 列表 元组 字典 集合 列表:列表相比于字符串,不仅可以储存不同的数据类型,而且可以储存大 ...

  4. 深入浅出 Java Concurrency (8): 锁机制 part 3[转]

    接上篇,这篇从Lock.lock/unlock开始.特别说明在没有特殊情况下所有程序.API.文档都是基于JDK 6.0的. public void java.util.concurrent.lock ...

  5. 转载:JVM内存分代策略

    Java虚拟机根据对象存活的周期不同,把堆内存划分为几块,一般分为新生代.老年代和永久代(对HotSpot虚拟机而言),这就是JVM的内存分代策略. 为什么要分代? 堆内存是虚拟机管理的内存中最大的一 ...

  6. 进一步封装poco下的mysql操作

    为方便程序对mysql操作,我对poco的mysql进行了再次封装,主要是针对自己应用需要的部分. 开发工具:netbean 系统环境:centos7 poco版本: poco-1.9.0-all 主 ...

  7. 引爆潮流技术 Vue+Django REST framework打造生鲜电商项目

    引爆潮流技术Vue+Django REST framework打造生鲜电商项目 整个课程都看完了,这个课程的分享可以往下看,下面有链接,之前做java开发也做了一些年头,也分享下自己看这个视频的感受, ...

  8. kafka理论

    一.消息队列,简称MQ,message queue 生产者:生存数据写到kafka,持久化到硬盘.对同一个Topic来讲,生产者通常只有‘一个’(可以多并发)数据保存时常可以配置,默认保存七天. 消费 ...

  9. StopWatch 监控Java代码运行时间和分析性能

    背景 有时我们在做开发的时候需要记录每个任务执行时间,或者记录一段代码执行时间,最简单的方法就是打印当前时间与执行完时间的差值,然后这样如果执行大量测试的话就很麻烦,并且不直观,如果想对执行的时间做进 ...

  10. Leetcode492.Construct the Rectangle构造矩形

    作为一位web开发者, 懂得怎样去规划一个页面的尺寸是很重要的. 现给定一个具体的矩形页面面积,你的任务是设计一个长度为 L 和宽度为 W 且满足以下要求的矩形的页面.要求: 1. 你设计的矩形页面必 ...