Hinton等人新研究：如何更好地测量神经网络表示相似性

2019年05月22日 08:39:15 喜欢打酱油的老鸟阅读数 177更多

https://www.toutiao.com/a6692998683081835012/

近期很多研究试图通过对比神经网络表示来理解神经网络的行为。谷歌大脑 Simon Kornblith、Geoffrey Hinton 等人的一项新研究引入了 centered kernel alignment (CKA) 作为相似性指数，并分析 CKA、线性回归、典型相关分析（CCA）等相关方法之间的关系，证明 CKA 优于其他相似性指数。

在机器学习的很多任务中，深度神经网络可以自动从数据中学习强大的特征表示。尽管深度神经网络在多种任务中取得了令人印象深刻的进展，但如何理解和描述神经网络从数据中学习到的表示仍未得到充分研究。之前的工作（例如 Advani＆Saxe (2017)、Amari et al. (2018)、Saxe et al. (2013)）在理解神经网络训练过程的理论动态方面取得了一些进展。这些研究虽然很深刻，但却存在基础局限性，因为它们忽略了训练动态过程和结构化数据之间复杂的相互作用。事实上，神经网络表示会比损失函数提供更多机器学习算法和数据之间的交互信息。

谷歌大脑的这篇论文研究了测量深度神经网络表示相似性的问题。测量表示相似性的有效方法可帮助回答许多有趣的问题，包括：（1）基于不同随机初始化训练得到的相同架构深度神经网络是否学习相似的表示？（2）不同神经网络架构的各个层之间是否可以建立对应关系？（3）相同的神经网络架构从不同的数据集中学习的表示有多相似？

该论文的主要贡献有：

讨论了相似性指数的不变性及其对测量神经网络表示相似性的影响。
引入了 centered kernel alignment (CKA) 作为一种相似性指数，并分析 CKA、线性回归、典型相关分析（CCA）等相关方法之间的关系。
证明了 CKA 能够确定基于不同随机初始化和不同宽度训练的神经网络的隐藏层之间的对应关系，而以前提出的相似性指数在这些场景下是不适用的。
验证了网络越宽学习到的表示越相似，并且前几层的相似性比后几层更容易饱和。该研究证明了神经网络中的前几层而非后几层能从不同的数据集中学习到相似的表示。

问题描述

令 X∈R^(n×p_1) 表示 n 个样本的 p_1 个神经元的激活矩阵，Y∈R^(n×p_2) 表示相同的 n 个样本的 p_2 个神经元的激活矩阵。假设这些矩阵已经过预处理使得矩阵的每一列均值为零。在不失一般性的情况下，我们假设 p_1≤p_2。

为了可视化和理解深度学习中不同因素的影响，研究者设计和分析了标量相似性指数 s(X,Y)，它可用于比较神经网络内和神经网络之间的表示相似性。

论文：Similarity of Neural Network Representations Revisited

论文地址：https://arxiv.org/pdf/1905.00414.pdf

最近一些工作试图通过比较层之间和不同训练模型之间的表示来理解神经网络的行为。该论文研究了基于典型相关分析（CCA）对比神经网络表示的方法，证明 CCA 属于一类测量多元相似性的统计方法，但是 CCA 和其他对可逆线性变换具备不变性的统计方法都无法测量维度高于数据点个数的表示之间的相似性。

该研究介绍了一个相似性指数，它可以测量表示相似性矩阵之间的关系，并且不受上面的这种限制。该相似性指数等价于 centered kernel alignment (CKA)，并且也与 CCA 紧密相关。不同于 CCA，CKA 可以可靠地识别基于不同初始化训练的网络学习得到的表示之间的对应关系。

相似性指标的不变性是针对什么变换而言的？

相似性指标的不变性及其对测量神经网络表示相似性的影响是很重要的。该研究认为，相似性的直观概念和神经网络训练的动态过程都要求相似性指标对正交变换和各向同性缩放（isotropic scaling）是不变的，而不是可逆线性变换。

比较相似性结构（Similarity Structure）

与直接比较一个样本在两个表示中的多变量特征（比如通过回归的方法）不同，该研究的主要观点是：首先分别测量每个表示中的每对样本之间的相似性，然后比较相似性结构。在神经科学中，表示样本之间相似性的矩阵被称为表征相似性矩阵（Kriegeskorte et al., 2008a）。下文证明了，如果使用内积来测量相似性，那么表征相似性矩阵之间的相似性可以简化成成对特征相似性的另一个直观概念。

基于点积的相似性。下面是一个将样本之间的点积与特征之间的点积关联的简单公式：

Hilbert-Schmidt 独立性准则（HSIC）。从等式 1 可以推出，对于均值为 0 的 X 和 Y 有：

令 K_ij = k(x_i , x_j ) , L_ij = l(y_i , y_j )，其中 k 和 l 是两个核函数。HSIC 的经验估计是：

Centered Kernel Alignment. HSIC 对各向同性缩放不具备不变性，但可以通过归一化使其具有不变性。归一化后的指标称为 centered kernel alignment (Cortes et al., 2012; Cristianini et al., 2002)：

Hinton等人新研究：如何更好地测量神经网络表示相似性的更多相关文章

Hinton等人最新研究：大幅提升模型准确率，标签平滑技术到底怎么用?
Hinton等人最新研究:大幅提升模型准确率,标签平滑技术到底怎么用? 2019年07月06日 19:30:55 AI科技大本营阅读数 675 版权声明:本文为博主原创文章,遵循CC 4.0 B ...
Adam作者大革新，联合Hinton等人推出全新优化方法Lookahead
Adam作者大革新, 联合Hinton等人推出全新优化方法Lookahead 参与:思源.路.泽南快来试试 Lookahead 最优化方法啊,调参少.收敛好.速度还快,大牛用了都说好. 最优化方 ...
开学收好这 17 种工具 App，让你新学期学习更有效率
开学啦!不管是想勾搭学长还是想讨好学妹,相信同学们对新学期.新同学或者新学校都已经满怀期待了.但是,除了帅气逼人的学长和青春靓丽的学妹,你们可不能忘记上学的首要任务还是学习噢. 那么,为了帮助同学们更 ...
iOS 10正式发布：十大新功能，更注重人性化
6月14日凌晨消息,苹果公司举行2016年WWDC全球开发者大会,介绍了watch OS.tv OS.OS X以及iOS 10系统的新特性. 据苹果介绍,iOS 10在锁屏.Siri.地图等十个各方面 ...
Neuromation新研究：利用卷积神经网络进行儿童骨龄评估
近日,Neuromation 团队在 Medium 上撰文介绍其最新研究成果:利用卷积神经网络(CNN)评估儿童骨龄,这一自动骨龄评估系统可以得到与放射科专家相似或更好的结果.该团队评估了手骨不同区域 ...
Tomcat 7 的七大新特性（更容易将Tomcat内嵌到应用去中去）
Tomcat的7引入了许多新功能,并对现有功能进行了增强.很多文章列出了Tomcat 7的新功能,但大多数并没有详细解释它们,或指出它们的不足,或提供代码示例.本文将明确描述TOMCAT 7中七个最显 ...
Azure 媒体服务换新锁，更安全更方便，新钥匙请收好！
不知道有多少人已经把家里的门锁换成了数字化的指纹锁?沿用了几百上千年的传统门锁,在技术的帮助下无疑变得更方便,不用带钥匙,还能远程控制和操作,最重要的是,终于不用担心「衣果(luǒ)着」出门扔垃圾,风 ...
SQL-表的操作（创建表，删除表，更改列，插入新行，更改行的值，删除表中数据）
一,操作表及列 1.创建表: CREATE TABLE test (ID int PRIMARY KEY IDENTITY,Name varchar(20) ) 2.删除表 DROP TABLE t ...
Java 8 新特性-Stream更优雅的处理集合入门
Java 8 新特性之--Stream 一. 简单介绍 Stream是Java 8提出了的一种新的对集合对象功能的增强.它集合Lambda表达式,对集合提供了一些非常便利,高效的操作,使得代码具有非常 ...

随机推荐

前端知识点回顾——Javascript篇(三)
数组的冒泡.选择和插入排序法冒泡排序法(从小到大) function bubble(arr){ for(let i = 0 ;i<arr.length-1;i++){ for(let j = ...
使用pyinstaller 打包python程序
1.打开PyCharm的Terminal,使用命令pip install pyinstaller安装pyinstaller 2.打包命令:pyinstaller --console --onefile ...
Kotlin中单例Singleton模式
package loaderman.bar class Singlenton private constructor(){ public var value:Singlenton?=null priv ...
【Java】生成随机的手机号码并输出到文件
import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import java.util.R ...
Books Exchange (easy version) 　　CodeForces - 1249B2
The only difference between easy and hard versions is constraints. There are nn kids, each of them i ...
如何简单的编译v8动态库
按照google v8的官方提供的方法,在国内,完成编译简直太难了. 还好nodejs提供离线编译能力,稍微改造一下可以从node源码中直接编译纯净的v8动态库. 直接把v8解压出来的py/gpy文件 ...
Python学习笔记——递归函数
1.设置递归层数 #设置recursion函数的层数,默认是100层 import sys sys.setrecursionlimit(10000) 2. 阶乘 #定义一个阶乘函数 def facto ...
C学习笔记-运算符
一些基本概念数据对象:泛指数据在内存的存储区域左值:表示可以被更改的数据对象右值:能赋给左值的量算数运算符运算符描述实例 + 把两个操作数相加 a + b - 从第一个操作数中减去第二个 ...
DAY 吐
今天所学: 一,Linux的文件和目录管理 #1 cd( 变更用户所在目录)直接运行cd会进入root的/root下,后面跟目录名,会进入指定目录下( 后面只能是目录名,不能跟文件名). #2 pwd ...
Spring源码分析（1）容器的基本实现——核心类介绍
bean是Spring中最核心的东西,因为Spring就像是个大水桶,而bean就像是容器中的水,水桶脱离了水便也没什么用处了,那么我们先看看bean的定义. public class MyTestB ...

Hinton等人新研究：如何更好地测量神经网络表示相似性

Hinton等人新研究：如何更好地测量神经网络表示相似性

Hinton等人新研究：如何更好地测量神经网络表示相似性的更多相关文章

随机推荐

热门专题