论文信息

论文标题：DropEdge: Towards Deep Graph Convolutional Networks on Node Classification
论文作者：Yu Rong, Wenbing Huang, Tingyang Xu, Junzhou Huang
论文来源：2020, ICLR
论文地址：download
论文代码：download

1 Introduction

　　由于 2022 年的论文看不懂，找了一篇 2020 的论文缓解一下心情，我太难了。

　　提出一种可以缓解过拟合、过平滑的策略，并且和其他 backbone 模型组合将得到更好的性能。

　　验证小图上容易出现过平滑现象：参见 Figure 1 Cora 数据集上使用 8 层 GCN 的结果。

　　DropEdge 主要思想是：在每次训练时，随机删除掉原始图中固定比例的边。

　　在GCN训练过程中应用DropEdge有许多好处：

DropEdge 可以看成是数据增强技术。在训练过程中对原始图中的边进行不同的随机删除，也就增强了输入数据的随机性和多样性，可以缓解过拟合的问题。
DropEdge 还可以看成是一个消息传递减少器。GCNs中，邻接节点间的消息传递是通过连边实现的，随机删除掉一些边就可以让节点连接更加稀疏，在一定程度上避免了GCN层数加深引起的过平滑问题。

2 Preliminary

GCN

　　前向传播层为：

　　　　$\boldsymbol{H}^{(l+1)}=\sigma\left(\hat{\boldsymbol{A}} \boldsymbol{H}^{(l)} \boldsymbol{W}^{(l)}\right)\quad\quad\quad(1)$

　　其中，$\hat{\boldsymbol{A}}=\hat{\boldsymbol{D}}^{-1 / 2}(\boldsymbol{A}+\boldsymbol{I}) \hat{\boldsymbol{D}}^{-1 / 2}$，$\boldsymbol{W}^{(l)} \in \mathbb{R}^{C_{l} \times C_{l-1}}$。

3 Method

3.1 Methodlogy

　　在每个训练 epoch，DropEdge 技术随机删除输入图的一定边。形式上，它随机地强制邻接矩阵 $A$ 的 $V_p$ 非零元素为零，其中 $V$ 是边的总数，$p$ 是丢弃率。如果我们将得到的邻接矩阵表示为 $A_{drop}$，那么它与 $A$ 的关系就变成了

　　　　$A_{\mathrm{drop}}=A-A^{\prime}\quad\quad\quad(2)$

　　其中 $\boldsymbol{A}^{\prime}$ 是原始图中删除的边集，然后对 $\boldsymbol{A}_{\text {drop }}$ 进行 re-normalization 得到 $\hat{\mathbf{A}}_{\text {drop }}$ ，替换 $\text{Eq.1}$ 中的 $\hat{\mathbf{A}}$。

Preventing over-fitting

　　DropEdge 对图中的连接带来了扰动，它对输入数据产生了不同的随机变形，可以看成是数据增强。

　　GCNs 的核心思想是对每个节点的邻居特征进行加权求和，实现对邻居信息的聚合。那么 DropEdge 可以看成在 GNN 训练时使用的是随机的邻居子集进行聚合，而没有使用所有的邻居。若 DropEdge 删边率为 $p$，对邻居聚合的期望是由 $p$ 改变的，在对权重进行归一化后就不会再使用 $p$。

Layer-Wise DropEdge

　　上述所说的是每个 epoch ，GNN 各层共享一个 $\boldsymbol{A}_{\text {drop }}$ 但每层也可以单独进行 DropEdge，为数据带来更多的随机性。

　　Note：同样，类似的还有可以为每层单独计算 KNN graph。

　　下文将阐述 DropEdge 如何缓解过平滑问题，并且假设使用的所有层将共用一个 $\boldsymbol{A}_{\text {drop }}$。

3.2 Preventing over-smoothing

　　过平滑原始定义：平滑现象意味着随着网络深度的增加，节点特征将收敛到一个固定的点。这种不必要的收敛限制了深度GCNs的输出只与图的拓扑相关，但与输入节点特征无关，这会损害 GCNs 的表达能力。

　　通过考虑非线性和卷积滤波器的思想，可以将过平滑解释为收敛到子空间，而不是收敛到不动点，本文将使用子空间概念来更具普遍性。

　　首先给出如下定义：

　　根据 Oono & Suzuki 的结论，足够深的GCN在一些条件下，对于任意小的 $\epsilon$ 值，都会有 $ \epsilon-smoothing$ 问题。他们只是提出了深度 GCN 中存在 $\epsilon-smoothing$，但是没有提出对应的解决方法。

- 降低节点之间的连接，可以降低过平滑的收敛速度；
- 原始空间和子空间的维度之差衡量了信息的损失量；

　　即：

4 Discussions

DropEdge vs. Dropout

　　Dropout 试图通过随机设置特征维数为零来干扰特征矩阵，可能会减少过拟合的影响，但对防止过平滑没有帮助，因为它不会对邻接矩阵做出任何改变；
　　DropEdge 可以看成 Dropout 向图数据的推广，将删除特征换成删除边，两者是互补关系；

DropEdge vs DropNode

　　DropNode 采样子图进行小批量训练，可被视为删除边的一种特定形式，因为连接到删除节点的边也被删除。然而，DropNode 对删除边的影响是面向节点的和间接的。

　　DropEdge 是面向边的，并且可以保留训练的所有节点特征，表现出更多的灵活性。

　　当前的 DropNode 方法中的采样策略通常是低效的，例如，GraphSAGE 的层大小呈指数增长，而 AS-GCN 需要逐层递归地进行采样。然而，DropEdge 既不随着深度的增长而增加图层的大小，也不要求递归进程，因为所有边的采样都是平行的。

DropEdge vs Graph-Sparsification

　　图稀疏化(1997) 的优化目标是去除图压缩的不必要的边，同时保留输入图的几乎所有信息。这和 DropEdge 的目的一样，但不同的是 DropEdge 不需要具体的优化目标，而图稀疏化则采用一种繁琐的优化方法来确定要删除哪些边，一旦这些边被丢弃，输出图将保持不变。

5 Experiment

数据集

Backbones

节点分类：（监督学习）

验证损失

标准化/传播模型

6 Conclusion

　　DropEdge 在输入数据中包含了更多的多样性，以防止过拟合，并减少了图卷积中的消息传递，以缓解过平滑。

论文解读（DropEdge）《DropEdge: Towards Deep Graph Convolutional Networks on Node Classification》的更多相关文章

论文解读 - Composition Based Multi Relational Graph Convolutional Networks
1 简介随着图卷积神经网络在近年来的不断发展,其对于图结构数据的建模能力愈发强大.然而现阶段的工作大多针对简单无向图或者异质图的表示学习,对图中边存在方向和类型的特殊图----多关系图(Multi- ...
论文解读（Geom-GCN）《Geom-GCN: Geometric Graph Convolutional Networks》
Paper Information Title:Geom-GCN: Geometric Graph Convolutional NetworksAuthors:Hongbin Pei, Bingzhe ...
论文解读第三代GCN《 Deep Embedding for CUnsupervisedlustering Analysis》
Paper Information Titlel:<Semi-Supervised Classification with Graph Convolutional Networks>Aut ...
How to do Deep Learning on Graphs with Graph Convolutional Networks
翻译: How to do Deep Learning on Graphs with Graph Convolutional Networks 什么是图卷积网络图卷积网络是一个在图上进行操作的神经网 ...
【论文笔记】Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition 2018-01-28 15:4 ...
论文笔记之：Semi-supervised Classification with Graph Convolutional Networks
Semi-supervised Classification with Graph Convolutional Networks 2018-01-16 22:33:36 1. 文章主要思想: 2. ...
Semi-Supervised Classification with Graph Convolutional Networks
Kipf, Thomas N., and Max Welling. "Semi-supervised classification with graph convolutional netw ...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition (ST-GCN)
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition 摘要动态人体骨架模型带有进行动 ...
Emotion Recognition Using Graph Convolutional Networks
Emotion Recognition Using Graph Convolutional Networks 2019-10-22 09:26:56 This blog is from: https: ...

随机推荐

CoaXPress 简介
CoaXPress 背景 CoaXPress (简称CXP)是指一种采用同轴线缆进行互联的相机数据传输标准,主要用于替代之前的cameralink协议,常见于科学相机.工业相机.医学图像.航空防务等场 ...
Spring Authorization Server 0.3.0 发布，官方文档正式上线
基于OAuth2.1的授权服务器Spring Authorization Server 0.3.0今天正式发布,在本次更新中有几大亮点. 文档正式上线 Spring Authorization Ser ...
搭建自己的个人web项目指南 ---（一）服务器购买与基础配置 | windows连接到自己的云服务器
(一)服务器购买与基础配置 | windows连接到自己的云服务器一.服务器选购指南厂商选择目前市面上提供服务器租用的厂商很多,比较知名的还是阿里云和腾讯云,两家的稳定性都非常不错,小伙伴们可以 ...
Node.js安装与环境配置
废话不多少直接上干货.坐车扶稳, 当然你要知道Node.js 是一个基于Chrome JavaScript 运行时建立的一个平台.其次Node.js是一个事件驱动I/O服务端JavaScript环境, ...
爬取豆瓣TOP250电影
自己跟着视频学习的第一个爬虫小程序,里面有许多不太清楚的地方,不如怎么找到具体的电影名字的,那么多级关系,怎么以下就找到的是那个div呢? 诸如此类的,有许多,不过先做起来再说吧,后续再取去弄懂. i ...
架构师必备：系统容量现状checklist
正如飞机在起飞前,机长.副机长要过一遍checklist检查,确认没问题了才能起飞.楼主也整理了一个系统容量现状checklist,方便对照检查.本文搭配架构师必备:如何做容量预估和调优,食用更佳. ...
.NET中的迭代器（Iterator）
更新记录本文迁移自Panda666原博客,原发布时间:2021年6月30日. 一.迭代器介绍 C#2.0开始,我们可以使用迭代器(iterator).编译器自动把我们定义的迭代器生成可枚举类型或 ...
『忘了再学』Shell流程控制 — 35、多分支case条件语句
目录 1.case条件语句介绍 2.case语句需要注意的内容 3.练习示例1 示例2 1.case条件语句介绍 case语句和if-elif-else语句一样都是多分支条件语句,不过和if多分支条 ...
关于一次Web线下面试的思考
前言: 今天面试一家Web前端的公司,由于跟初筛的面试官关系挺好,按理来说我在第一次线上面试就应该被淘汰了(呜呜呜),接下来是线下面试,不出意外的话,我凉了.但是这些天的面试经验并非全无收获.我的线下 ...
BUUCTF-N种方法解决
N种方法解决这题提供的是一个key.exe 运行一下发现没办法运行,老办法,放到16进制打开看看. 这个data:image/jpg很明显了,base64转图片. 编码完成得到了一张二维码,再将得到 ...

论文解读（DropEdge）《DropEdge: Towards Deep Graph Convolutional Networks on Node Classification》