[论文阅读笔记] metapath2vec: Scalable Representation Learning for Heterogeneous Networks

本文结构

解决问题
主要贡献
算法原理
参考文献

(1) 解决问题

解决异构网络上的节点嵌入问题。 论文中指出了异构网络嵌入的两个关键问题：

在异构网络中，如何定义和建模节点邻域的概念？
如何优化嵌入模型，使得其能够有效的保留多种类型的节点和边的结构和语义信息。

(2) 主要贡献

Contribution 1： 定义了异构网络表示学习的问题，总结了异构网络嵌入所带来的挑战。

Contribution 2： 提出两个快速且有效的框架，metapath2vec和metapath2vec++，能够保留异构网络中的结构和语义联系。

Contribution 3：

证明了所提的两个模型能够挖掘到异构网络中不同类型节点的语义联系（现有方法无法识别的）。

(3) 算法原理

以下以一个学术网络为例：

1. metapath2vec 模型

主要框架（类似于DeepWalk）：基于元路径的随机游走 + 异构Skip-Gram。

异构 Skip-Gram

和一般的Skip-Gram模型类似，，异构Skip-Gram的网络结构如上图所示，其目标是最大化节点和其异构上下文邻居的共现概率。目标函数如下，和一般的Skip-Gram模型的主要区别在于中间那个求和符号，分别对节点与其异构邻居的关系进行建模。

细节不再过多介绍，可以参考DeepWalk。
基于元路径的随机游走

元路径简单来说是节点类型的序列，用于表达不同节点类型之间或者相同节点类型之间的某种联系，比如 “APVPA”就是一个元路径，表达的是两个作者在某个期刊或者会议上都发表了论文，（A是作者节点类型，P是论文节点类型，V是期刊或者会议节点类型）。一般来说，元路径是事先由先验知识给定的。而基于元路径的随机游走指的是 “下一跳节点的节点类型由当前节点类型和元路径模式确定，按照元路径的指导选择相应的节点类型进行跳转，如果有多个相同节点类型的邻居，则随机选择一个。” 元路径通常设计成一种对称的方式，即他的第一个节点类型和最后一个节点类型要一致，如“APVPA”，这可以重复循环使用指导随机游走。基于元路径的随机游走策略能够捕获不同节点类型之间的联系，并且确保不同类型节点的语义联系可以合理的融合到skip-gram模型中。

2. metapath2vec++ 模型

metapath2vec的异构Skip-Gram根据节点类型区分了节点的不同上下文节点，从而再嵌入过程中重构他的邻域，然而，他在softmax层中忽略了节点的类型信息。换句话说，给定节点v，为了推断其邻域中特定类型的上下文节点，metapath2vec实际上允许所有类型的节点作为其负样本。基于上述问题，作者进一步提出metapath2vec++框架，metapath2vec++框架与metapath2vec框架基本一致，只是softmax函数不再由网络中所有节点来做归一化，而只是取与中心节点同类型的网络中所有节点的来做归一化。用了这个策略之后，skip-gram的输出从一个多项式分布变成了同类型概率的多个多项式分布了，其网络结构如下图所示。

(4) 参考文献

Dong Y, Chawla N V, Swami A. metapath2vec: Scalable representation learning for heterogeneous networks[A]. Proceedings of the 23rd ACM SIGKDD international conference on knowledge discovery and data mining[C]. 2017: 135–144.