[论文阅读笔记] Fast Network Embedding Enhancement via High Order Proximity Approximation


本文结构

  1. 解决问题
  2. 主要贡献
  3. 主要内容
  4. 参考文献

(1) 解决问题

大多数先前的工作,要么是没有考虑到网络的高阶相似度(如谱聚类,DeepWalkLINENode2Vec),要么是考虑了但却使得算法效率很低,不能拓展到大规模网络(如GraRep)。


(2) 主要贡献

Contribution 1. 将许多现有的NRL算法架构总结成一个统一的框架(相似度矩阵构造以及降维),并且得出一个结论,如果更高阶的相似度信息被考虑进相似度矩阵,那么NRL算法的表征效果会提高。

Contribution 2. 提出了NEU增强策略来提高现有的NRL算法的表征效果,经由NEU算法处理过的表征矩阵R在理论上融入了节点的更高阶相似度(近似)。最后,在多标签分类和链路预测实验上证明了算法不仅在时间上是有效的,而且在精度上也是有很大提升的。


(3) 主要内容

1. 预备知识

  • K阶相似度: 一阶相似度可以表示为两节点的边权,二阶相似度可以表示为两节点的公共邻居数,那么推广到更高阶的相似度呢?首先考虑二阶相似度的另一种解释:节点vi走两步到达节点vj的概率。将一阶二阶相似度简单推广到k阶相似度,即节点vi走k步到达节点vj的概率。 假设A为归一化后的邻接矩阵(一阶相似度转移概率矩阵),那么k阶相似度转移概率矩阵为Ak(k阶相似度转移矩阵),Akij表示节点vi走k步到达节点vj的概率。

个人理解: 高阶相似度为什么会起作用?由于现实中的网络往往都是稀疏的,这意味着边的规模和节点的规模往往是一样的。因此,真实网络的一阶相似度矩阵通常是非常稀疏的,仅凭一阶相似度已不足以反应节点间的关系。因此,需要结合更高阶的节点相似度)

2. 统一框架

论文提出了一个基于相似度矩阵的降维(矩阵分解)的统一框架,并将现有算法归结到该框架中。

基于相似度矩阵的降维(矩阵分解)统一框架包含两个步骤:

  • Step 1:相似度矩阵M的构造。(如邻接矩阵,拉普拉斯矩阵,k阶相似度矩阵等)
  • Step 2:相似度矩阵的降维,即矩阵分解,如特征值分解或SVD分解。

    目标: 分解矩阵 M=RCT,即寻找矩阵R和矩阵C来似矩阵M,矩阵M和矩阵RCT的离可以用差的矩阵范数来表。其中,R为中心向量表征矩,C为上下文向量表征矩阵。

举例说明算法符合上述统一框架:

Example 1:Spectral Clustering(SC)

相似度矩阵M:归一化后的拉普拉斯矩阵(一阶相似度)

降维方法:特征值分解。

Example 2:Graph Factorization (GF)

相似度矩阵M:归一化后的邻接矩阵(一阶相似度)降维方法:SCD分解。

Example 3:DeepWalk

相似度矩阵M:

DeepWalk算法以基于随机游走生成的采样来近似高阶相似度,而没有实际上去精确计算k阶相似度矩阵。

降维方法:以目标函数优化的方式,SkipGram的目标优化(SGD),寻找矩阵R和矩阵C使得RCT近似M。

Example 4:GraRep

算法原理:

GraRep精确计算1,...k阶,k个相似度矩阵,并且为每个相似度矩阵计算一个特定的表 征(利用SVD分解),最后将这k个表征连接起来。

本质上也是基于相似度矩阵分解,属于提出的统一框架但是,GraRep不能有效适用于大规模网络,计算效率太低。

3. 算法原理

根据以上算法存在的问题:本论文研究如何从近似高阶相似度矩阵中有效的学习网络表征(使得算法既有效率又有效果)。

假设我们已经用上述NRL框架中的某个算法学习了相对比较低阶的相似度矩阵f(A)的近似RCT。在这个基础之上,我们的目标是去学习一个更好的R'和C',其R'C'T近似一个更高阶的矩阵g(A),其度比f(A)更高。

f(A)的定义(相似度矩阵):表示由A的1...k次幂组成的多项式。f(A)的度k表示多项式中考虑到的最大阶的相似度,即A的最大次幂,参考以上DeepWalk的相似度矩阵,f(A)=M。

注意到NEU算法主要是为了增强其他表示学习模型得到的嵌入结果,即在含有低阶信息的嵌入向量的基础上,融合更高阶的信息生成质量更好的嵌入向量。该算法原理很简单,即对其他算法得到的表示向量嵌入矩阵做一个后处理操作,其迭代更新公式如下:

一个疑问:这个R和C的迭代更新是怎么考虑进了更高阶的相似度的?

Theorem

给定网络表征矩阵R和向下文向量表征矩阵C(可由其他表征算法学习而得),假设RCT近似相似度矩阵M=f(A),近似误差限



且f(A)的度为K。经由上述迭代公式(3)更新而得的R’和C’的积R’C’T近似于矩阵



g(A)具有K+2的度,且近似误差限为

由以上定理可以得出结论: 即每迭代更新一次,分解的近似相似度矩阵的度提升2,但是相应的误差上限会提升2.25倍,因此必须权衡融入的高阶节点相似度信息以及相应的误差。

一个变种的迭代公式:

可以推得变种迭代更新公式在一次迭代中可以获得更高阶的相似度(第一个迭代公式一次迭代只是多了2阶)。(当然比变种迭代公式更复杂的在一次迭代中获得更高阶的相似度的迭代公式可以类似推广)

总结:说了那么多就是对其他表示学习算法得到的嵌入矩阵进行以上迭代更新,即可在嵌入向量中融入更高阶的信息。


(4) 参考文献

Yang C , Sun M , Liu Z , et al. Fast Network Embedding Enhancement via High Order Proximity Approximation[C]// International Joint Conference on Artificial Intelligence. AAAI Press, 2017.


[论文阅读笔记] Fast Network Embedding Enhancement via High Order Proximity Approximati的更多相关文章

  1. NEU(Fst Network Embedding Enhancement via High Order Proximity Approximation)

    NEU(Fst Network Embedding Enhancement via High Order Proximity Approximation) NEU:通过对高阶相似性的近似,加持快速网络 ...

  2. [论文阅读笔记] GEMSEC,Graph Embedding with Self Clustering

    [论文阅读笔记] GEMSEC: Graph Embedding with Self Clustering 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问题 已经有一些工作在使用学习 ...

  3. [论文阅读笔记] Community aware random walk for network embedding

    [论文阅读笔记] Community aware random walk for network embedding 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问题 先前许多算法都 ...

  4. [论文阅读笔记] LouvainNE Hierarchical Louvain Method for High Quality and Scalable Network Embedding

    [论文阅读笔记] LouvainNE: Hierarchical Louvain Method for High Quality and Scalable Network Embedding 本文结构 ...

  5. [论文阅读笔记] Structural Deep Network Embedding

    [论文阅读笔记] Structural Deep Network Embedding 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问题 现有的表示学习方法大多采用浅层模型,这可能不能 ...

  6. [论文阅读笔记] Unsupervised Attributed Network Embedding via Cross Fusion

    [论文阅读笔记] Unsupervised Attributed Network Embedding via Cross Fusion 本文结构 解决问题 主要贡献 算法原理 实验结果 参考文献 (1 ...

  7. [论文阅读笔记] Adversarial Mutual Information Learning for Network Embedding

    [论文阅读笔记] Adversarial Mutual Information Learning for Network Embedding 本文结构 解决问题 主要贡献 算法原理 实验结果 参考文献 ...

  8. 论文阅读笔记(二十一)【CVPR2017】:Deep Spatial-Temporal Fusion Network for Video-Based Person Re-Identification

    Introduction (1)Motivation: 当前CNN无法提取图像序列的关系特征:RNN较为忽视视频序列前期的帧信息,也缺乏对于步态等具体信息的提取:Siamese损失和Triplet损失 ...

  9. 论文阅读笔记 Word Embeddings A Survey

    论文阅读笔记 Word Embeddings A Survey 收获 Word Embedding 的定义 dense, distributed, fixed-length word vectors, ...

随机推荐

  1. C语言函数调用完整过程

    C语言函数调用详细过程 函数调用是步骤如下: 按照调用约定传参 调用约定是调用方(Caller)和被调方(Callee)之间按相关标准 对函数的某些行为做出是商议,其中包括下面内容: 传参顺序:是从左 ...

  2. Java 学习记录

    •Eclipse相关 Eclipse常用设置 解决 Eclipse 项目中有红色感叹号的详细方法(图文) JRE System Library [JavaSE-1.8](unbound) •Java ...

  3. 阿里最强 Python 自动化工具开源了!

    1. 前言 大家好,我是安果! 最近,阿里内部开源了一个 iOS 端由 Python 编写的自动化工具,即:tidevice 它是一款跨平台的自动化开源工具,不依赖 Xcode 就可以启动 WebDr ...

  4. Hashtable 渐渐被人们遗忘了,只有面试官还记得,感动

    尽人事,听天命.博主东南大学硕士在读,热爱健身和篮球,乐于分享技术相关的所见所得,关注公众号 @ 飞天小牛肉,第一时间获取文章更新,成长的路上我们一起进步 本文已收录于 「CS-Wiki」Gitee ...

  5. AgileConfig - 轻量级配置中心1.2.0发布,全新的UI✨✨✨

    AgileConfig自发布以来有个"大问题"-UI太丑.因为当初这个项目是给自己用的,连UI界面都没有,全靠手动在数据库里改配置.后来匆匆忙忙使用bootstrap3简单的码了一 ...

  6. vue 快速入门 系列 —— vue 的基础应用(下)

    其他章节请看: vue 快速入门 系列 vue 的基础应用(下) 上篇聚焦于基础知识的介绍:本篇聚焦于基础知识的应用. 递归组件 组件是可以在它们自己的模板中调用自身的.不过它们只能通过 name 选 ...

  7. linux-shell 识别当前所使用的shell

    echo $SHELL 或者 echo $0

  8. PBR(基于物理的渲染)学习笔记2

    相关资料 https://www.cnblogs.com/dojo-lzz/p/13237686.html 文档:PBR学习笔记.note 链接:http://note.youdao.com/note ...

  9. 浅谈synchronized和volatitle实现线程安全的策略

    什么是线程不安全 我对线程安全的理解就是多个线程同时操作一个共享变量时会产生意料之外的情况,这种情况就是线程不安全.注意:只有写操作才可能出现线程不安全,对共享变量只进行读操作线程是绝对安全的. 具体 ...

  10. 【故障公告】数据库服务器再次 CPU 100% 引发全站故障

    今天五一劳动节的一大早 5:50-6:30 期间,我们使用的阿里云 RDS SQL Server 数据库实例再次出现 CPU 100% 问题,引发全站故障,由此给您带来麻烦,请您谅解. 我们发现故障后 ...