[论文阅读笔记] GEMSEC,Graph Embedding with Self Clustering
[论文阅读笔记] GEMSEC: Graph Embedding with Self Clustering
本文结构
- 解决问题
- 主要贡献
- 算法原理
- 参考文献
(1) 解决问题
已经有一些工作在使用学习到的节点表示来做社区发现,但是仅仅局限在得到节点表示之后使用聚类算法来得到社区划分,简单说就是节点表示和目标任务分离了,学习到的节点表示并不能很有效地应用于聚类算法(因为可能节点表示向量所在的低维空间中并不存在容易容易划分的簇,从而使用聚类算法也不能得到很好的社区划分结果)。
(2) 主要贡献
Contribution 1: 提出GEMSEC,一个基于序列的图表征模型,学习节点表征的同时进行节点的聚类。
Contribution 2: 引入平滑正则项来迫使具有高度重叠邻域的节点对有相似的节点表示。
(3) 算法原理
GEMSEC算法主要的框架还是遵循DeepWalk的算法框架,即随机游走生成语料库,再利用简单神经网络来训练节点表示向量。
- 对于随机游走部分,GEMSEC简单采用DeepWalk的一阶随机游走。
- 对于所使用的简单神经网络,原本DeepWalk采用的是以最大化窗口内节点共现概率为目标的Skip-Gram模型,而GEMSEC仅仅在Skip-Gram目标函数(窗口内节点的共现概率)的基础上加上了和聚类有关的目标函数,从而将表示向量学习目标和聚类目标联合在一起优化,得到更加适合聚类(簇的内聚程度高,簇间分明)的表示向量,在学习表示向量的同时也生成了节点的社区划分。
总的目标函数=Skip-Gram目标函数+聚类目标函数,如下所示:
上述目标函数中用到的符号解释如下:
f-the\ mapping\ function\ (from\ node\ to\ embedding\ vector)
f(v)-the\ embedding\ vector\ of node\ v
N_{S}(v)-the\ collection\ of\ windows\ containing\ v
C-the\ set\ of\ communities
u_{c}-the\ vector\ of\ cluster\ center
\gamma-the\ weight\ coefficient\ of\ the\ clustering\ cost
上述目标函数中,第一项(公式中的Embedding cost)为使用了Softmax的节点共现概率函数化简后的形式,主要作用是使得采样的序列中同一个窗口内的节点的表示向量具有相似的表示。第二项(公式中的Clustering cost)为聚类的目标函数(类似Kmeans),旨在最小化节点与最近的聚类中心的距离,即增加簇的内聚度,训练更适合聚类的表示向量。
此外论文中还引入了平滑正则化项(未在上述目标函数公式中给出),该项形式如下:
上述函数中用到的符号解释如下:
E_{S}-the\ edges\ within\ the\ windows
w(v,u)-the\ regularization\ weight\ of\ each\ pair\ (v,u)
\lambda-the\ regularization\ coefficient
窗口内存在边的节点对的正则化权重w(v,u)可由如下计算(采用网络中的相似度计算方式确定,如Jaccard系数,即两个节点共同邻居的比例越大,两个节点越相似):
引入该平滑正则化项的目的是使得具有高度重叠邻域的节点对有着更加相似的向量表示。 (该平滑正则化项也可以用于DeepWalk、Node2Vec等目标函数的设计)
因此最终Smooth GEMSEC算法的总的目标函数=共现概率目标+聚类目标+平滑正则化项。
(4) 参考文献
Rozemberczki B, Davies R, Sarkar R, et al. Gemsec: Graph embedding with self clustering[C]//Proceedings of the 2019 IEEE/ACM international conference on advances in social networks analysis and mining. 2019: 65-72.
[论文阅读笔记] GEMSEC,Graph Embedding with Self Clustering的更多相关文章
- [论文阅读笔记] Fast Network Embedding Enhancement via High Order Proximity Approximati
[论文阅读笔记] Fast Network Embedding Enhancement via High Order Proximity Approximation 本文结构 解决问题 主要贡献 主要 ...
- 论文阅读 Real-Time Streaming Graph Embedding Through Local Actions 11
9 Real-Time Streaming Graph Embedding Through Local Actions 11 link:https://scholar.google.com.sg/sc ...
- [论文阅读笔记] Community aware random walk for network embedding
[论文阅读笔记] Community aware random walk for network embedding 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问题 先前许多算法都 ...
- [论文阅读笔记] Are Meta-Paths Necessary, Revisiting Heterogeneous Graph Embeddings
[论文阅读笔记] Are Meta-Paths Necessary? Revisiting Heterogeneous Graph Embeddings 本文结构 解决问题 主要贡献 算法原理 参考文 ...
- [论文阅读笔记] LouvainNE Hierarchical Louvain Method for High Quality and Scalable Network Embedding
[论文阅读笔记] LouvainNE: Hierarchical Louvain Method for High Quality and Scalable Network Embedding 本文结构 ...
- [论文阅读笔记] Structural Deep Network Embedding
[论文阅读笔记] Structural Deep Network Embedding 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问题 现有的表示学习方法大多采用浅层模型,这可能不能 ...
- [论文阅读笔记] Unsupervised Attributed Network Embedding via Cross Fusion
[论文阅读笔记] Unsupervised Attributed Network Embedding via Cross Fusion 本文结构 解决问题 主要贡献 算法原理 实验结果 参考文献 (1 ...
- [论文阅读笔记] Adversarial Mutual Information Learning for Network Embedding
[论文阅读笔记] Adversarial Mutual Information Learning for Network Embedding 本文结构 解决问题 主要贡献 算法原理 实验结果 参考文献 ...
- 论文阅读笔记(十八)【ITIP2019】:Dynamic Graph Co-Matching for Unsupervised Video-Based Person Re-Identification
论文阅读笔记(十七)ICCV2017的扩刊(会议论文[传送门]) 改进部分: (1)惩罚函数:原本由两部分组成的惩罚函数,改为只包含 Sequence Cost 函数: (2)对重新权重改进: ① P ...
随机推荐
- 「面向 offer 学算法」笔面试大杀器 -- 单调栈
目录 前言 单调栈 初入茅庐 小试牛刀 打怪升级 出师试炼 前言 单调栈是一种比较简单的数据结构.虽然简单,但在某些题目中能发挥很好的作用. 最近很多大厂的笔试.面试中都出现了单调栈的题目,而还有不少 ...
- 通过股票K线图来谈谈真正的技术和现实的技术
开局一张图 这是一张股票日线图,上面记载这近期每个交易日该股的开盘价,收盘价,最高价,最低价. 有兴趣的人可以估算下数据量和表的设计,似乎有点工作量.可这还只是一部分,你还可以获得每日分时数据,成交量 ...
- linux 安装ifconfig
一:使用yum命令下载安装wget 查看镜像中ifconfig安装包 yum search ifconfig yum install net-tools.x86_64 -y 下面按照提示一步步安装即可 ...
- tcp建立连接为什么需要三次握手和四次挥手
前言 众所周知tcp传输层协议在建立连接的时候需要三次才能建立起一个真正的可靠连接,可是为什么是三次呢,不可以是两次,四次等等呢,可以自己思考一番,带着疑问可以看下文. 三次握手 在<计算机网络 ...
- pip更新命令
python -m pip install --upgrade pip 更新时如果报错'NoneType' object has no attribute 'bytes', 解决办法:easy_ins ...
- 【深入理解Linux内核架构】3.3 页表
页表:用于建立用户进程空间的虚拟地址空间和系统物理内存(内存.页帧)之间的关联. 向每个进程提供一致的虚拟地址空间. 将虚拟内存页映射到物理内存,因而支持共享内存的实现. 可以在不增加物理内存的情况下 ...
- python爬取虎牙直播颜值区美女主播照片
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
- 方法区(Method Area)基础知识
堆.栈.方法区堆关系 概述 方法区与堆区一样,是各个线程共享的内存区域 方法区在JVM启动时就会被创建,并且它的实际的物理内存空间中和Java堆区一样都可以是不连续的 方法区的大小,跟堆空间一样,可以 ...
- 空间向量变换,以及OpenGL的glm库简单应用
测试项目请查看GitHub库 GLBIproject2/GLBIProject2_2
- 使用deeplabv3+训练自己数据集(迁移学习)
概述 在前边一篇文章,我们讲了如何复现论文代码,使用pascal voc 2012数据集进行训练和验证,具体内容可以参考<deeplab v3+在pascal_voc 2012数据集上进行训练& ...