用户的关注关系本身就是一个图结构,要从用户关注关系生成用户的embedding表示,其实就是做graph的emebding表示。

deepwalk+word2vec 比较简单,效果也还可以。这种方法再此不再介绍。

接下里记下我对line算法的一些理解。

先说line算法要解决的问题。

1、需要能够表示有向图。

2、能够体现节点的权重,边的权重。节点的权重论文中使用了节点的出度作为节点的权重。

3、能够体现节点的结构相似性,其实就是有相似的上下文。这个line算法分别提出了一阶相似和二阶相似。

接下来详细说说一阶和二阶相似性。

其中一阶相似是指直接有边相连的节点i,j 。用i节点的向量推出j节点向量的概率有多大。如果i和j没有边相连接,则一阶相似性为0。如果对应于用户的关注关系组成的图的话,这个其实就是好友间的相似。还需要指出的是一阶对于边直接认为是无向图的边,不考虑方向性。对于用户间一阶相似性的边权重可以通过用户间互动行为,统计出来一个亲密度。

二阶相似性,为了解决一阶相似没有考虑朋友的朋友间的相似性,而提出的。这种朋友的朋友之间的相似性是通过给每个顶点增加一个上下文向量来实现的。一个顶点有两个向量分别是上下文向量和本身的节点向量。上下文向量是说一个节点可以作为其相邻节点的上下文。两个不直接相连的节点越相似,也就是说他们的共同上下文节点越多,也就是他们的共同好友越多。

二阶相似性,会考虑边的权重,和节点的权重。论文中节点的权重使用节点的出度。

line算法与deepwalk的对比:

line考虑了边的权重,二阶相似还会考虑有向图的情况,类似单向的关注关系。

line算法在实现和训练过程中优化:

line算法定义了一阶和二阶相似的经验概率,就是从i节点推出j节点的经验概率,如何算。然后对于一阶的话是直接i节点向量和j节点向量来算,但是对于二阶需要计算softmax,softmax分母需要计算所有节点的上下文向量与节点i向量的点乘概率,直接算复杂度高。

line算法的代价函数是经验概率与计算的概率之间的KL散度,KL散度的优化其实等价于交叉熵。这一步存在的问题是代价函数会乘以权重。如果权重的方差比较大,那么这个训练就很成问题了。

对于计算softmax的问题,当然还是和训练word2vec时候一样通过选一些负样本,对负样本做采样来解决。在采样的时候使用alias算法减少时间复杂度。

解决权重系数对梯度传到的影响(乘系数之后会导致梯度特别大或者梯度特别小),通过对边按照权重进行采样来解决。采样之后就不需要乘权重了。

其实负采样和过采样的采样比例其实也等同于对这种类型的样本乘以系数。不过我的疑问就是这样采样之后有些边就不参与训练了吧。

存在的问题:

line的一阶和二阶向量是分开训练的,一阶向量和二阶向量如何结合。论文给出的方法是直接拼接起来,然后给一阶和二阶不同的权重。

line虽然考虑了一阶和二阶。但是也只是到邻居的邻居。对于有些节点边比较少,这种如何更好的训练。论文中提出了一个增加边的方式,构造些邻居的邻居之间的边,以及设置边权重的方式。

算法效果:

在稀疏数据上 line的一阶比二阶要好,增加邻居到邻居的边之后对效果有所提升。边比较多的话,一阶和二阶结合比单独使用一阶和二阶效果要更好。

Line 算法与deepwalk的对比 和个人理解的更多相关文章

  1. 算法的时间复杂度 & 性能对比

    算法的时间复杂度 & 性能对比 累加算法性能对比 // js 累加算法性能对比测试 const n = 10**6; (() => { console.time(`for`); let ...

  2. NDT(Normal Distribution Transform) 算法(与ICP对比)和一些常见配准算法

    原文地址:http://ghx0x0.github.io/2014/12/30/NDT-match/ By GH 发表于 12月 30 2014 目前三维配准中用的较多的是ICP迭代算法,需要提供一个 ...

  3. C++ 标准模板库(STL)——算法(Algorithms)的用法及理解

    C++ STL中的算法(Algorithms)作用于容器.它们提供了执行各种操作的方式,包括对容器内容执行初始化.排序.搜索和转换等操作.按照对容器内容的操作可将STL 中的算法大致分为四类: (1) ...

  4. c#泛型与其他语言的对比(深入理解c#)

    1.同c++模板的对比: c++模板有点像是发展到极致的宏.他们非常强大,但代价就是代码膨胀和不易理解. 在c++中使用一个模板时,会为那一套特定的模板实参编译代码,好在模板实参本来就在源代码中一样. ...

  5. 关于Eratosthenes筛子算法筛选小于n的素数的理解

    今天在学习Java核心技术第九章集合框架中的BitSet时,遇到了这个算法.Eratosthenes筛子算法时一个查找素数的方法,这并不是查找素数的最好方法,但是测试编译程序性能的一种流行的基准. 一 ...

  6. Hash算法及java HashMap底层实现原理理解(含jdk 1.7以及jdk 1.8)

    现在很多公司面试都喜欢问java的HashMap原理,特在此整理相关原理及实现,主要还是因为很多开发集合框架都不甚理解,更不要说各种其他数据结构了,所以造成面子造飞机,进去拧螺丝. 1.哈希表结构的优 ...

  7. 动画演示Sunday字符串匹配算法——比KMP算法快七倍!极易理解!

    前言 上一篇我用动画的方式向大家详细说明了KMP算法(没看过的同学可以回去看看). 这次我依旧采用动画的方式向大家介绍另一个你用一次就会爱上的字符串匹配算法:Sunday算法,希望能收获你的点赞关注收 ...

  8. 纯Html+Ajax和JSP两者对比的个人理解

    最近写个人web,用jsp+servlet做,突然想到一个问题:html+ajax似乎和jsp实现效果一样:那么,两者到底有什么区别呢? 这里参考老猿的一段话: 全站ajax会维护大量的js代码,如何 ...

  9. 算法系列001---dfs|多叉|解空间树理解

    1.研究范围 1)多叉树,图的遍历 2)回溯法的解空间树=多叉树的遍历 2.研究方法 我们现在研究的是多叉树的遍历,突然想到为什么不能直接用二叉树的遍历方法呢?我们抱着这个问题,先找到多叉树的结构不同 ...

随机推荐

  1. 数学建模python matlab 编程(指派问题)

    指派授课问题 现有A.B.C.D四门课程,需由甲.乙.丙.丁四人讲授,并且规定: 每人只讲且必须讲1门课:每门课必须且只需1人讲. 四人分别讲每门课的费用示于表中: 课 费用 人 A B C D 甲 ...

  2. Java日志体系(八)最佳实践

    java常用日志框架关系 Log4j 2与Log4j 1发生了很大的变化,Log4j 2不兼容Log4j 1. Logback必须配合Slf4j使用.由于Logback和Slf4j是同一个作者,其兼容 ...

  3. 【JVM学习笔记】异常表的重要作用以及locals属性的含义

    有如下代码 public class Test { public void work() { try { InputStream is = new FileInputStream("test ...

  4. IDEA 2019中一些有偏好设置

    1.取消启动时自动进入上一次工程: 路径:Setting ——> Appearance & Behavior ——> System Setting 取消勾选Reopen last ...

  5. VS Code 的插件位置更改

    --extensions-dir 你的目标文件夹 原来的目标位置:"E:\Program Files\VSCode\Code.exe" 更改后的位置:"E:\Progra ...

  6. 【AMAD】django-activity-stream

    动机 简介 个人评分 动机 为你的django站点生成活动流(类似facebook feed).用户可以在个人feed页面看到订阅的人的活动流. 简介 django-activity-stream1中 ...

  7. 制作VB项目打包工具与安装程序

    该原因起于错误429. 当然比起自制我更推荐使用其他的功能完整的打包软件. 犹豫各种原因,导致三分钟热情被浇灭...本来想划四个部分详细讲教程的,大家看成品源码就好了,心好累. http://www. ...

  8. 关于Npoi+excel文件读取,修改文件内容的处理方式

    因最近有需求场景,实现对文件的读写操作,又不单独生成新的文件,对于源文件的修改,做了一个简单实现,如下↓ // 要操作的excel文件路径 string fileName = Server.MapPa ...

  9. LESSON 7- High Rate Quantizers and Waveform Encoding

    1.      The Lloyd-Max algorithm is hill-climbing algorithm 第六节最后提出一个好的quantizer必须满足Lloyd-Max条件,但满足Ll ...

  10. IO(上)

    1 输入流和输出流 输入流,数据从源数据源流入程序的过程称为输入流.可以理解为从源数据源读取数据到程序的过程. 输出流,数据从程序流出到目的地的过程称为输出流.可以理解为把数据从程序写入目的地的过程. ...