Author name disambiguation using a graph model with node splitting and merging based on bibliographic information

基于文献信息进行节点拆分和合并的图模型消歧方法(GFAD)
 
 
这是一篇比较早的文章,将人名消歧过程作为一个系统,主要想学习它对消歧过程中的各个阶段的划分
GFAD 是一个面向图的框架,对于元信息缺失,错误信息的存在具有较好的鲁棒性,且不依赖web 环境,也不需要群体数量信息,不需要估计特定的参数或阈值。其中,顶点表示作者,边表示合作关系。
同名问题:分割多个不重叠的环中的共同顶点
异名问题:合并具有不同名的顶点
同时:能够处理异常问题

1. 概述

1. 基于图的作者姓名消歧方法
2. 使用合作关系构建图模型
3. 基于节点分割和合并解决模糊类别
 
已有研究:
1. 只处理同名问题
2. 依赖于邮件,网页等辅助信息

2. 创新点

涵盖了同名和异名问题
目的:构建对特定域(或数字图书馆)不敏感的通用框架,避免数据缺失和环境错误的影响
 
只依赖 title 和 co-author
1. 以图表为导向的人名消歧方法,从文献信息分析作者间的关系构建图模型
2. 通过链接合作者推断作者的社交环(过去和现在的学术关系)
3. 利用顶点分割或顶点合并
 
与以往研究相比:
1. 只需要合著者信息和 title(必要属性)
2. 不要求其他额外信息或估计值
3. 为同名和异名问题提供一个全面的消除歧义的解决方案

3. 整体框架

1. 利用文献信息分析作者关系构建图模型
2. 拆分存在多个合作网络中的顶点解决同名问题
3. 合并同作者不同名字的节点解决异名问题
 

3.1. Graph Model Constructor

图模型建设
合著者是解决作者歧义的最有影响力的因素,将合著者信息构建成一个图,合著者为双向关系
 

3.2. Namesake Resolver

同名的解析器检测并解决同名问题
假设同一个人同一时期很少在同一个机构工作,社交群体也不同
GFAD将从同一个顶点发出的每个非重叠循环视为不同社交环,循环检测器查找途中具有多个社交环的顶点,名称分割器拆分与多个社交环相关联的顶点

3.2.1. Cycle Detector

算法过程:
1. 如果是别的环的子环,则移除该环
2. 检测并合并在正在检测的环中共享同一顶点的环
 
Splitting vertices
沿着最长的非重叠环分割包含

3.2.2. Namesake Splitter

GFAD 是从开始到结束的顶点间没有重复顶点和边的简单环,需要为每个社交圈确定合适的边界。通常,社交圈越宽,将不同的人分到同一个人的可能性越大。
如果BDC 包含相关领域的引用记录,或根据领域构建图,较大的社交圈就不容易出现以上错误
GFAD 将最大的环作为该作者的社交圈,假定,同一个顶点出现在多个最大的社交圈时可能包含同名不同人的作者,因此,我们需要检测每个顶点的最大非重叠环,然后根据这些周期进行顶点分割

3.3. Heteronymous Name Resolver

异名解析器
1. 查找具有相似作者名称,并且相同作者检测器识别表示为同一个人的顶点
2. 异名合并器合并该顶点
 
同一个作者使用不同名字
GFAD 判断具有相似名字的顶点组,如果该组所有成员至少共享一个公共顶点,则将其视为同一个人

3.3.1. similar name searcher

1. GFAD 使用最长公共子序列( LCS ) 方法检测
2. 使用空格和标点符号作为分隔符标记作者名字,并使用LCS 测量相似度
3. 如果两者相似度 > 0.8 则视为相似

3.3.2. same author detector

两个相似名称的顶点直接或间接的连接到图中的公共顶点,则认为两者为同一个人

3.3.3. heteronymous name merger

一旦确定具有相似名称的作者是同一个人,则合并

3.4. Outlier Remover

孤立点:
缺少消歧所需要的元信息
如:在使用合著关系的系统中,只有一个作者的文章就是孤立点
对于使用作者所属组织的系统中,缺少作者所属信息的文章就是孤立点
GFAD 将异常值根据代表性的关键字的相似性度量,将相应顶点与图模型中最相似的顶点合并
 
相似度量:
GFAD 将文章中的词汇构成一个特征向量,将其作为关键词,使用余弦相似度,测量异常值和其相似顶点间的相似度
过程:
1. 从 GM 中寻找没有合著信息的顶点
2. 将其中名字相似的顶点标为孤立点,并且选择出有最高相似度的顶点
3. 将孤立点从 GM 中移除,与有最高相似度的节点合并

4. Experiment

分别对比有或没有异常点移除的步骤的效果
 
孤立点去除将离群点合并成最相似的群,当将单个记录群误解为离群点时,GFAD 性能降低
如何合理的去除离群点?
  • 对比使用了哪些属性,信息缺失是否严重
  • 如何定义相似性阈值
 
 
GFAD-AD: 仅使用共同作者
GFAD-OR:孤立点移除
HHC:使用引用特征的非监督人名消歧
HHC-ALL: 使用所有特征属性(合著者,title,地点)
HHC-CO:仅使用合著者特征
  • 使用所有特征属性(合著者,title,地点)
  • 在 arnet 上比 GFAD 性能好
  • 需要预先定义标题和地址的相似度阈值
  • 选择一个唯一的不变的阈值不太现实
GFAD-AD
  • 仅使用共同作者
当仅使用共同作者属性时,GFAD-AD 在两集合中都优于 HHC-CO

5. GFAD 局限性

不能处理:
1. 两个同名作者有相同名字但不同人的合作者
2. 虽然是同一个人但没有共同合作者
3. 当由单一作者所著时,没有合著者信息
4. 作者个人资料变更(动态变化)

Author name disambiguation using a graph model with node splitting and merging based on bibliographic information的更多相关文章

  1. 推荐系统中的Graph Model

    转自:http://www.cnblogs.com/wentingtu/archive/2012/05/28/2521166.html 推荐中对graph model的研究主要有两个方面,一个是如何构 ...

  2. factor graph model

    主实验 文慧:用户,商品,评分,review,ranking. 数据集:数据规模,论文源代码

  3. Fast Token Replacement in C#

    http://www.codeproject.com/Articles/298519/Fast-Token-Replacement-in-Csharp Fast Token Replacement i ...

  4. 讲座:Influence maximization on big social graph

    Influence maximization on big social graph Fanju PPT链接: social influence booming of online social ne ...

  5. Django文档——Model中的ForeignKey,ManyToManyField与OneToOneField

    关联关系字段 (Relationship fields) ForeignKey,ManyToManyField与OneToOneField分别在Model中定义多对一,多对多,一对一关系. 例如,一本 ...

  6. 论文笔记:Person Re-identification with Deep Similarity-Guided Graph Neural Network

    Person Re-identification with Deep Similarity-Guided Graph Neural Network 2018-07-27 17:41:45 Paper: ...

  7. 【论文笔记】Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition

    Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition 2018-01-28  15:4 ...

  8. [Windows Azure] Using the Graph API to Query Windows Azure AD

    Using the Graph API to Query Windows Azure AD 4 out of 4 rated this helpful - Rate this topic This d ...

  9. DeepLearning - Overview of Sequence model

    I have had a hard time trying to understand recurrent model. Compared to Ng's deep learning course, ...

随机推荐

  1. BZOJ4337:[BJOI2015]树的同构——题解

    https://www.lydsy.com/JudgeOnline/problem.php?id=4337 树是一种很常见的数据结构. 我们把N个点,N-1条边的连通无向图称为树. 若将某个点作为根, ...

  2. React router 4 获取路由参数,跨页面参数

    1. match通过路径 <Route path="/path/:name" component={example} /> 路由组件内获取参数使用 this.props ...

  3. React的getDefaultProps和getInitialState

    getDefaultProps 不是获取默认props,而是设置默认props,主要用在ES5的React写法中getInitialState 不是获取默认State,而是设置初始的state,主要是 ...

  4. bzoj 3673&3674 可持久化并查集&加强版(可持久化线段树+启发式合并)

    CCZ在2015年8月25日也就是初三暑假要结束的时候就已经能切这种题了%%% 学习了另一种启发式合并的方法,按秩合并,也就是按树的深度合并,实际上是和按树的大小一个道理,但是感觉(至少在这题上)更好 ...

  5. 【图论-最短路】【P3393】逃离僵尸岛

    传送门 Description 小a住的国家被僵尸侵略了!小a打算逃离到该国唯一的国际空港逃出这个国家. 该国有N个城市,城市之间有道路相连.一共有M条双向道路.保证没有自环和重边. K个城市已经被僵 ...

  6. uva 11424

    uva 11424 GCD - Extreme (I) 题意:思路:(见http://www.cnblogs.com/Duahanlang/p/3184994.html ) 差别在于数据规模和时间,其 ...

  7. IAR ------ 扩展关键字__weak

    __weak作用:允许多个同名函数同时存在,但是最多只有一个没有__weak修饰.如果有non-weak函数(没__weak修饰),则此函数被使用,否则从__weak修饰的函数中选择其中一个. 下图来 ...

  8. 实体框架(Entity Framework)快速入门

    实体 框架 (Entity Framework )简介 实体框架Entity Framework 是 ADO .NET 中的一组支持 开发 面向数据的软件应用程序的技术.是微软的一个ORM框架. OR ...

  9. linux内网机器如何查看本地外网ip

    参考自:http://www.gaojinbo.com/linux%E5%86%85%E7%BD%91ip%E7%9A%84%E6%9C%BA%E5%99%A8%E5%A6%82%E4%BD%95%E ...

  10. 【Android】Android之Copy and Paste

    Android为复制粘贴提供了一个强大的基于剪切板的框架,它支持简单和复杂的数据类型,包括纯文本,复杂的数据结构,二进制流,甚至app资源文件.简单的文本数据直接存储在剪切板中,而复杂的数据则存储的是 ...