实体关系推理与知识图谱补全

Unsupervised Person Slot Filling based on Graph Mining

  • 作者:Dian Yu, Heng Ji
  • 机构:Computer Science Department, Rensselaer Polytechnic Institute

本文的任务为槽填充(Slot Filling),即从大规模的语料库中抽取给定实体(query)的被明确定义的属性(slot types)的值(slot fillers)。对于此任务,本文叙述目前主流的方法可以分为两类:有监督的分类方法,设计分类器识别给定的实体与值所属的关系类型,分类器的训练往往使用如活动学习、利用距离监督的噪声标注等方法;模式匹配方法,从文本中自动或半自动地抽取和生成词法或句法的模式,以用于关系的抽取,但因为关系所表述的方式千差万别,这种模式匹配方法无法拥有较好的召回率。

本文认为,以上两类方法都无法很好的应对新的语言或是出现新的关系类型的情况,即移植性不强;而且,两种方法都只是专注于实体和候选值之前的平坦表示,并没有考虑到它们之间的全局结构关系,以及语句中其他的关系事实的影响。本文重要的算法思想基于以下两个观察:

  1. 在句子的依存图中,触发词结点(trigger)经常是和实体(query)与值(filler)结点都很相关的,并且是图中的重要节点;
  2. 当实体(query)与值(filler)结点通过一个关系明确的触发词强关联起来,往往意味着存在一定的关系(slot type)。

基于以上两个观察,本文的提出了一种基于图的槽填充的方法:首先,利用简单的启发式规则,从句子中识别出候选实体与属性值;然后,对于给定候选实体与属性值对,利用PageRank图算法和AP(Affinity Propagation)聚类算法自动识别触发词;最后,根据识别的触发词对属性类型(slot type)进行分类。本文主要的思想在于,以属性触发词为切入点进行关系的挖掘,将PageRank算法与AP算法引入其中。候选实体与属性值的识别、属性类型的分类这两个部分使用了启发式的规则与外部的词典资源。

Knowledge Base Completion via Coupled Path Ranking

  • 作者:Quan Wang†, Jing Liu‡, Yuanfei Luo†, Bin Wang†, Chin-Yew Lin‡
  • 机构†:Institute of Information Engineering, Chinese Academy of Sciences
  • 机构‡:Microsoft Research

本文的任务为知识库补全,即通过考察知识库中已经存在的事实,自动推理出丢失的事实。本文叙述这项任务的方法大体分为三种:

  • Path Ranking 算法(PRA),通过连接实体的已有路径来预测实体间的潜在关系;
  • 基于表示学习的模型,将实体和关系映射为空间中的向量,通过空间中向量的运算来进行推理(如TransE);
  • 概率图模型,如马尔科夫逻辑网络及其衍生物。

由于PRA方法具有较好的解释性,并且不需要额外的逻辑规则,本文主要使用PRA方法对其改进。在利用PRA进行关系推理时,以往的方法都是在推理阶段,利用PRA为每个关系独立建模,也就是为每个关系学习一个独立的分类器。

本文的初衷是:如果使用PRA对某些关系集体建模是否会得到更好的效果,尤其是当这些关系彼此紧密联系的时候,比如,“出生”和“生长于”这两个关系极有可能共同拥有一些关系路径:“国籍->首都”等。很多研究表明这种多任务学习相比单任务学习而言,往往具有更好的效果。本文提出CPRA的方法,该方法所要解决两个问题:(1)哪些关系需要组合在一起学习?(2)如何组合在一起学习?

Commonsense Knowledge Base Completion

  • 作者:Xiang Li∗‡ Aynaz Taheri† Lifu Tu‡ Kevin Gimpel‡
  • 机构∗:University of Chicago
  • 机构†:University of Illinois at Chicago
  • 机构‡:Toyota Technological Institute at Chicago

本文的任务是常识知识库的补全工作,即根据已有的知识推理预测概念之间心的知识。不同于一般的知识库,如FreeBase,常识知识库ConceptNet的结点主要为短语,而非实体。本文利用神经网络的方法将ConceptNet中词项向量话表示,对于给定的元组进行打分以获得置信度较高的元组用以补全。

Compositional Learning of Embeddings for Relation Paths in Knowledge Bases and Text

  • 作者:Kristina Toutanova, Xi Victoria Lin∗, Wen-tau Yih, Hoifung Poon, Chris Quirk
  • 机构:Microsoft Research
  • 机构∗:University of Washington

本文的任务为知识图谱补全,推理预测实体间潜在的关系。本文叙述,当前的一些学者将关系路径信息融入到知识库嵌入式表示中,取得了非常显著的结果。知识库嵌入式表示,指的是将知识库中实体和关系映射到低维稠密的空间中,知识的推理转化为实体与关系所关联的向量或矩阵之间的运算。这种嵌入式的表示,操作花销较小,推理的效率较高。为了进一步提升基于嵌入式表示的关系推理,一些学者将关系路径信息融入其中。

本文发现,目前的将关系路径融入知识库的嵌入式表示方法存在如下问题:首先,当关系的路径总类增多时,时间开销较大,严重影响推理的效率;另外,目前的方法只考虑了路径信息,没有考虑结点的信息,即使是相同路径,包含不同结点也拥有不同的信息。本文提出了一种动态编程的方法,可以高效地将关系路径融入到知识库的嵌入式表示,并且同时对路径上的关系类型和结点进行表示。

TransG : A Generative Model for Knowledge Graph Embedding

  • 作者:Han Xiao, Minlie Huang∗, Xiaoyan Zhu
  • 机构:State Key Lab. of Intelligent Technology and Systems National Lab. for Information Science and Technology
  • 机构∗:Dept. of Computer Science and Technology Tsinghua University

本文的任务为知识图谱表示学习,旨在将知识图谱映射到低维稠密的向量空间里。与以往研究工作不同,本文将目光聚焦于“多语义关系”,即同一名相的关系可能具有不同的语义含义,如对于关系“HasPart”,对于实体“桌子”和“桌腿”有这种关系,对于“英国”和“伦敦”也同样具有这样的关系,但二者所表达的含义却不尽相同。

不止于感性层面上,本文对TransE的知识图谱向量表示进行可视化(PCA降维):抽取四种不同关系,将具有给定关系的实体对向量相减(据TransE思想,可以得到关系的向量),将结果向量展示在二维空间里。理想情况下,对于每个关系应该只和一个簇对应,但真实的结果是每个关系不止一个簇,而是多个明显分开的簇。这也从另一个角度说明了关系的多语义性质。

针对这一问题,本文提出贝叶斯非参数混合嵌入式表示模型,TransG。TransG可以自动发现关系的多语义簇,并且利用关系的混合语义对实体对进行翻译操作,以进行关系推理。

实体链指

A Multi-media Approach to Cross-lingual Entity Knowledge Transfer

  • 作者:Di Lu1, Xiaoman Pan1, Nima Pourdamghani2, Shih-Fu Chang3, Heng Ji1, Kevin Knight2
  • 机构1:Computer Science Department, Rensselaer Polytechnic Institute
  • 机构2:Information Sciences Institute, University of Southern California
  • 机构3:Electrical Engineering Department, Columbia University

文本的任务为low-resource语言(LLs)的实体识别,即从LLs的文本中发现实体。在某些情况下,如突发事件以及自然灾害发生时,我们经常需要构建一个LLs的信息抽取工具。对于LLs的信息抽取,其主要的挑战在于缺乏目标语言的标注数据以及相应的语言处理工具,一个较为认可的解决方案是:从high-resource语言(HLs)(如英语)文本中抽取信息,并进行知识映射。

对于突发事件的发生,在LLs和HLs中往往存在着大量的非并发的、领域丰富的、主题相关的文本语料,如社交媒体。但是如果没有高效的机器翻译技术,即使在HLs中识别出信息也是无济于事。本文发现,在这些文档中常常存在着大量的媒体数据,这些媒体数据在不同的语言上往往是相似的,如图片、视频,即语言独立的。

基于这个启发,本文以图片为枢纽自动发现内容相似的LLS和HLs文档数据,然后在HLs文档中进行实体识别与链指,最后借助多媒体的相关技术将结果映射到LLs。基于这个思想,本文提出两个组件:名称标注、跨语言实体链指(CLEL)。

总体框架包含两个步骤:(1)应用语言独立的关键短语抽取方法对LLs文档进行处理,利用这些短语搜索出种子图片,用于进一步检索相关图片以及包含这些图片的HLs文档;(2)从HLs文档中抽取知识,设计知识迁移的方法精炼LLs文档的抽取结果。

Alleviating Poor Context with Background Knowledge for Named Entity Disambiguation

  • 作者:Ander Barrena, Aitor Soroa, Eneko Agirre
  • 机构:IXA NLP Group, UPV/EHU University of the Basque Country

本文的任务为实体消歧,即将文本中的名相实体链接到知识库中的实体实例。本文叙述,目前的实体链指的工作方法主要分为两类:(1)mention模型,通过先验概率对可能的实体进行排序;(2)上下文模型,从上下文中抽取特征,进行实体的链指。另外,最近有提出利用上下文中共现的实体来确定目标实体的链指。

本文发现了以往方法受到低质量上下文的影响导致链接失败,很多情况下,上下文所提供的线索很弱或是有误导的可能。本文引入了背景知识来缓解低质量上下文的问题。本文主要引入了两部分背景知识:(1)和目标实体具有相似分布的实体(本文利用word2vec);(2)利用上下文的句法依存关系,引入依存的偏好,如上下文中的“visit to”和目标实体有动宾关系,与“visit to”具有动宾关系的主要是地名,所以目标实体很可能是地名。

因果推断

Identifying Causal Relations Using Parallel Wikipedia Articles

  • 作者:Kathleen McKeown, Christopher Hidey
  • 机构:Department of Computer Science, Columbia University

本文的任务为识别句中指示因果关系的短语,并对其进行份分类。因果关系的检测是一项十分困难的任务。首先,大多数的因果关系都是隐式表达的,这需要一些背景知识进行推理才能得知;其次,即使对于显式表达的因果,其表达的方式也是多种多样。在PDTB中,有102种显式语篇关系makers,其中有28种指示因果关系,如“because”、“as a result”等。PDTB的研究学者发现了开放的makers存在,将其称为Altlex,其中指示因果关系的包括如“This may help explain why”、“This activity produced”等开放式的表达方式。对于因果关系,显示maker s可以以较高的准确率被识别,但却很少;隐式makers较多的存在于语句中,但不易识别,Altlex则介于这二者之间:由于其变化多样,所以识别起来较为困难,但Altlex的出现也使得因果关系的识别情况可以有提升空间。

数据的缺失是因果识别的关键问题。无监督学习的准确率较低,而监督学习又需要大量的训练数据已达到较高的找汇率。本文利用维基百科平行语料识别出新的因果关系makers,这些makers也是已知makers的变种,进而通过距离监督创造训练语料。利用开放的makers和上下文特征训练出因果分类器。

ACL2016信息抽取与知识图谱相关论文掠影的更多相关文章

  1. 知识图谱+Recorder︱中文知识图谱API与工具、科研机构与算法框架

    目录 分为两个部分,笔者看到的知识图谱在商业领域的应用,外加看到的一些算法框架与研究机构. 文章目录 @ 一.知识图谱商业应用 01 唯品金融大数据 02 PlantData知识图谱数据智能平台 03 ...

  2. Atitit 知识图谱的数据来源

    Atitit 知识图谱的数据来源   2. 知识图谱的数据来源1 a) 百科类数据2 b) 结构化数据3 c) 半结构化数据挖掘AVP (垂直站点爬虫)3 d) 通过搜索日志(query record ...

  3. 1. 通俗易懂解释知识图谱(Knowledge Graph)

    1. 通俗易懂解释知识图谱(Knowledge Graph) 2. 知识图谱-命名实体识别(NER)详解 3. 哈工大LTP解析 1. 前言 从一开始的Google搜索,到现在的聊天机器人.大数据风控 ...

  4. [知识图谱]Neo4j知识图谱构建(neo4j-python-pandas-py2neo-v3)

    neo4j-python-pandas-py2neo-v3 利用pandas将excel中数据抽取,以三元组形式加载到neo4j数据库中构建相关知识图谱 Neo4j知识图谱构建 1.运行环境: pyt ...

  5. 百度大脑UNIT3.0详解之知识图谱与对话

    如今,越来越多的企业想要在电商客服.法律顾问等领域做一套包含行业知识的智能对话系统,而行业或领域知识的积累.构建.抽取等工作对于企业来说是个不小的难题,百度大脑UNIT3.0推出「我的知识」版块专门为 ...

  6. 知识图谱如何运用于RecomSys

    将知识图谱作为辅助信息引入到推荐系统中可以有效地解决传统推荐系统存在的稀疏性和冷启动问题,近几年有很多研究人员在做相关的工作.目前,将知识图谱特征学习应用到推荐系统中主要通过三种方式——依次学习.联合 ...

  7. 知识图谱实体对齐1:基于平移(translation)的方法

    1 导引 在知识图谱领域,最重要的任务之一就是实体对齐 [1](entity alignment, EA).实体对齐旨在从不同的知识图谱中识别出表示同一个现实对象的实体.如下图所示,知识图谱\(\ma ...

  8. 我发起了一个 .Net 平台上的 开源项目 知识图谱 Babana Map 和 文本文件搜索引擎 Babana Search

    起因 也是 前几天 有 网友 在 群 里发了   知识图谱   相关的文章, 还有 有 网友 问起   NLog -> LogStash -> Elastic Search  的 问题, ...

  9. 知识图谱-生物信息学-医学论文(BMC Bioinformatics-2022)-挖掘阿尔茨海默病相关KG来确定潜在的相关语义三元组用于药物再利用

    论文标题: Mining On Alzheimer's Diseases Related Knowledge Graph to Identity Potential AD-related Semant ...

随机推荐

  1. MSMQ队列学习记录

    微软消息队列-MicroSoft Message Queue(MSMQ) 使用感受:简单. 一.windows安装MSMQ服务 控制面板->控制面板->所有控制面板项->程序和功能- ...

  2. 【Spark2.0源码学习】-4.Master启动

         Master作为Endpoint的具体实例,下面我们介绍一下Master启动以及OnStart指令后的相关工作   一.脚本概览      下面是一个举例: /opt/jdk1..0_79/ ...

  3. sqoop关系型数据迁移原理以及map端内存为何不会爆掉窥探

    序:map客户端使用jdbc向数据库发送查询语句,将会拿到所有数据到map的客户端,安装jdbc的原理,数据全部缓存在内存中,但是内存没有出现爆掉情况,这是因为1.3以后,对jdbc进行了优化,改进j ...

  4. [进程管理]linux 下 进程和线程的区别(baidu 面试)

    进程是程序执行时的一个实例,即它是程序已经执行到课中程度的数据结构的汇集.从内核的观点看,进程的目的就是担当分配系统资源(CPU时间.内存等)的基本单位. 线程是进程的一个执行流,是CPU调度和分派的 ...

  5. PHP 安装 Xdebug 扩展(一)

    一.前言 1. Xdebug 简介 Xdebug 是一个开放源代码的 PHP 程序调试器(即一个Debug工具),可以用来跟踪,调试和分析PHP程序的运行状况.当前最新版本为 Xdebug 2.5.0 ...

  6. Android VideoView使用小记

    在Android中播放视频一般采用VideoView,当然也可以自己使用MediaPlayer+SurfaceView,但是比较麻烦.这里记录一些我使用VideoView时的疑惑 1.如何监听播放完成 ...

  7. 一句话告诉你JQuery $(this)到底指的是什么,怎么用

    看了网上好多关于jquery $(this)的解释,感觉都说的很模糊. 下面说出我自己的理解. this表示的是当前对象,下面以例子来说明 <!DOCTYPE html> <html ...

  8. Python学习之路-Day2-Python基础2

    Python学习之路第二天 学习内容: 1.模块初识 2.pyc是什么 3.python数据类型 4.数据运算 5.bytes/str之别 6.列表 7.元组 8.字典 9.字符串常用操作 1.模块初 ...

  9. hdu4463 Outlets 最小生成树

    题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=4463 很裸的一道题目,稍微处理一下输入即可 代码: #include<iostream> ...

  10. [UWP]实用的Shape指南

    在UWP UI系统中,使用Shape是绘制2D图形最简单的方式,小到图标,大到图表都用到Shape的派生类,可以说有举足轻重的地位.幸运的是从Silverlight以来Shape基本没有什么大改动,简 ...