Entity Linking with Effective Acronym Expansion, Instance Selection and Topic Modeling

一.主要贡献

1. propose a supervised learning algorithm to expand more complicated acronyms

2. propose an instance selection strategy to effectively utilize the automatically generated annotation

3. effectively capturing the semantic information between document and KB entry by a topic model.

二.相关介绍

实体链接主要包括查找名称变体和消歧。

名称变体查找阶段

从上下文展开一个缩略词,可以有效地减少缩略词提到的歧义。例如,TSE在Wikipedia中引用33个条目,但其全名Tokyo Stock Exchange,这是明确的,我们可以直接链接到正确的条目,而不需要消除歧义。

本文采用字符串匹配的方式生成候选实体。

名称消歧阶段

通过在向量空间模型中对KB中的条目进行排序。

本文通过ranking SVM对每个候选实体打分,选出最高的分数的实体,再通过二分类器,决定这个分数最高的应不应该被链接。

三.Acronym Expansion

1. 首先,将模式A中找到的所有字符串添加到候选集合C中。接下来,我们找到“(A)”的模式,并提取“(A)”之前的最长连续令牌序列E,该序列不包含标点或不超过2个停止字。

Eg: John received an award from the Association for Computing Machinery (ACM).

E = the Association for Computing Machinery.

我们将E和它的所有子字符串(结尾和E一致)到C。

the Association for Computing Machinery, Association for Computing Machinery, for Computing Machinery, Computing Machinery and Machinery.

2. 在文档中搜索其首字母与首字母缩写词匹配的所有标记。

Eg: the Association for Computing Machinery has granted the….

对于ACM, E = Association for Computing Machinery has

同时把和开头一致的子字符串加入C.

Assoc… Machinery has, Assoc… Machinery, Assoc… Computing, Association

3. 交换缩略语字母和完全小写的展开

Eg: Communist Party of China (CCP)

四.Instance Selection Strategy

《Entity Linking Leveraging Automatically Generated Annotation》之前为实体链接生成大型训练实例。

基本思想: take a document with an unambiguous mention referring to an entity e1 in KB and replace it with its variation which may refer to e1, e2 or others。

the distribution of the auto-generated data is not consistent with the real data set

提出一种instance selection strategy。

本文使用SVM分类器从自动生成的数据集中进行选择,实例到超平面的距离作为指标。

    

五.Incorporating Semantic Feature

以前的方法将提及的上下文视为bow、n-gram、名词短语或命名实体组成,并通过加权的文字术语向量的比较来度量上下文相似性.

缺点:缺乏语义信息和稀疏性问题。

        ↓

引入一个topic model,通过使用LDA实体链接,以发现文档和KB的基础主题。

六.Experiments

论文《Entity Linking with Effective Acronym Expansion, Instance Selection and Topic Modeling》的更多相关文章

  1. 论文《A Generative Entity-Mention Model for Linking Entities with Knowledge Base》

    A Generative Entity-Mention Model for Linking Entities with Knowledge Base   一.主要方法 提出了一种生成概率模型,叫做en ...

  2. Entity Framework Model First下改变数据库脚本的生成方式

    在Entity Framework Model First下, 一个非常常见的需求是改变数据库脚本的生成方式.这个应用场景是指,当用户在Designer上单击鼠标右键,然后选择Generate Dat ...

  3. Entity Framework的核心 – EDM(Entity Data Model) 一

    http://blog.csdn.net/wangyongxia921/article/details/42061695 一.EnityFramework EnityFramework的全程是ADO. ...

  4. EF,ADO.NET Entity Data Model简要的笔记

    1. 新建一个项目,添加一个ADO.NET Entity Data Model的文件,此文件会生成所有的数据对象模型,如果是用vs2012生的话,在.Designer.cs里会出现“// Defaul ...

  5. Create Entity Data Model

    http://www.entityframeworktutorial.net/EntityFramework5/create-dbcontext-in-entity-framework5.aspx 官 ...

  6. 论文分享|《Universal Language Model Fine-tuning for Text Classificatio》

    https://www.sohu.com/a/233269391_395209 本周我们要分享的论文是<Universal Language Model Fine-tuning for Text ...

  7. Entity Framework Tutorial Basics(5):Create Entity Data Model

    Create Entity Data Model: Here, we are going to create an Entity Data Model (EDM) for SchoolDB datab ...

  8. ASP.NET-MVC中Entity和Model之间的关系

    Entity 与 Model之间的关系图 ViewModel类是MVC中与浏览器交互的,Entity是后台与数据库交互的,这两者可以在MVC中的model类中转换 MVC基础框架 来自为知笔记(Wiz ...

  9. How to: Use the Entity Framework Model First in XAF 如何:在 XAF 中使用EF ModelFirst

    This topic demonstrates how to use the Model First entity model and a DbContext entity container in ...

  10. 创建实体数据模型【Create Entity Data Model】(EF基础系列5)

    现在我要来为上面一节末尾给出的数据库(SchoolDB)创建实体数据模型: SchoolDB数据库的脚本我已经写好了,如下: USE master GO IF EXISTS(SELECT * FROM ...

随机推荐

  1. .Net Core使用分布式缓存Redis:Lua脚本

    一.前言 运行环境window,redis版本3.2.1.此处暂不对Lua进行详细讲解,只从Redis的方面讲解. 二.Redis的Lua脚本 在Redis的2.6版本推出了脚本功能,允许开发者使用L ...

  2. HTTP1.1

    读了一本图解http,总结一下子. 1 .重要的头部   1.TCP/IP 通信传输流 五层模型 先盗个图,重点说明每过一层都会加个头,头很重要啊!其中https 就是在传输层搞事,把本来明文的数据包 ...

  3. Scala 学习(3)之「类——基本概念1」

    类 小提示:可以通过:paste进入 Scala 的多行模式,输入对应的代码块之后,按ctrl + D退出多行模式,然后再调用刚才输入的函数或者方法进行测试 //定义类,包含 field 以及方法 c ...

  4. 容器环境的JVM内存设置最佳实践

    Docker和K8S的兴起,很多服务已经运行在容器环境,对于java程序,JVM设置是一个重要的环节.这里总结下我们项目里的最佳实践. Java Heap基础知识 默认情况下,jvm自动分配的heap ...

  5. 区间 dp

    以一个经典题目引入到正题 : 有 n 堆石子 , 每两堆石子合并会花费一定的价值,所花费的价值即为 两堆石子上的价值和 , 问合并所有的石子后的最小花费 ? 思路分析 : 因为题干可以看成是对每个区间 ...

  6. C++读书笔记

    C与C++的不同点 C++在struct,union中定义的函数叫成员函数,在class中定义的数据叫数据成员 C++引入了三个存取权限的关键字:public,protected,private pu ...

  7. 9.Java三大版本以及JDK,JRE,JVM简单介绍

    Write Once,Run Anywhere. JavaSE:标准版(桌面程序,控制台开发...),是Java的基础和核心. JavaME:嵌入式开发(手机,小家电...),现在基本不用已经过时. ...

  8. spring boot 的中文乱码

    首先 自检IDEA的编码 配置文件加入设置http tomcat spring.http.encoding.force=true spring.http.encoding.charset=UTF-8 ...

  9. Win10如何关闭最近使用文件夹

    如果默认开启了最近使用文件夹功能的话,最近浏览的文件就会被记录下来.所以看完各种教学资料后,并不是关掉或者重启别人就不知道你看了什么. 方法一: Win10怎么关闭最近使用文件夹 如何清理使用痕迹 从 ...

  10. [计算几何+图论]doge

    题意 在平面直角坐标系上,你有一只doge在原点处.doge被绳子拴住了,绳子不会打结,没有弹性(但很柔软),并且长度为L.平面上有一些目标,因此你的doge会按照顺序去捡起它们,但是doge只能走直 ...