learning to link with wikipedia

一、本文目标:

如何自动识别非结构化文本中提到的主题,并将其链接到适当的Wikipedia文章中进行解释。

二、主要借鉴论文:

Mihalcea and Csomai----Wikify!: linking documents to encyclopedic knowledge

第一步:detection(identifying the terms and phrases from which links should be made):

link probabilities:它作为锚的维基百科文章数量,除以提及它的文章数量。

第二步:disambiguation:从短语和上下文的单词中提取特征。

Medelyan et al.---- Topic Indexing with Wikipedia.

Disambiguation:

Balancing the commonness (or prior probability) of each sense and how the sense relates to its surrounding context.

三、两大步骤:link disambiguation and link detection

Link disambiguation:

Commonness and Relatedness

  1.The commonness of a sense is defined by the number of times it is used as a destination in Wikipedia.

  2.Our algorithm identifies these cases by comparing each possible sense with its surrounding context. This is a cyclic problem because these terms may also be ambiguous

where a and b are the two articles of interest, A and B are the sets of all articles that link to a and b respectively, and W is set of all articles in Wikipedia.

Some context terms are better than others

1.单词The是明确的,因为它只用于链接到文章的语法概念,但是对于消除其他概念的歧义,它没有任何价值。

link probability 可以解决这个问题。很多文章提到the,但没有把它作为链接使用。

  2. 许多上下文术语都是与文档的中心无关的. 我们可以使用Relatedness的度量方法,通过计算一个术语与所有其他上下文术语的平均语义关联,来确定该术语与这个中心线程的关系有多密切。

  

  These two variables—link probability and relatedness—are averaged to provide a weight for each context term.

Combining the features

图中,大多关于“树”是与本文是不相关的,因为该文档显然是关于计算机科学的。如果在上下文不明确或混淆的情况下,则应选择最常用。这在大多数情况下都是正确的。

引入最后一个feature: context quality

This takes into account the number of terms involved, the extent they relate to each other, and how often they are used as Wikipedia links.

the commonness of each sense,its relatedness to the surrounding context,context quality

这三个feature来训练一个分类器。

注:这个分类器并不是为每一项选择最好的词义,而是独立考虑每一种候选,并产生它的概率。

训练阶段需要考虑的问题:参数,分类器。

参数:specifies the minimum probability of senses that are considered by the algorithm.

---- 2%

分类器:C4.5

link detection:

link detection首先收集文档中的所有n-grams,并保留那些概率超过非常低的阈值(这用于丢弃无意义的短语和停止词)。使用分类器消除所有剩余短语的歧义。

1.会有几个链接与之相关的情况。就像Democrats and Democratic Party的情况一样。

2.如果分类器发现多个可能的情况,术语可能指向多个候选。例如,民主党人可以指该党或任何民主的支持者。

Features of these articles are used to inform the classifier about which topics should and should not be linked:

Link Probability

Mihalcea and Csomai’s link probability to recognize the majority of links

引入两个feature: the average and the maximum

the average: expected to be more consistent

the maxinum: be more indicative of links

比如:Democratic Party 比 the party 有更高的链接可能性。

Relatedness

此文中,读者更可能对克林顿、奥巴马和民主党感兴趣,而不是佛罗里达州或密歇根州。

希望与文档中心线相关的主题更有可能被链接。

引入feature:  the average relatedness

between each topic and all of the other candidates.

Disambiguation Confidence

使用分类器的结果作为置信度。

引入两个feature: average and maximum values

Generality

对于读者来说,为他们不知道的主题提供链接要比为那些不需要解释的主题提供链接更有用。

为一个链接定义一个generality表示它位于Wikipedia类别树中的最小深度。

通过从构成Wikipedia组织层次结构根的基本类别开始执行广度优先搜索来计算。

Location and Spread

三个feature: Frequency         first occurrence        last occurrence

第一次和最后一次出现的距离用于体现文档讨论主题的一致性。

  训练阶段唯一要配置的变量是初始链接概率阈值,用于丢弃无意义的短语和停止单词。

--6.5%

四.WIKIFICATION IN THE WILD

Data: Xinhua News Service, the New York Times, and the Associated Press.

论文《learning to link with wikipedia》的更多相关文章

  1. 论文《A Generative Entity-Mention Model for Linking Entities with Knowledge Base》

    A Generative Entity-Mention Model for Linking Entities with Knowledge Base   一.主要方法 提出了一种生成概率模型,叫做en ...

  2. Entity Framework Model First下改变数据库脚本的生成方式

    在Entity Framework Model First下, 一个非常常见的需求是改变数据库脚本的生成方式.这个应用场景是指,当用户在Designer上单击鼠标右键,然后选择Generate Dat ...

  3. Entity Framework的核心 – EDM(Entity Data Model) 一

    http://blog.csdn.net/wangyongxia921/article/details/42061695 一.EnityFramework EnityFramework的全程是ADO. ...

  4. EF,ADO.NET Entity Data Model简要的笔记

    1. 新建一个项目,添加一个ADO.NET Entity Data Model的文件,此文件会生成所有的数据对象模型,如果是用vs2012生的话,在.Designer.cs里会出现“// Defaul ...

  5. Create Entity Data Model

    http://www.entityframeworktutorial.net/EntityFramework5/create-dbcontext-in-entity-framework5.aspx 官 ...

  6. 论文分享|《Universal Language Model Fine-tuning for Text Classificatio》

    https://www.sohu.com/a/233269391_395209 本周我们要分享的论文是<Universal Language Model Fine-tuning for Text ...

  7. Entity Framework Tutorial Basics(5):Create Entity Data Model

    Create Entity Data Model: Here, we are going to create an Entity Data Model (EDM) for SchoolDB datab ...

  8. ASP.NET-MVC中Entity和Model之间的关系

    Entity 与 Model之间的关系图 ViewModel类是MVC中与浏览器交互的,Entity是后台与数据库交互的,这两者可以在MVC中的model类中转换 MVC基础框架 来自为知笔记(Wiz ...

  9. How to: Use the Entity Framework Model First in XAF 如何:在 XAF 中使用EF ModelFirst

    This topic demonstrates how to use the Model First entity model and a DbContext entity container in ...

  10. 创建实体数据模型【Create Entity Data Model】(EF基础系列5)

    现在我要来为上面一节末尾给出的数据库(SchoolDB)创建实体数据模型: SchoolDB数据库的脚本我已经写好了,如下: USE master GO IF EXISTS(SELECT * FROM ...

随机推荐

  1. 使用Merkle树检测数据不一致(翻译)

    背景 Cassandra的逆熵功能使用Merkle树来检测副本之间的数据不一致. 定义 Merkle树是一种哈希树,其中的叶子包含各个数据块的哈希值,父节点包含其各自的子节点的哈希值.它提供了一种有效 ...

  2. ubuntu下打开html页面

    相信遇到这个问题的各位都是闲人,所以肯定是有时间的,网上打开html教程很多,但是就不吐槽了emmm... 详细信息不在此篇幅,网络资源,我就不重复了,看着很烦的,见附录 下面进入正题 这个配置玩过的 ...

  3. cogs 619. [金陵中学2007] 传话 Tarjan强连通分量

    619. [金陵中学2007] 传话 ★★   输入文件:messagez.in   输出文件:messagez.out   简单对比时间限制:1 s   内存限制:128 MB [问题描述] 兴趣小 ...

  4. win10关闭系统更新 (转载)

    一.关闭Windows10系统的自动更新服务 1:使用快捷键Win+R,打开运行 2:输入命令:services.msc,打开系统服务界面 找到Windows Update双击 将启动类型改为[禁用] ...

  5. angularjs路由菜单强制刷新

    在开发过程中遇到使用路由控制单页加载页面时,点击菜单页面不重新刷新的情况,angularjs认为路由没有变化,而不会去刷新页面,解决办法: angular.module('myApp').direct ...

  6. kaggle竞赛分享:NFL大数据碗(上篇)

    kaggle竞赛分享:NFL大数据碗 - 上 竞赛简介 一年一度的NFL大数据碗,今年的预测目标是通过两队球员的静态数据,预测该次进攻推进的码数,并转换为该概率分布: 竞赛链接 https://www ...

  7. 【Flink】Flink作业调度流程分析

    1. 概述 当向Flink集群提交用户作业时,从用户角度看,只需要作业处理逻辑正确,输出正确的结果即可:而不用关心作业何时被调度的,作业申请的资源又是如何被分配的以及作业何时会结束:但是了解作业在运行 ...

  8. 《爬虫学习》(二)(urllib库使用)

    urllib库是Python中一个最基本的网络请求库.可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据. 1.urlopen函数: 在Python3的urllib库中,所有 ...

  9. openpyxl库实现对excel文档进行编辑(追加写入)

    首先,这个库只支持xlsx格式的excel文件 预期,对”excel_test.xlsx“的A1单元格写入”hello word“ 1.安装”openpyxl“库,pip install openpy ...

  10. 终于知道为什么linux文件系统权限是124了

    哈哈,恍然大悟,出自pythonweb开发实战这一本书135页,有兴趣的朋友可以去了解下!