Distant Supervision for relation extraction without labeled data

Dream_Fish 2024-10-20 14:32:00 原文

Distant Supervision for relation extraction without labeled data

远程监督：使用未标注语料做关系抽取

1. 背景：

关系抽取（某个人是否属于某个组织等）

关系抽取中使用的3种方法：

a) 监督学习

优点：准确率很高

缺点：1.手工标注金标语料代价昂贵，时间金钱上需要很大的开销，并且数量受限，得不到大量的训练数据; 2.领域受限，标注都是在一个特定的语料中，训练的系统受限于那个领域

b) 无监督学习

优点：可以使用大规模的数据，抽取出大量的关系

缺点：抽取的结果往往比较难映射到特定的知识库

c) Bootstrap learning

往往有低准确率的问题。

d) 远程监督

使用知识库（freebase）来获取weekly labeled training data。

特点：相比监督学习，使用知识库提供训练数据来取代人工标注获取训练数据，没有过拟合的问题和领域依赖的问题；比起无监督，不用解决聚类结果到关系的映射问题，并且使用大规模的训练数据可以得到丰富的特征。

2. 方法介绍

基本假设： 如果两个实体是某个关系的参与者，任意的一个包含这两个实体的句子都可能表达了这个关系。

训练阶段

使用 NET（named entity tagger）标注 persons organizations 和 locations；
对在freebase中出现的实体对提取特征，构造训练数据；
训练多类别逻辑斯特回归模型。

测试阶段：

使用 NET（named entity tagger）标注 persons organizations 和 locations
在句子中出现的每对实体都被考虑做为一个潜在的关系实例，作为测试数据
使用训练后的模型对实体对分类。

3. 特征选择

3.1. 词汇特征：

a) 两个实体中间的词序列；

b) 这些词的词性标记；

c) 标志位表示哪个实体出现在前面；

d) 大小为k的左窗口；

e) 大小为k的右窗口。

3.2. 句法特征：

a) 两个实体之间的最短依存路径；

b) 两个实体的左右窗口。

3.3. 命名实体tag特征：

人名、地名、组织名和其他

4. 其他注意的地方

连接特征来丢进多类逻辑斯特回归模型。

负例构造：随机选取不在freebase中的实体对（有错误的可能）

训练和测试数据构造：freebase中的关系实例一半用来训练，另一半用来测试。数据使用维基百科数据，2:1的训练和测试数据分配。测试时只对在训练时未出现（不属于训练时的freebase中）的实例对分类。

测试结果选择：对所有实体对分类，并对每对实体对分配一个分类结果的置信度。然后对它们的置信度排序，选取top n。

Distant Supervision for relation extraction without labeled data的更多相关文章

ACL2019: 《GraphRel: Modeling Text as Relational Graphs for Joint Entity and Relation Extraction》源码解析
论文地址:<GraphRel: Modeling Text as Relational Graphs for Joint Entity and Relation Extraction> G ...
少标签数据学习：宾夕法尼亚大学Learning with Few Labeled Data
目录 Few-shot image classification Three regimes of image classification Problem formulation A flavor ...
Relation Extraction中SVM分类样例unbalance data问题解决 -松弛变量与惩罚因子
转载自:http://blog.csdn.net/yangliuy/article/details/8152390 1.问题描述做关系抽取就是要从产品评论中抽取出描述产品特征项的target短语以及 ...
关系抽取--Relation Extraction: Perspective from Convolutional Neural Networks
一种使用CNN来提取特征的模型,通过CNN的filter的大小来获得不同的n-gram的信息,模型的结构如下所示: 输入输入使用word2vec的50维词向量,加上 position embeddi ...
研究NLP100篇必读的论文---已整理可直接下载
100篇必读的NLP论文 100 Must-Read NLP 自己汇总的论文集,已更新链接:https://pan.baidu.com/s/16k2s2HYfrKHLBS5lxZIkuw 提取码:x ...
【DeepLearning】一些资料
记录下,有空研究. http://nlp.stanford.edu/projects/DeepLearningInNaturalLanguageProcessing.shtml http://nlp. ...
卷积神经网络CNN在自然语言处理中的应用
卷积神经网络(Convolution Neural Network, CNN)在数字图像处理领域取得了巨大的成功,从而掀起了深度学习在自然语言处理领域(Natural Language Process ...
(转) Graph-powered Machine Learning at Google
Graph-powered Machine Learning at Google Thursday, October 06, 2016 Posted by Sujith Ravi, S ...
Machine Learning and Data Mining（机器学习与数据挖掘）
Problems[show] Classification Clustering Regression Anomaly detection Association rules Reinforcemen ...

随机推荐

JAVA 一个特殊的类 Object
一个特殊的类Object:它是java中所有对象的直接或间接父类,根父类(基类),它里面定义的功能是所有对象都应该具备的(所有的类,都是继承这个类的) 记住:当定义一个新类时,没有指明要继承某类,它默 ...
深入研究java.lang.ThreadLocal类(转)
引用:http://lavasoft.blog.51cto.com/62575/51926/ 一.概述 ThreadLocal是什么呢?其实ThreadLocal并非是一个线程的本地实现版本,它并 ...
URL编码CFURLCreateStringByAddingPercentEscapes使用(ARC)
URL 编码:CFURLCreateStringByAddingPercentEscapes If you have tried to send any information using a GET ...
KVC , KVO , KVB
来源:http://www.cnblogs.com/jay-dong/archive/2012/12/13/2815778.html 熟悉oc语法的同学也许都会懂得这么一点:在oc中,类的成员变量或是 ...
eclips中增加对jar包的引用
http://jingyan.baidu.com/article/ca41422fc76c4a1eae99ed9f.html
去掉 input type="number" 右边图标
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...
查看maven项目的依赖关系 mvn dependency:tree
maven-dependency-plugin最大的用途是帮助分析项目依赖,dependency:list能够列出项目最终解析到的依赖列表,dependency:tree能进一步的描绘项目依赖树,de ...
针对android方法数64k的限制，square做出的努力。精简protobuf
1.早期的Dalvik VM内部使用short类型变量来标识方法的id,dex限制了程序的最大方法数是65535,如果超过最大限制,无法编译,把dex.force.jumbo=true添加到proje ...
Spark On Yarn：提交Spark应用程序到Yarn
转载自:http://lxw1234.com/archives/2015/07/416.htm 关键字:Spark On Yarn.Spark Yarn Cluster.Spark Yarn Clie ...
带你快速了解CODESOFT 2015
CODESOFT是知名的条码标签设计打印软件,现在又推出了最新版CODESOFT 2015,其新功能.大改进让人为之一振.下面跟随小编的脚步,走进CODESOFT 2015,看一看CODESOFT 2 ...