Distant Supervision for relation extraction without labeled data

Dream_Fish 2024-10-20 14:32:00 原文

Distant Supervision for relation extraction without labeled data

远程监督：使用未标注语料做关系抽取

1. 背景：

关系抽取（某个人是否属于某个组织等）

关系抽取中使用的3种方法：

a) 监督学习

优点：准确率很高

缺点：1.手工标注金标语料代价昂贵，时间金钱上需要很大的开销，并且数量受限，得不到大量的训练数据; 2.领域受限，标注都是在一个特定的语料中，训练的系统受限于那个领域

b) 无监督学习

优点：可以使用大规模的数据，抽取出大量的关系

缺点：抽取的结果往往比较难映射到特定的知识库

c) Bootstrap learning

往往有低准确率的问题。

d) 远程监督

使用知识库（freebase）来获取weekly labeled training data。

特点：相比监督学习，使用知识库提供训练数据来取代人工标注获取训练数据，没有过拟合的问题和领域依赖的问题；比起无监督，不用解决聚类结果到关系的映射问题，并且使用大规模的训练数据可以得到丰富的特征。

2. 方法介绍

基本假设： 如果两个实体是某个关系的参与者，任意的一个包含这两个实体的句子都可能表达了这个关系。

训练阶段

使用 NET（named entity tagger）标注 persons organizations 和 locations；
对在freebase中出现的实体对提取特征，构造训练数据；
训练多类别逻辑斯特回归模型。

测试阶段：

使用 NET（named entity tagger）标注 persons organizations 和 locations
在句子中出现的每对实体都被考虑做为一个潜在的关系实例，作为测试数据
使用训练后的模型对实体对分类。

3. 特征选择

3.1. 词汇特征：

a) 两个实体中间的词序列；

b) 这些词的词性标记；

c) 标志位表示哪个实体出现在前面；

d) 大小为k的左窗口；

e) 大小为k的右窗口。

3.2. 句法特征：

a) 两个实体之间的最短依存路径；

b) 两个实体的左右窗口。

3.3. 命名实体tag特征：

人名、地名、组织名和其他

4. 其他注意的地方

连接特征来丢进多类逻辑斯特回归模型。

负例构造：随机选取不在freebase中的实体对（有错误的可能）

训练和测试数据构造：freebase中的关系实例一半用来训练，另一半用来测试。数据使用维基百科数据，2:1的训练和测试数据分配。测试时只对在训练时未出现（不属于训练时的freebase中）的实例对分类。

测试结果选择：对所有实体对分类，并对每对实体对分配一个分类结果的置信度。然后对它们的置信度排序，选取top n。

Distant Supervision for relation extraction without labeled data的更多相关文章

ACL2019: 《GraphRel: Modeling Text as Relational Graphs for Joint Entity and Relation Extraction》源码解析
论文地址:<GraphRel: Modeling Text as Relational Graphs for Joint Entity and Relation Extraction> G ...
少标签数据学习：宾夕法尼亚大学Learning with Few Labeled Data
目录 Few-shot image classification Three regimes of image classification Problem formulation A flavor ...
Relation Extraction中SVM分类样例unbalance data问题解决 -松弛变量与惩罚因子
转载自:http://blog.csdn.net/yangliuy/article/details/8152390 1.问题描述做关系抽取就是要从产品评论中抽取出描述产品特征项的target短语以及 ...
关系抽取--Relation Extraction: Perspective from Convolutional Neural Networks
一种使用CNN来提取特征的模型,通过CNN的filter的大小来获得不同的n-gram的信息,模型的结构如下所示: 输入输入使用word2vec的50维词向量,加上 position embeddi ...
研究NLP100篇必读的论文---已整理可直接下载
100篇必读的NLP论文 100 Must-Read NLP 自己汇总的论文集,已更新链接:https://pan.baidu.com/s/16k2s2HYfrKHLBS5lxZIkuw 提取码:x ...
【DeepLearning】一些资料
记录下,有空研究. http://nlp.stanford.edu/projects/DeepLearningInNaturalLanguageProcessing.shtml http://nlp. ...
卷积神经网络CNN在自然语言处理中的应用
卷积神经网络(Convolution Neural Network, CNN)在数字图像处理领域取得了巨大的成功,从而掀起了深度学习在自然语言处理领域(Natural Language Process ...
(转) Graph-powered Machine Learning at Google
Graph-powered Machine Learning at Google Thursday, October 06, 2016 Posted by Sujith Ravi, S ...
Machine Learning and Data Mining（机器学习与数据挖掘）
Problems[show] Classification Clustering Regression Anomaly detection Association rules Reinforcemen ...

随机推荐

JConsole connection failed
最近用jconsole本地连接eclipse失败 , 如下图 : 在eclipse.ini中添加如下代码即可 -Dcom.sun.management.jmxremote.port=9999-Dcom ...
purple-class2-默认选项切换
ylbtech-class:purple-class2 A, 返回顶部 1,默认选项切换 #region 默认选项切换 public delegate IList<SelectListItemI ...
SyntaxError: Non-UTF-8 code starting with '\xba' in file 错误的解决方法！！
第一次在Eclipse建立python工程,添加了自己新建的文件,写了一点代码,随后执行时候出现了错误,和昨天我在Visual Studio 2015里面一样,错误: SyntaxError: Non ...
庭审精彩语录整理 z
公诉人:用百度搜索淫秽关键字+快播,搜索结果得出超过4200万结果,可见快播在传播淫秽视频方面的巨大影响.王欣:这个没有任何意义,您可以用百度搜索淫秽关键字+QQ看有多少结果. 新浪科技讯 1月8日下 ...
立体匹配：关于OpenCV读写middlebury网站的给定的视差并恢复三维场景的代码
Middlebury是每个研究立体匹配算法的人不可能不使用的网站,Middlebury提供了许多标准的测试库,这极大地推进了立体匹配算法的进展.Middlebury提供的标准库,其计算出的视差保存在后 ...
[ASP.NET]ASP.NET数据绑定菜单控件
public void BindMenu(Menu mn,MenuItem menu,string mainMenu,string sql) { MenuItem mitem = null; DB d ...
DDL(Oracle)
DDL 数据定义建表建视图建其他 drop create table t (a varchar2 (10));可变字符串最大为10 transaction - ...
Sqool与kettle开源的ETL工具
现在的ETL都是基于管道的模式(数据流)运行,比较有名的有 TaskCTL ========================================== 数据抽取的开源工具一个是RDBMS ...
win7设置防火墙允许Ping与telnet
Ping: 打开控制面板 >> 系统安全 >> windows防火墙 >> 高级设置 >> 入站规则
Memcached、Redis和MongoDB的区别
Memcached和Redis都是内存数据库. Memcached是多线程运行的: Redis单线程是单线程运行的: MongoDB是文档型的非关系型数据库..Net:RavenDB.