Distant Supervision for relation extraction without labeled data
Distant Supervision for relation extraction without labeled data
远程监督:使用未标注语料做关系抽取
1. 背景:
关系抽取(某个人是否属于某个组织等)
关系抽取中使用的3种方法:
a) 监督学习
优点:准确率很高
缺点:1.手工标注金标语料代价昂贵,时间金钱上需要很大的开销,并且数量受限,得不到大量的训练数据; 2.领域受限,标注都是在一个特定的语料中,训练的系统受限于那个领域
b) 无监督学习
优点:可以使用大规模的数据,抽取出大量的关系
缺点:抽取的结果往往比较难映射到特定的知识库
c) Bootstrap learning
往往有低准确率的问题。
d) 远程监督
使用知识库(freebase)来获取weekly labeled training data。
特点:相比监督学习,使用知识库提供训练数据来取代人工标注获取训练数据,没有过拟合的问题和领域依赖的问题;比起无监督,不用解决聚类结果到关系的映射问题,并且使用大规模的训练数据可以得到丰富的特征。
2. 方法介绍
基本假设: 如果两个实体是某个关系的参与者,任意的一个包含这两个实体的句子都可能表达了这个关系。
训练阶段
- 使用 NET(named entity tagger)标注 persons organizations 和 locations;
- 对在freebase中出现的实体对提取特征,构造训练数据;
- 训练多类别逻辑斯特回归模型。
测试阶段:
- 使用 NET(named entity tagger)标注 persons organizations 和 locations
- 在句子中出现的每对实体都被考虑做为一个潜在的关系实例,作为测试数据
- 使用训练后的模型对实体对分类。
3. 特征选择
3.1. 词汇特征:
a) 两个实体中间的词序列;
b) 这些词的词性标记;
c) 标志位表示哪个实体出现在前面;
d) 大小为k的左窗口;
e) 大小为k的右窗口。
3.2. 句法特征:
a) 两个实体之间的最短依存路径;
b) 两个实体的左右窗口。
3.3. 命名实体tag特征:
人名、地名、组织名和其他
4. 其他注意的地方
连接特征来丢进多类逻辑斯特回归模型。
负例构造:随机选取不在freebase中的实体对(有错误的可能)
训练和测试数据构造:freebase中的关系实例一半用来训练,另一半用来测试。数据使用维基百科数据,2:1的训练和测试数据分配。测试时只对在训练时未出现(不属于训练时的freebase中)的实例对分类。
测试结果选择:对所有实体对分类,并对每对实体对分配一个分类结果的置信度。然后对它们的置信度排序,选取top n。
Distant Supervision for relation extraction without labeled data的更多相关文章
- ACL2019: 《GraphRel: Modeling Text as Relational Graphs for Joint Entity and Relation Extraction》源码解析
论文地址:<GraphRel: Modeling Text as Relational Graphs for Joint Entity and Relation Extraction> G ...
- 少标签数据学习:宾夕法尼亚大学Learning with Few Labeled Data
目录 Few-shot image classification Three regimes of image classification Problem formulation A flavor ...
- Relation Extraction中SVM分类样例unbalance data问题解决 -松弛变量与惩罚因子
转载自:http://blog.csdn.net/yangliuy/article/details/8152390 1.问题描述 做关系抽取就是要从产品评论中抽取出描述产品特征项的target短语以及 ...
- 关系抽取--Relation Extraction: Perspective from Convolutional Neural Networks
一种使用CNN来提取特征的模型,通过CNN的filter的大小来获得不同的n-gram的信息,模型的结构如下所示: 输入 输入使用word2vec的50维词向量,加上 position embeddi ...
- 研究NLP100篇必读的论文---已整理可直接下载
100篇必读的NLP论文 100 Must-Read NLP 自己汇总的论文集,已更新 链接:https://pan.baidu.com/s/16k2s2HYfrKHLBS5lxZIkuw 提取码:x ...
- 【DeepLearning】一些资料
记录下,有空研究. http://nlp.stanford.edu/projects/DeepLearningInNaturalLanguageProcessing.shtml http://nlp. ...
- 卷积神经网络CNN在自然语言处理中的应用
卷积神经网络(Convolution Neural Network, CNN)在数字图像处理领域取得了巨大的成功,从而掀起了深度学习在自然语言处理领域(Natural Language Process ...
- (转) Graph-powered Machine Learning at Google
Graph-powered Machine Learning at Google Thursday, October 06, 2016 Posted by Sujith Ravi, S ...
- Machine Learning and Data Mining(机器学习与数据挖掘)
Problems[show] Classification Clustering Regression Anomaly detection Association rules Reinforcemen ...
随机推荐
- 更换ubuntu apt-get 源
为了优化ubuntu软件安装/更新速度,我测试了国内几家apt源的速度,发现北京交大的apt源速度相对最快,然后可以通过以下步骤更新ubuntu源 1) 备份默认的apt源 $ cd /etc/apt ...
- Ubuntu下删除配置错误或者失败的安装包
aptitude purge $(dpkg -l|grep ^rc|awk '{ print $2 }') 解释:dpkg -l 列出系统中所有安装的软件,如果是已经删除的软件(有残存的配置文件),那 ...
- sqlldr导入数据
直接在cmd输入sqlldr即可,不需要先输sqlplus. 参考链接:每次提交多少行很重要:http://www.cnblogs.com/wingsless/archive/2012/08/04/2 ...
- C++学习45 流成员函数put输出单个字符 cin输入流详解 get()函数读入一个字符
在程序中一般用cout和插入运算符“<<”实现输出,cout流在内存中有相应的缓冲区.有时用户还有特殊的输出要求,例如只输出一个字符.ostream类除了提供上面介绍过的用于格式控制的成员 ...
- CRM IFRAME 显示地图
作者:卞功鑫 ,转载请保留.http://www.cnblogs.com/BinBinGo/p/5274409.html 需要背景: 现在已经有经纬度,需要在地图上显示出来. 环境: CRM 4.0 ...
- [SQL]sql语句中charindex的用法
假如你写过很多程序,你可能偶尔会碰到要确定字符或字符窜串否包含在一段文字中,在这篇文章中,我将讨论使用CHARINDEX和PATINDEX函数来搜索文字列和字符串.我将告诉你这两个函数是如何运转的,解 ...
- nyoj 68 三点顺序
点击打开链接 三点顺序 时间限制:1000 ms | 内存限制:65535 KB 难度:3 描述 现在给你不共线的三个点A,B,C的坐标,它们一定能组成一个三角形,现在让你判断A,B,C是顺时针给 ...
- chrome 修改标签页
插件名称:New Tab Redirect 标签格式:"file:///home/user/index.html"
- css选择器nth-child()和nth-of-type()的应用
<style> .table-striped tbody > tr:nth-child(odd) > td, .table-striped tbody > tr:nth- ...
- IT综合学习网站收集
最近整理了一下曾经使用过的IT从入门到广泛的综合类基础学习网站,记录下来,以便初学者使用: 1.http://www.w3school.com.cn/ 中文版基础在线学习平台 2.http://ww ...