本文来自于一次交流的的记录,{}内的为个人体会. 基本概念 实事知识:实体-关系-实体的三元组.比如, 知识图谱:大量实时知识组织在一起,可以构建成知识图谱. 关系抽取:由于文本中蕴含大量事实知识,需要从非结构化文本中自动地抽取出事实知识 完整的关系抽取抽取系统包括以下,其中,关系分类最核心 命名实体识别 (Named Entity Recongnition, NER) 实体链接 (Entity Linking) 关系分类 (Relation Classification) 关系抽取的任务难点…
  去年,笔者写过一篇文章利用关系抽取构建知识图谱的一次尝试,试图用现在的深度学习办法去做开放领域的关系抽取,但是遗憾的是,目前在开放领域的关系抽取,还没有成熟的解决方案和模型.当时的文章仅作为笔者的一次尝试,在实际使用过程中,效果有限.   本文将讲述如何利用深度学习模型来进行人物关系抽取.人物关系抽取可以理解为是关系抽取,这是我们构建知识图谱的重要一步.本文人物关系抽取的主要思想是关系抽取的pipeline(管道)模式,因为人名可以使用现成的NER模型提取,因此本文仅解决从文章中抽取出人名后…
[信息抽取]基于ERNIE3.0的多对多信息抽取算法:属性关系抽取 实体关系,实体属性抽取是信息抽取的关键任务:实体关系抽取是指从一段文本中抽取关系三元组,实体属性抽取是指从一段文本中抽取属性三元组:信息抽取一般分以下几种情况一对一,一对多,多对一,多对多的情况: 一对一:"张三男汉族硕士学历"含有一对一的属性三元组(张三,民族,汉族). 一对多:"华扬联众数字技术股份有限公司于2017年8月2日在上海证券交易所上市",含有一对多的属性三元组(华扬联众数字技术股份有…
分块,根据句子的词和词性,按照规则组织合分块,分块代表实体.常见实体,组织.人员.地点.日期.时间.名词短语分块(NP-chunking),通过词性标记.规则识别,通过机器学习方法识别.介词短语(PP).动词短语(VP).句子(S). 分块标记,IOB标记,I(inside,内部).O(outside,外部).B(begin,开始).树结构存储分块.多级分块,多重分块方法.级联分块. 关系抽取,找出实体间关系.实体识别认知事物,关系识别掌握真相.三元组(X,a,Y),X.Y实体,a表达关系字符串…
SpERT_chinese 基于论文SpERT: "Span-based Entity and Relation Transformer"的中文关系抽取,同时抽取实体.实体类别和关系类别. 原始论文地址: https://arxiv.org/abs/1909.07755 (published at ECAI 2020) 原始论文代码:https://github.com/lavis-nlp/spert 设置 Requirements Required Python 3.5+ PyTor…
基于结构化平均感知机的分词器Java实现 作者:hankcs 最近高产似母猪,写了个基于AP的中文分词器,在Bakeoff-05的MSR语料上F值有96.11%.最重要的是,只训练了5个迭代:包含语料加载等IO操作在内,整个训练一共才花费23秒.应用裁剪算法去掉模型中80%的特征后,F值才下降不到0.1个百分点,体积控制在11兆.如果训练一百个迭代,F值可达到96.31%,训练时间两分多钟. 数据在一台普通的IBM兼容机上得到: 本模块已集成到HanLP 1.6以上版本开源,文档位于项目wiki…
NLP论文解读 原创•作者 | 小欣   论文标题:PRGC: Potential Relation and Global Correspondence Based Joint Relational Triple Extraction 论文链接:https://arxiv.org/pdf/2106.09895.pdf 代码:https://github.com/hy-struggle/PRGC 1.前言 1. 论文的相关背景 关系抽取是信息抽取和知识图谱构建的关键任务之一,它的目标是从非结构化的…
技术为解决问题而生. 上面这个命题并非本文重点,我将来有空再谈这个.本文也并非什么了不起的技术创新,只是分享一下我对.net模块依赖关系及程序结构方面的一些看法.先看一个最最简单的hello world网站的模块结构如何: 就一个Website,没有任何层次划分,因为简单嘛.但很快,你就发现,还是把网站和业务逻辑处理层分开比较好,于是变成: 箭头从BLL指向Website,表明Website依赖于BLL.随着BLL的内容的不断增多,你发现需要再细分一下,于是把BLL划分为处理人事业务的HR和办公…
一.什么是SVM? SVM(Support Vector Machine)又称为支持向量机,是一种二分类的模型.当然如果进行修改之后也是可以用于多类别问题的分类.支持向量机可以分为线性和非线性两大类.其主要思想为找到空间中的一个更够将所有数据样本划开的超平面,并且使得本集中所有数据到这个超平面的距离最短. 那么,又怎么表示这个“都正确”呢?可以这样考虑:就是让那些“很有可能不正确”的数据点彼此分开得明显一点就可以了.对于其它“不那么可能不正确”或者说“一看就很正确”的数据点,就可以不用管了.这也…
工作中遇到一个数据处理自动化的问题,于是打算开发一个基于excel的小工具.在业余时间一边自学一边实践,最近终于完成了雏形.抽空把一些知识写下来以备今后参考,因为走的是盲人摸象的野路子,幼稚与错误请多包涵. 开发环境基于VSTO(没有用VBA),具体配置:visual studio 2010,VB .Net,excel 2007,文档级别的定制程序. Excel的开发方式有很多,比如VBA.vsto下的文档级程序.vsto下的插件程序等,VBA和文档级程序比较容易上手,开发简单的功能足够了,适合…