论文解读丨Zero-Shot场景下的信息结构化提取
摘要:在信息结构化提取领域,前人一般需要基于人工标注的模板来完成信息结构化提取。论文提出一种zero-shot的基于图卷积网络的解决方案,可以解决训练集和测试集来自不同垂直领域的问题。
本文分享自华为云社区《论文解读系列十六:Zero-Shot场景下的信息结构化提取》,作者:一笑倾城。

摘要
在信息结构化提取领域,前人一般需要基于人工标注的模板来完成信息结构化提取。论文提出一种zero-shot的基于图卷积网络的解决方案,可以解决训练集和测试集来自不同垂直领域的问题。

Figure 1. 训练和推理数据来源的垂直领域不一样。
问题定义

Figure 2. OpenIE和ClosedIE的直观理解。
Relatin Extraction
- Close Relation Extraction (ClasedIE)
RR表示类别集合,包含无类别,模型直接为每个实体分配类别即可。 - Open Relation Extraction(OpenIE)
RR表示类别集合,模型作两类分类,判断一个实体是否是另一个实体的key。
Zero-Shot Extraction
Zero-Shot按难度分可以区分如下:
- Unseen-Website Zero-shot Extraction
即同一垂直领域的不同版式,比如,都是来自电影的网页。只是推理测试的时候使用的网页排版与训练不一样。 - Unseen-Websiste Zero-shot Extraction
即不同垂直领域的不同版式,比如,训练是来自电影的网页,而推理测试的时候使用的可能是招聘类网站的网页。
论文提出的解决方案其实是发掘出图网络中全部的key-value对,由于发掘key-value这个任务本身是版式不依赖的,从而起到了跨领域的版式结构解析。
概念
- relation: 指key
- object:指value
- relationship: 指key -> value
编码器(特征构建)
节点信息的构建由图GG来完成,包括一系列的节点NN(实体),和节点之间的边E(Edges)。
基于设计的规则来构建实体之间的关系
以下情况下,会构建节点之间的边(key-value对经常是上下关系或左右关系):
- 水平情况:水平邻居,而且中间没有其它节点;
- 垂直情况:垂直邻居,而且中间没有其它节点;
- 同级情况:同级节点;
使用图网络来实体之间的关系进进建模
基于Graph Attention Network (GAT)来对节点关系进行建模,节点初始(输入)特征:
- 视觉特征:网页中对节点的视觉类描述;
- 文本特征:OpenIE是对预训练Bert进行特征平均,CloseIE则是统计该节点字符串出现的频率(似乎对跨领域更友好);
预训练机制
论文设计了辅助的损失函数L_{pre}Lpre进行三类分类的监督:{key, value, other}。同时为了防止训练过程过拟合,预训练完成后,OpenIE任务中的图网络权重不会更新。
关系预测网络
OpenIE
判断一对节点是否满足第一个节点字符串内容是第二个节点字符串内容的key:
- 使用the candidate pair identification algorithm来获取潜在的字符串对;
- 两个节点的原始输入特征+GNN输出特征+两个节点的关系特征作为分类器输入;
- 全连接网络进行分类;
ClosedIE
交叉熵多类分类
实验
- 确实是跨领域任务更加困难。

- CloseIE:确实是网址越多,效果越好。

- 确认各个因素对网络模型效果的影响。

论文解读丨Zero-Shot场景下的信息结构化提取的更多相关文章
- 论文解读丨表格识别模型TableMaster
摘要:在此解决方案中把表格识别分成了四个部分:表格结构序列识别.文字检测.文字识别.单元格和文字框对齐.其中表格结构序列识别用到的模型是基于Master修改的,文字检测模型用到的是PSENet,文字识 ...
- 论文解读丨基于局部特征保留的图卷积神经网络架构(LPD-GCN)
摘要:本文提出一种基于局部特征保留的图卷积网络架构,与最新的对比算法相比,该方法在多个数据集上的图分类性能得到大幅度提升,泛化性能也得到了改善. 本文分享自华为云社区<论文解读:基于局部特征保留 ...
- 论文解读丨【CVPR 2022】不使用人工标注提升文字识别器性能
摘要:本文提出了一种针对文字识别的半监督方法.区别于常见的半监督方法,本文的针对文字识别这类序列识别问题做出了特定的设计. 本文分享自华为云社区<[CVPR 2022] 不使用人工标注提升文字识 ...
- CVPR2020论文解读:OCR场景文本识别
CVPR2020论文解读:OCR场景文本识别 ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve Network∗ 论文 ...
- 自监督学习(Self-Supervised Learning)多篇论文解读(下)
自监督学习(Self-Supervised Learning)多篇论文解读(下) 之前的研究思路主要是设计各种各样的pretext任务,比如patch相对位置预测.旋转预测.灰度图片上色.视频帧排序等 ...
- AAAI2019 | 基于区域分解集成的目标检测 论文解读
Object Detection based on Region Decomposition and Assembly AAAI2019 | 基于区域分解集成的目标检测 论文解读 作者 | 文永亮 学 ...
- 数据库顶会VLDB论文解读:阿里数据库智能参数优化的创新与实践
前言 一年一度的数据库领域顶级会议VLDB 2019于美国当地时间8月26日-8月30日在洛杉矶召开.在本届大会上,阿里云数据库产品团队多篇论文入选Research Track和Industrial ...
- [论文解读] 阿里DIEN整体代码结构
[论文解读] 阿里DIEN整体代码结构 目录 [论文解读] 阿里DIEN整体代码结构 0x00 摘要 0x01 文件简介 0x02 总体架构 0x03 总体代码 0x04 模型基类 4.1 基本逻辑 ...
- CVPR2019论文解读:单眼提升2D检测到6D姿势和度量形状
CVPR2019论文解读:单眼提升2D检测到6D姿势和度量形状 ROI-10D: Monocular Lifting of 2D Detection to 6D Pose and Metric Sha ...
- CVPR2020论文解读:三维语义分割3D Semantic Segmentation
CVPR2020论文解读:三维语义分割3D Semantic Segmentation xMUDA: Cross-Modal Unsupervised Domain Adaptation for 3 ...
随机推荐
- 用AI打造一个属于自己的歌手,让她C位霸气出道
一.前言 今天玩儿点儿特别的,AI大行其道的今天,还没玩过AI模型的程序员绝对不是个好厨子.我本人比较喜欢音乐,但是一直没有出道,很是遗憾.那么今天,我就使用AI模型亲手打造一个堪比真人的歌手,让 ...
- Java线程安全详解
并发与多线程 blog:https://devonmusa.github.io 1 常见概念 1.1 操作系统线程运行状态 NEW RUNNABLE RUNNING BLOCKED 1.2 Java虚 ...
- 阿里云创建BUCKET脚本
创建BUCKET脚本 安装模块 pip install pymysql pip install aliyun-python-sdk-core pip install aliyun-python-sdk ...
- webview是什么?作用是什么?和浏览器有什么关系?
Webview 是一个基于webkit的引擎,可以解析DOM 元素,展示html页面的控件,它和浏览器展示页面的原理是相同的,所以可以把它当做浏览器看待.(chrome浏览器也是基于webkit引擎开 ...
- 关于XML的总结——Schema和DTD(转)
XML DTD(XML的文档类型定义)是近几年来XML技术领域所使用的最广泛的一种模式.但是,由于XML DTD并不能完全满足XML自动化处理的要求,例如不能很好实现应用程序不同模块间的相互协调,缺乏 ...
- Redis Functions 介绍之一
Redis提供了编程接口(programming interface)可以让你在Redis服务器端执行客户的脚本. 一个重大的变化就是从Redis 7开始,你可以选择使用Redis Functions ...
- 随着Web3.0的到来,IPFS能否成为未来?
IPFS能否成为未来互联网存储市场的霸主? 首先在说IPFS之前,我们有必要先聊一聊HTTP,因为目前我们从互联网上看到的,用的,基本上都是HTTP,自从1991年发明了HTTP,到现在已经多了30多 ...
- 2022.7.16 lhm_ 讲课纪要
前言 啊好的,这节课又是对牛弹琴课...... 虽说题给的不难,以黄绿为主,,穿插了一个蓝一个紫,但是给一群不知道什么是树什么是DAG的人讲树形dp和dag上dp有点.... 顺便讲了讲拓扑排序和记忆 ...
- nmap命令说明
目录 主机发现 扫描技术 端口规格和扫描顺序 服务/版本检测 脚本扫描 操作系统检测 时间和性能: 防火墙/IDS的逃避和欺骗 输出 杂项 平时看到别人的nmap命令都是一大串,根本看不懂为什么,自己 ...
- Vue打包发布
打包发布 目标:明确打包的作用 说明:vue脚手架只是开发过程中,协助开发的工具,当真正开发完了,脚手架不参与上线 打包的作用: 将多个文件压缩合并成一个文件 语法降级 less sass ts 语法 ...