摘要:在信息结构化提取领域,前人一般需要基于人工标注的模板来完成信息结构化提取。论文提出一种zero-shot的基于图卷积网络的解决方案,可以解决训练集和测试集来自不同垂直领域的问题。

本文分享自华为云社区《论文解读系列十六:Zero-Shot场景下的信息结构化提取》,作者:一笑倾城。

摘要

在信息结构化提取领域,前人一般需要基于人工标注的模板来完成信息结构化提取。论文提出一种zero-shot的基于图卷积网络的解决方案,可以解决训练集和测试集来自不同垂直领域的问题。

Figure 1. 训练和推理数据来源的垂直领域不一样。

问题定义

Figure 2. OpenIE和ClosedIE的直观理解。

Relatin Extraction

  • Close Relation Extraction (ClasedIE)
    RR表示类别集合,包含无类别,模型直接为每个实体分配类别即可。
  • Open Relation Extraction(OpenIE)
    RR表示类别集合,模型作两类分类,判断一个实体是否是另一个实体的key。

Zero-Shot Extraction

Zero-Shot按难度分可以区分如下:

  • Unseen-Website Zero-shot Extraction
    即同一垂直领域的不同版式,比如,都是来自电影的网页。只是推理测试的时候使用的网页排版与训练不一样。
  • Unseen-Websiste Zero-shot Extraction
    即不同垂直领域的不同版式,比如,训练是来自电影的网页,而推理测试的时候使用的可能是招聘类网站的网页。

论文提出的解决方案其实是发掘出图网络中全部的key-value对,由于发掘key-value这个任务本身是版式不依赖的,从而起到了跨领域的版式结构解析。

概念

  • relation: 指key
  • object:指value
  • relationship: 指key -> value

编码器(特征构建)

节点信息的构建由图GG来完成,包括一系列的节点NN(实体),和节点之间的边E(Edges)。

基于设计的规则来构建实体之间的关系

以下情况下,会构建节点之间的边(key-value对经常是上下关系或左右关系):

  • 水平情况:水平邻居,而且中间没有其它节点;
  • 垂直情况:垂直邻居,而且中间没有其它节点;
  • 同级情况:同级节点;

使用图网络来实体之间的关系进进建模

基于Graph Attention Network (GAT)来对节点关系进行建模,节点初始(输入)特征:

  • 视觉特征:网页中对节点的视觉类描述;
  • 文本特征:OpenIE是对预训练Bert进行特征平均,CloseIE则是统计该节点字符串出现的频率(似乎对跨领域更友好);

预训练机制

论文设计了辅助的损失函数L_{pre}Lpre​进行三类分类的监督:{key, value, other}。同时为了防止训练过程过拟合,预训练完成后,OpenIE任务中的图网络权重不会更新。

关系预测网络

OpenIE

判断一对节点是否满足第一个节点字符串内容是第二个节点字符串内容的key:

  • 使用the candidate pair identification algorithm来获取潜在的字符串对;
  • 两个节点的原始输入特征+GNN输出特征+两个节点的关系特征作为分类器输入;
  • 全连接网络进行分类;

ClosedIE

交叉熵多类分类

实验

  • 确实是跨领域任务更加困难。

  • CloseIE:确实是网址越多,效果越好。

  • 确认各个因素对网络模型效果的影响。

点击关注,第一时间了解华为云新鲜技术~

论文解读丨Zero-Shot场景下的信息结构化提取的更多相关文章

  1. 论文解读丨表格识别模型TableMaster

    摘要:在此解决方案中把表格识别分成了四个部分:表格结构序列识别.文字检测.文字识别.单元格和文字框对齐.其中表格结构序列识别用到的模型是基于Master修改的,文字检测模型用到的是PSENet,文字识 ...

  2. 论文解读丨基于局部特征保留的图卷积神经网络架构(LPD-GCN)

    摘要:本文提出一种基于局部特征保留的图卷积网络架构,与最新的对比算法相比,该方法在多个数据集上的图分类性能得到大幅度提升,泛化性能也得到了改善. 本文分享自华为云社区<论文解读:基于局部特征保留 ...

  3. 论文解读丨【CVPR 2022】不使用人工标注提升文字识别器性能

    摘要:本文提出了一种针对文字识别的半监督方法.区别于常见的半监督方法,本文的针对文字识别这类序列识别问题做出了特定的设计. 本文分享自华为云社区<[CVPR 2022] 不使用人工标注提升文字识 ...

  4. CVPR2020论文解读:OCR场景文本识别

    CVPR2020论文解读:OCR场景文本识别 ABCNet:  Real-time Scene Text Spotting with Adaptive Bezier-Curve Network∗ 论文 ...

  5. 自监督学习(Self-Supervised Learning)多篇论文解读(下)

    自监督学习(Self-Supervised Learning)多篇论文解读(下) 之前的研究思路主要是设计各种各样的pretext任务,比如patch相对位置预测.旋转预测.灰度图片上色.视频帧排序等 ...

  6. AAAI2019 | 基于区域分解集成的目标检测 论文解读

    Object Detection based on Region Decomposition and Assembly AAAI2019 | 基于区域分解集成的目标检测 论文解读 作者 | 文永亮 学 ...

  7. 数据库顶会VLDB论文解读:阿里数据库智能参数优化的创新与实践

    前言 一年一度的数据库领域顶级会议VLDB 2019于美国当地时间8月26日-8月30日在洛杉矶召开.在本届大会上,阿里云数据库产品团队多篇论文入选Research Track和Industrial ...

  8. [论文解读] 阿里DIEN整体代码结构

    [论文解读] 阿里DIEN整体代码结构 目录 [论文解读] 阿里DIEN整体代码结构 0x00 摘要 0x01 文件简介 0x02 总体架构 0x03 总体代码 0x04 模型基类 4.1 基本逻辑 ...

  9. CVPR2019论文解读:单眼提升2D检测到6D姿势和度量形状

    CVPR2019论文解读:单眼提升2D检测到6D姿势和度量形状 ROI-10D: Monocular Lifting of 2D Detection to 6D Pose and Metric Sha ...

  10. CVPR2020论文解读:三维语义分割3D Semantic Segmentation

    CVPR2020论文解读:三维语义分割3D Semantic Segmentation xMUDA: Cross-Modal Unsupervised Domain Adaptation  for 3 ...

随机推荐

  1. Mach-O Inside: 命令行工具集 otool objdump od 与 dwarfdump

    1 otool otool 命令行工具用来查看 Mach-O 文件的结构. 1.1 查看文件头 otool -h -v 文件路径 -h选项表明查看 Mach-O 文件头. -v 选项表明将展示的内容进 ...

  2. 字符串小记 II:字符串自动机

    OI 中的自动机指的是"有限状态自动机",它是对一串信号进行处理的数学模型,一般由以下三部分构成: 字符集(\(\Sigma\)),能够输入进自动机的字符集合. 状态集合(\(Q\ ...

  3. jpa用findAll((Specification<GoodsSpu>) (root, criteriaQuery, criteriaBuilder) -> {})排序

    //需要用到的包import org.springframework.data.domain.Page;import org.springframework.data.domain.PageReque ...

  4. python之继承的方法重写

    目录 普通方法 方法重写super().xxx() 我们在python之继承及其实现方法中已经学会了打印子类在父类继承的属性 那么我们怎么打印出子类中特有的属性呢 普通方法 我们当然可以在子类中添加新 ...

  5. JAVA学习week2

    这周:根据老师在群里面推荐的JAV学习路线,初步规划了一下学习方案 并找到了相关的视频,目前来说在学习SE.学习内容:环境变量的配置和简单的hello world程序书写的注意点 下周:打算进行简单的 ...

  6. [AI]重新审视“幻肢”现象背后的意识机制

    "幻肢"实验 "幻肢"实验是研究幻肢现象的经典实验方法.实验对象通常选择已经失去一肢如手或脚的病人.实验主要步骤是:首先安装一台镜头对残肢部位进行实时视频监测. ...

  7. 10个PPT制作实用小技巧

    当制作PPT时,您可以使用一些实用的小技巧来提升演示效果和工作效率.以下是10个PPT制作实用小技巧的详细描述: 第一.选择合适的模板 选择合适的PPT模板非常重要,因为模板可以决定整个演示的风格和视 ...

  8. JSON多层嵌套复杂结构数据扁平化处理转为行列数据

    背景 公司的中台产品,需要对外部API接口返回的JSON数据进行采集入湖,有时候外部API接口返回的JSON数据层级嵌套比较深,举个栗子: 上述的JSON数据中,最外层为请求返回对象,data里面包含 ...

  9. SQL执行insert into后返回主键ID

    1 select @@identity 2 select SCOPE_IDENTITY() 3 select IDENT_CURRENT('table') 注解:@@IDENTITY 返回当前会话的所 ...

  10. Spring整合Quartz简单入门

    创建一个Web项目 导入相关jar包 <?xml version="1.0" encoding="UTF-8"?> <project xmln ...