论文题目:Beyond OCR + VQA: Involving OCR into the Flow for Robust and Accurate TextVQA

论文链接:https://dl.acm.org/doi/abs/10.1145/3474085.3475606

一、任务概述

  1. 视觉问答任务(VQA):将图像和关于图像的自然语言问题作为输入,并生成自然语言答案作为输出。
  2.  文本视觉问答任务(TextVQA):面向文字识别的问答任务。

二、Baseline

2.1 Baseline 1: Look, Read, Reason & Answer (LoRRA):

  • 2019年提出,推出标准数据集,原文地址:https://arxiv.org/abs/1904.08920v2
  • 典型的TextVQA:将问题回答建模为分类任务,需要给定答案空间。

  • 多模态嵌入:问题embedding、图像中的物体进行embedding、OCR的结果进行embedding(FastText做pre-train)
  • 嵌入方式
    • 对问题进行GloVe Embedding,再通过LSTM得到问题嵌入 fQ(q),用于后续对图片特征以及OCR样本进行注意力加权平均。
    • 将图像进行特征提取,提取的特征fI(v)与fQ(q)一起经过注意力机制得到加权的空间注意力,得到的结果与fQ(q)进行组合。

    • OCR模块基于预训练模型(Faster RCNN + CTC)进行识别,识别出的结果fO(s)与fQ(q)一起经过注意力机制得到加权的空间注意力,得到的结果与fQ(q)进行组合。
    • contact一起之后过分类器(MLP),分类的类别为问题空间a1……an 加上 OCR是识别出的词

2.2 Baseline 2:M4C

  • 主贡献:提出了迭代预测的解码方式,但我们更关注特征表示的部分

  • Question embedding:BERT-base模型的encoder,但只用前3层,得到矩阵shape=(K, d)
  • Detected object embedding:Faster-RCNN + Position,shape=(M, d)
  • 融合方式:Linear + LayerNorm
  • OCR token embedding 由四部分组成:

    • : 300维的FastText文本特征
    • : Faster RCNN特征,和detected object的获取方式一样
    • : 604维的Pyramidal Histogram of Characters(PHOC)特征
    • : 4维的位置特征,计算方式和detected object一样
    • 融合方式:前三个特征过linear后做layernorm,position单独融合,再加起来

三、Motivation

  1. OCR的错误识别会较大程度影响多模态信息之间的交互(即fA的过程)
  2. 因为在表征空间中需要copy OCR识别的token,OCR的错误会较严重的影响解码器的性能(哪怕另两个分支完全准确也没法正确的输出)

四、Method

4.1 Contribution

  1. 增强特征表示的鲁棒性:减小OCR错误和物体识别错误对推理的影响
  2. 增强解码器的鲁棒性:在答案预测模块提出一个上下文感知的答案修正模块(CRM)对“复制”的答案词进行校正。

4.2 Architectural Details—— 视觉增强的文字表征模块 TVS (OCR增强)

  1. method

    • 文字图像矫正模块
    • 编码模块:45层ResNet+ 2层Bi-LSTM
    • 解码模块:单层 注意力机制的GRU
    • 中间语义模块:根据文字视觉信息预测语义信息
  2. train:利用外部数据集训练(SynthText + Synth90K)
  3. loss: OCR识别损失+语义损失
    • 语义损失由真实和预测的语义特征向量间的余弦距离计算得到
  4. 优势
    • 通过语义损失的监督,编码模块能产生与文字解码更相关的视觉特征
    • TVS为直接由文字图像的视觉特性获得语义表示提供可能。
  1. 整网中推理,OCR token details(n个文本框):
    • :  TVS的视觉特征
    • : FastText文本特征
    • : Faster RCNN特征
    • :  Pyramidal Histogram of Characters(PHOC)特征
    • :  4维的位置bounding box特征
    • 融合方式:

4.3 Architectural Details—— 语义导向的物体表征 SEO-FRCN(Visual增强)

  • method:传统的Faster RCNN,在解码环节增加一个分支来 预测物体类别的embedding

    • 物体类别embedding的gt 时物体类别名称的语义特征。
  • train:使用Visual Genome数据集,backbone resnet101 预训练,新分支fine tune
  • loss:RPN loss + 四分支loss
  • 优势:能够拉近相似物体的图像相似度(例如 traffic light和traffic sign)
  • 整网中推理,Visual token details(m个物体):
    • :视觉特征
    • 位置特征
    • :预测的物体类别嵌入向量
    • 特征融合:

4.3 Architectural Details——上下文感知的答案修正 CRM (解码结果增强)

  • method:在推理阶段,对于”直接复制OCR结果”进行改进。

    • 如果解码的输出指向图像中的文字,则将它视作一个候选词,利用输入的问题、其他文字信息和相关物体信息进行文字修正。
    • 使用多个OCR模块输出多个预测结果作为候选集,选出得分最高的结果作为最后的输出。
    • 组成:Transformer进行上下文信息融合 + linear&sigmoid 二分类器
  • training:如果候选集的结果与gt相同则为1,不同则为0,构建训练数据。二分类预测一个相关分数,最小化交叉熵损失进行训练。

五、Experiment

六、结论

  1. 将OCR融入TextVQA的前向处理流程,构建了一个鲁棒且准确的TextVQA模型

参考博客

[1] https://zhuanlan.zhihu.com/p/250951251
[2] https://mp.weixin.qq.com/s/s7EP8ZiB_0UAv0M4VDhNGA

【论文阅读】Beyond OCR + VQA: 将OCR融入TextVQA的执行流程中形成更鲁棒更准确的模型的更多相关文章

  1. 论文阅读:Face Recognition: From Traditional to Deep Learning Methods 《人脸识别综述:从传统方法到深度学习》

     论文阅读:Face Recognition: From Traditional to Deep Learning Methods  <人脸识别综述:从传统方法到深度学习>     一.引 ...

  2. 论文阅读(Xiang Bai——【CVPR2015】Symmetry-Based Text Line Detection in Natural Scenes)

    Xiang Bai--[CVPR2015]Symmetry-Based Text Line Detection in Natural Scenes 目录 作者和相关链接 方法概括 创新点和贡献 方法细 ...

  3. 论文阅读笔记四十七:Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression(CVPR2019)

    论文原址:https://arxiv.org/pdf/1902.09630.pdf github:https://github.com/generalized-iou 摘要 在目标检测的评测体系中,I ...

  4. 【论文阅读】Learning Spatial Regularization with Image-level Supervisions for Multi-label Image Classification

    转载请注明出处:https://www.cnblogs.com/White-xzx/ 原文地址:https://arxiv.org/abs/1702.05891 Caffe-code:https:// ...

  5. 【论文阅读】Deep Mutual Learning

    文章:Deep Mutual Learning 出自CVPR2017(18年最佳学生论文) 文章链接:https://arxiv.org/abs/1706.00384 代码链接:https://git ...

  6. 【阅读SpringMVC源码】手把手带你debug验证SpringMVC执行流程

    ✿ 阅读源码思路: 先跳过非重点,深入每个方法,进入的时候可以把整个可以理一下方法的执行步骤理一下,也可以,理到某一步,继续深入,回来后,接着理清除下面的步骤. ✿ 阅读本文的准备工作,预习一下Spr ...

  7. 论文阅读(Weilin Huang——【AAAI2016】Reading Scene Text in Deep Convolutional Sequences)

    Weilin Huang--[AAAI2016]Reading Scene Text in Deep Convolutional Sequences 目录 作者和相关链接 方法概括 创新点和贡献 方法 ...

  8. 论文阅读(Xiang Bai——【TIP2014】A Unified Framework for Multi-Oriented Text Detection and Recognition)

    Xiang Bai--[TIP2014]A Unified Framework for Multi-Oriented Text Detection and Recognition 目录 作者和相关链接 ...

  9. [论文阅读笔记] Fast Network Embedding Enhancement via High Order Proximity Approximati

    [论文阅读笔记] Fast Network Embedding Enhancement via High Order Proximity Approximation 本文结构 解决问题 主要贡献 主要 ...

随机推荐

  1. 点击按钮改变div背景色,再次点击恢复 -- 原生JS

    如果对您有帮助,记得点个赞哦!

  2. 七牛云的 python sdk 是如何 批量删除资源的

    今天做项目的时候用到七牛云,关于对资源的操作是在后端做的,用的SDK,但是,在网上没找到详细的解析,官方文档也没有太详细的解说,所以无奈只好看下源码 这里做一下简单的记录 from qiniu imp ...

  3. 初学Python-day10 函数2

    函数 1.函数也是一种数据 函数也是一种数据,可以使用变量保存 回调函数(参数的值还是一个函数) 实例: def test(): print('hello world') def test1(a): ...

  4. [软工顶级理解组] Alpha阶段事后分析

    目录 设想和目标 计划 资源 变更管理 设计/实现 测试/发布 团队的角色,管理,合作 总结 质量提高 会议截图 设想和目标 我们的软件要解决什么问题?是否定义得很清楚?是否对典型用户和典型场景有清晰 ...

  5. Taylor公式原来可以这么简单

    1.Taylor公式 解决:含有高阶导数的中值定理或定积分.极限运算等题目 条件:f(x)在x=x0领域内(n+1)阶可导 结论:f(x)=Pn(x)+Rn(x) 2.x和x0的取值 3.Taylor ...

  6. 矩阵中的路径 牛客网 剑指Offer

    矩阵中的路径 牛客网 剑指Offer 题目描述 请设计一个函数,用来判断在一个矩阵中是否存在一条包含某字符串所有字符的路径.路径可以从矩阵中的任意一个格子开始,每一步可以在矩阵中向左,向右,向上,向下 ...

  7. Shooting Bricks题解

    题目传送门 以后我绝对不会一直磕着一道题磕几个小时了...感觉还是自己节奏出了问题,不知为啥感觉有点小慌... 算了,其实再回头仔细看一下这个题dp的思路还是比较好想出来的,打代码之前一定要做好足够的 ...

  8. cf Two Sets (我用二分最大匹配做的)

    题意: n个数p1,p2....pn     两个数a,b 把它们分成A,B两个集合. 若x属于A,a-x一定属于A. 若x属于B,b-x一定属于B. 问是否可能将这n个数分成两个集合.若可以,输出每 ...

  9. 前端面试手写代码——JS数组去重

    目录 1 测试用例 2 JS 数组去重4大类型 2.1 元素比较型 2.1.1 双层 for 循环逐一比较(es5常用) 2.1.2 排序相邻比较 2.2 查找元素位置型 2.2.1 indexOf ...

  10. 【高并发】深入解析Callable接口

    大家好,我是冰河~~ 本文纯干货,从源码角度深入解析Callable接口,希望大家踏下心来,打开你的IDE,跟着文章看源码,相信你一定收获不小. 1.Callable接口介绍 Callable接口是J ...