论文题目:Beyond OCR + VQA: Involving OCR into the Flow for Robust and Accurate TextVQA

论文链接:https://dl.acm.org/doi/abs/10.1145/3474085.3475606

一、任务概述

  1. 视觉问答任务(VQA):将图像和关于图像的自然语言问题作为输入,并生成自然语言答案作为输出。
  2.  文本视觉问答任务(TextVQA):面向文字识别的问答任务。

二、Baseline

2.1 Baseline 1: Look, Read, Reason & Answer (LoRRA):

  • 2019年提出,推出标准数据集,原文地址:https://arxiv.org/abs/1904.08920v2
  • 典型的TextVQA:将问题回答建模为分类任务,需要给定答案空间。

  • 多模态嵌入:问题embedding、图像中的物体进行embedding、OCR的结果进行embedding(FastText做pre-train)
  • 嵌入方式
    • 对问题进行GloVe Embedding,再通过LSTM得到问题嵌入 fQ(q),用于后续对图片特征以及OCR样本进行注意力加权平均。
    • 将图像进行特征提取,提取的特征fI(v)与fQ(q)一起经过注意力机制得到加权的空间注意力,得到的结果与fQ(q)进行组合。

    • OCR模块基于预训练模型(Faster RCNN + CTC)进行识别,识别出的结果fO(s)与fQ(q)一起经过注意力机制得到加权的空间注意力,得到的结果与fQ(q)进行组合。
    • contact一起之后过分类器(MLP),分类的类别为问题空间a1……an 加上 OCR是识别出的词

2.2 Baseline 2:M4C

  • 主贡献:提出了迭代预测的解码方式,但我们更关注特征表示的部分

  • Question embedding:BERT-base模型的encoder,但只用前3层,得到矩阵shape=(K, d)
  • Detected object embedding:Faster-RCNN + Position,shape=(M, d)
  • 融合方式:Linear + LayerNorm
  • OCR token embedding 由四部分组成:

    • : 300维的FastText文本特征
    • : Faster RCNN特征,和detected object的获取方式一样
    • : 604维的Pyramidal Histogram of Characters(PHOC)特征
    • : 4维的位置特征,计算方式和detected object一样
    • 融合方式:前三个特征过linear后做layernorm,position单独融合,再加起来

三、Motivation

  1. OCR的错误识别会较大程度影响多模态信息之间的交互(即fA的过程)
  2. 因为在表征空间中需要copy OCR识别的token,OCR的错误会较严重的影响解码器的性能(哪怕另两个分支完全准确也没法正确的输出)

四、Method

4.1 Contribution

  1. 增强特征表示的鲁棒性:减小OCR错误和物体识别错误对推理的影响
  2. 增强解码器的鲁棒性:在答案预测模块提出一个上下文感知的答案修正模块(CRM)对“复制”的答案词进行校正。

4.2 Architectural Details—— 视觉增强的文字表征模块 TVS (OCR增强)

  1. method

    • 文字图像矫正模块
    • 编码模块:45层ResNet+ 2层Bi-LSTM
    • 解码模块:单层 注意力机制的GRU
    • 中间语义模块:根据文字视觉信息预测语义信息
  2. train:利用外部数据集训练(SynthText + Synth90K)
  3. loss: OCR识别损失+语义损失
    • 语义损失由真实和预测的语义特征向量间的余弦距离计算得到
  4. 优势
    • 通过语义损失的监督,编码模块能产生与文字解码更相关的视觉特征
    • TVS为直接由文字图像的视觉特性获得语义表示提供可能。
  1. 整网中推理,OCR token details(n个文本框):
    • :  TVS的视觉特征
    • : FastText文本特征
    • : Faster RCNN特征
    • :  Pyramidal Histogram of Characters(PHOC)特征
    • :  4维的位置bounding box特征
    • 融合方式:

4.3 Architectural Details—— 语义导向的物体表征 SEO-FRCN(Visual增强)

  • method:传统的Faster RCNN,在解码环节增加一个分支来 预测物体类别的embedding

    • 物体类别embedding的gt 时物体类别名称的语义特征。
  • train:使用Visual Genome数据集,backbone resnet101 预训练,新分支fine tune
  • loss:RPN loss + 四分支loss
  • 优势:能够拉近相似物体的图像相似度(例如 traffic light和traffic sign)
  • 整网中推理,Visual token details(m个物体):
    • :视觉特征
    • 位置特征
    • :预测的物体类别嵌入向量
    • 特征融合:

4.3 Architectural Details——上下文感知的答案修正 CRM (解码结果增强)

  • method:在推理阶段,对于”直接复制OCR结果”进行改进。

    • 如果解码的输出指向图像中的文字,则将它视作一个候选词,利用输入的问题、其他文字信息和相关物体信息进行文字修正。
    • 使用多个OCR模块输出多个预测结果作为候选集,选出得分最高的结果作为最后的输出。
    • 组成:Transformer进行上下文信息融合 + linear&sigmoid 二分类器
  • training:如果候选集的结果与gt相同则为1,不同则为0,构建训练数据。二分类预测一个相关分数,最小化交叉熵损失进行训练。

五、Experiment

六、结论

  1. 将OCR融入TextVQA的前向处理流程,构建了一个鲁棒且准确的TextVQA模型

参考博客

[1] https://zhuanlan.zhihu.com/p/250951251
[2] https://mp.weixin.qq.com/s/s7EP8ZiB_0UAv0M4VDhNGA

【论文阅读】Beyond OCR + VQA: 将OCR融入TextVQA的执行流程中形成更鲁棒更准确的模型的更多相关文章

  1. 论文阅读:Face Recognition: From Traditional to Deep Learning Methods 《人脸识别综述:从传统方法到深度学习》

     论文阅读:Face Recognition: From Traditional to Deep Learning Methods  <人脸识别综述:从传统方法到深度学习>     一.引 ...

  2. 论文阅读(Xiang Bai——【CVPR2015】Symmetry-Based Text Line Detection in Natural Scenes)

    Xiang Bai--[CVPR2015]Symmetry-Based Text Line Detection in Natural Scenes 目录 作者和相关链接 方法概括 创新点和贡献 方法细 ...

  3. 论文阅读笔记四十七:Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression(CVPR2019)

    论文原址:https://arxiv.org/pdf/1902.09630.pdf github:https://github.com/generalized-iou 摘要 在目标检测的评测体系中,I ...

  4. 【论文阅读】Learning Spatial Regularization with Image-level Supervisions for Multi-label Image Classification

    转载请注明出处:https://www.cnblogs.com/White-xzx/ 原文地址:https://arxiv.org/abs/1702.05891 Caffe-code:https:// ...

  5. 【论文阅读】Deep Mutual Learning

    文章:Deep Mutual Learning 出自CVPR2017(18年最佳学生论文) 文章链接:https://arxiv.org/abs/1706.00384 代码链接:https://git ...

  6. 【阅读SpringMVC源码】手把手带你debug验证SpringMVC执行流程

    ✿ 阅读源码思路: 先跳过非重点,深入每个方法,进入的时候可以把整个可以理一下方法的执行步骤理一下,也可以,理到某一步,继续深入,回来后,接着理清除下面的步骤. ✿ 阅读本文的准备工作,预习一下Spr ...

  7. 论文阅读(Weilin Huang——【AAAI2016】Reading Scene Text in Deep Convolutional Sequences)

    Weilin Huang--[AAAI2016]Reading Scene Text in Deep Convolutional Sequences 目录 作者和相关链接 方法概括 创新点和贡献 方法 ...

  8. 论文阅读(Xiang Bai——【TIP2014】A Unified Framework for Multi-Oriented Text Detection and Recognition)

    Xiang Bai--[TIP2014]A Unified Framework for Multi-Oriented Text Detection and Recognition 目录 作者和相关链接 ...

  9. [论文阅读笔记] Fast Network Embedding Enhancement via High Order Proximity Approximati

    [论文阅读笔记] Fast Network Embedding Enhancement via High Order Proximity Approximation 本文结构 解决问题 主要贡献 主要 ...

随机推荐

  1. js Promise用法

    Promise 英文意思是 承诺的意思,是对将来的事情做了承诺, Promise 有三种状态, Pending 进行中或者等待中 Fulfilled 已成功 Rejected 已失败 Promise ...

  2. iOS Swift结构体与类的方法调度

    前言 hello,小伙伴们:在忙碌中闲暇之余给大家聊聊swift的知识点,今天给大家带来的是swift中结构体与类的方法调度详细区别,希望对你有所帮助,好了废话不用多说,接下来步入主题! 1.普通方法 ...

  3. 单机CentOS 安装 TiDB

    目录 一.官网教程 二.安装步骤 1.下载并安装 TiUP: 2.声明一下环境变量,否则会找不到 tiup 命令 3.安装 TiUP 的 cluster 组件: 4.官方教程说,由于模拟多机部署,需要 ...

  4. LeetCode:动态规划

    动态规划 动态规划永远的神 这部分主要是学习了 labuladong 公众号中对于动态规划的讲解 刷了些 leetcode 题,在此做一些记录,不然没几天就忘光光了 题目 这部分内容直接上题目了,解题 ...

  5. MySQL:基础语法-4

    MySQL:基础语法-4 记录一下 MySQL 基础的一些语法,便于查询,该部分内容主要是参考:bilibili 上 黑马程序员 的课程而做的笔记,由于时间有点久了,课程地址忘记了 上文MySQL:基 ...

  6. UltraSoft - Alpha - Scrum Meeting 1

    Date: Apr 06th, 2020. 会议内容为讨论功能规格书和技术规格书的撰写. Scrum 情况汇报 进度情况 组员 负责 昨日进度 后两日任务 CookieLau PM.后端 进行Djan ...

  7. [软工顶级理解组] Alpha阶段事后分析

    目录 设想和目标 计划 资源 变更管理 设计/实现 测试/发布 团队的角色,管理,合作 总结 质量提高 会议截图 设想和目标 我们的软件要解决什么问题?是否定义得很清楚?是否对典型用户和典型场景有清晰 ...

  8. spring security中ajax超时处理

    spring security为我们的系统提供了方便的认证和授权操作.在系统中完成认证和授权后,一般页面页面上大多数是ajax和后台进行操作,那么这个时候可能就会面临session超时,ajax去访问 ...

  9. hdu 5094 Maze (BFS+状压)

    题意: n*m的迷宫.多多要从(1,1)到达(n,m).每移动一步消耗1秒.有P种钥匙. 有K个门或墙.给出K个信息:x1,y1,x2,y2,gi    含义是(x1,y1)与(x2,y2)之间有gi ...

  10. eclipse javaEE版下载过程中选择镜像(Select Another Mirror)无反应解决办法,附带eclipse javaEE版下载教程。

    1.eclipse javaEE版下载过程中选择镜像(Select Another Mirror)无反应 (复制该网址下载即可 https://mirrors.neusoft.edu.cn/eclip ...