【论文阅读】Beyond OCR + VQA: 将OCR融入TextVQA的执行流程中形成更鲁棒更准确的模型
论文题目:Beyond OCR + VQA: Involving OCR into the Flow for Robust and Accurate TextVQA
论文链接:https://dl.acm.org/doi/abs/10.1145/3474085.3475606
一、任务概述
- 视觉问答任务(VQA):将图像和关于图像的自然语言问题作为输入,并生成自然语言答案作为输出。
- 文本视觉问答任务(TextVQA):面向文字识别的问答任务。
二、Baseline
2.1 Baseline 1: Look, Read, Reason & Answer (LoRRA):
- 2019年提出,推出标准数据集,原文地址:https://arxiv.org/abs/1904.08920v2
- 典型的TextVQA:将问题回答建模为分类任务,需要给定答案空间。
- 多模态嵌入:问题embedding、图像中的物体进行embedding、OCR的结果进行embedding(FastText做pre-train)
- 嵌入方式:
- 对问题进行GloVe Embedding,再通过LSTM得到问题嵌入 fQ(q),用于后续对图片特征以及OCR样本进行注意力加权平均。
- 将图像进行特征提取,提取的特征fI(v)与fQ(q)一起经过注意力机制得到加权的空间注意力,得到的结果与fQ(q)进行组合。
- OCR模块基于预训练模型(Faster RCNN + CTC)进行识别,识别出的结果fO(s)与fQ(q)一起经过注意力机制得到加权的空间注意力,得到的结果与fQ(q)进行组合。
- contact一起之后过分类器(MLP),分类的类别为问题空间a1……an 加上 OCR是识别出的词
2.2 Baseline 2:M4C
- 主贡献:提出了迭代预测的解码方式,但我们更关注特征表示的部分
- Question embedding:BERT-base模型的encoder,但只用前3层,得到矩阵shape=(K, d)
- Detected object embedding:Faster-RCNN + Position,shape=(M, d)
- 融合方式:Linear + LayerNorm
- OCR token embedding 由四部分组成:
: 300维的FastText文本特征
: Faster RCNN特征,和detected object的获取方式一样
: 604维的Pyramidal Histogram of Characters(PHOC)特征
: 4维的位置特征,计算方式和detected object一样
- 融合方式:前三个特征过linear后做layernorm,position单独融合,再加起来
三、Motivation
- OCR的错误识别会较大程度影响多模态信息之间的交互(即fA的过程)
- 因为在表征空间中需要copy OCR识别的token,OCR的错误会较严重的影响解码器的性能(哪怕另两个分支完全准确也没法正确的输出)
四、Method
4.1 Contribution
- 增强特征表示的鲁棒性:减小OCR错误和物体识别错误对推理的影响
- 增强解码器的鲁棒性:在答案预测模块提出一个上下文感知的答案修正模块(CRM)对“复制”的答案词进行校正。
4.2 Architectural Details—— 视觉增强的文字表征模块 TVS (OCR增强)
- method:
- 文字图像矫正模块
- 编码模块:45层ResNet+ 2层Bi-LSTM
- 解码模块:单层 注意力机制的GRU
- 中间语义模块:根据文字视觉信息预测语义信息
- train:利用外部数据集训练(SynthText + Synth90K)
- loss: OCR识别损失+语义损失
- 语义损失由真实和预测的语义特征向量间的余弦距离计算得到
- 优势:
- 通过语义损失的监督,编码模块能产生与文字解码更相关的视觉特征
- TVS为直接由文字图像的视觉特性获得语义表示提供可能。
- 整网中推理,OCR token details(n个文本框):
: TVS的视觉特征
: FastText文本特征
: Faster RCNN特征
: Pyramidal Histogram of Characters(PHOC)特征
: 4维的位置bounding box特征
- 融合方式:
4.3 Architectural Details—— 语义导向的物体表征 SEO-FRCN(Visual增强)
- method:传统的Faster RCNN,在解码环节增加一个分支来 预测物体类别的embedding
- 物体类别embedding的gt 时物体类别名称的语义特征。
- train:使用Visual Genome数据集,backbone resnet101 预训练,新分支fine tune
- loss:RPN loss + 四分支loss
- 优势:能够拉近相似物体的图像相似度(例如 traffic light和traffic sign)
- 整网中推理,Visual token details(m个物体):
:视觉特征
:位置特征
:预测的物体类别嵌入向量
- 特征融合:
4.3 Architectural Details——上下文感知的答案修正 CRM (解码结果增强)
- method:在推理阶段,对于”直接复制OCR结果”进行改进。
- 如果解码的输出指向图像中的文字,则将它视作一个候选词,利用输入的问题、其他文字信息和相关物体信息进行文字修正。
- 使用多个OCR模块输出多个预测结果作为候选集,选出得分最高的结果作为最后的输出。
- 组成:Transformer进行上下文信息融合 + linear&sigmoid 二分类器
- training:如果候选集的结果与gt相同则为1,不同则为0,构建训练数据。二分类预测一个相关分数,最小化交叉熵损失进行训练。
五、Experiment
六、结论
- 将OCR融入TextVQA的前向处理流程,构建了一个鲁棒且准确的TextVQA模型
参考博客
【论文阅读】Beyond OCR + VQA: 将OCR融入TextVQA的执行流程中形成更鲁棒更准确的模型的更多相关文章
- 论文阅读:Face Recognition: From Traditional to Deep Learning Methods 《人脸识别综述:从传统方法到深度学习》
论文阅读:Face Recognition: From Traditional to Deep Learning Methods <人脸识别综述:从传统方法到深度学习> 一.引 ...
- 论文阅读(Xiang Bai——【CVPR2015】Symmetry-Based Text Line Detection in Natural Scenes)
Xiang Bai--[CVPR2015]Symmetry-Based Text Line Detection in Natural Scenes 目录 作者和相关链接 方法概括 创新点和贡献 方法细 ...
- 论文阅读笔记四十七:Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression(CVPR2019)
论文原址:https://arxiv.org/pdf/1902.09630.pdf github:https://github.com/generalized-iou 摘要 在目标检测的评测体系中,I ...
- 【论文阅读】Learning Spatial Regularization with Image-level Supervisions for Multi-label Image Classification
转载请注明出处:https://www.cnblogs.com/White-xzx/ 原文地址:https://arxiv.org/abs/1702.05891 Caffe-code:https:// ...
- 【论文阅读】Deep Mutual Learning
文章:Deep Mutual Learning 出自CVPR2017(18年最佳学生论文) 文章链接:https://arxiv.org/abs/1706.00384 代码链接:https://git ...
- 【阅读SpringMVC源码】手把手带你debug验证SpringMVC执行流程
✿ 阅读源码思路: 先跳过非重点,深入每个方法,进入的时候可以把整个可以理一下方法的执行步骤理一下,也可以,理到某一步,继续深入,回来后,接着理清除下面的步骤. ✿ 阅读本文的准备工作,预习一下Spr ...
- 论文阅读(Weilin Huang——【AAAI2016】Reading Scene Text in Deep Convolutional Sequences)
Weilin Huang--[AAAI2016]Reading Scene Text in Deep Convolutional Sequences 目录 作者和相关链接 方法概括 创新点和贡献 方法 ...
- 论文阅读(Xiang Bai——【TIP2014】A Unified Framework for Multi-Oriented Text Detection and Recognition)
Xiang Bai--[TIP2014]A Unified Framework for Multi-Oriented Text Detection and Recognition 目录 作者和相关链接 ...
- [论文阅读笔记] Fast Network Embedding Enhancement via High Order Proximity Approximati
[论文阅读笔记] Fast Network Embedding Enhancement via High Order Proximity Approximation 本文结构 解决问题 主要贡献 主要 ...
随机推荐
- js 判断一个变量是否有值
最近遇到一个面试题,判断一个变量是否有值,当时有点蒙,其实很简单,就是判断 变量是否为 undefined或者null function isFlag(val) { if(Object.prototy ...
- 『基于ArcGIS的Python编程秘籍(第2版)』书本源码
ArcPy学习 第1章 面向ArcGIS的Python编程语言的基础 略 第2章 管理地图文档和图层 引用当前的地图文档 引用磁盘上的地图文档 获取地图文档的图层列表 限制图层列表 缩放至所选要素 改 ...
- VS Code Just My Code Debugging
VS Code Just My Code Debugging VS Code for C++ doesn't support Just My Code Refer here: Add support ...
- 数据结构与算法-基础(十一)AVL 树
AVL 树 是最早时期发明的自平衡二叉搜索树之一.是依据它的两位发明者的名称命名. AVL 树有一个重要的属性,即平衡因子(Balance Factor),平衡因子 == 某个节点的左右子树高度差. ...
- 对比7种分布式事务方案,还是偏爱阿里开源的Seata,真香!(原理+实战)
前言 这是<Spring Cloud 进阶>专栏的第六篇文章,往期文章如下: 五十五张图告诉你微服务的灵魂摆渡者Nacos究竟有多强? openFeign夺命连环9问,这谁受得了? 阿里面 ...
- Java继承中父类和子类构造函数的问题
父类有无参构造函数时(显示或隐式),子类的有参和无参构造函数都是默认调用父类的无参构造函数:当父类只有有参构造函数时,子类可以有有参和无参构造函数,子类有参构造函数必须显式调用父类的有参构造函数,子类 ...
- 混合开发框架Flutter
Flutter开发简介与其他的混合开发的对比 为什么要使用Flutter? 跨平台技术简介 Hybrid技术简介 QT简介 Flutter简介 为什么要使用Flutter? Flutter有什么优势? ...
- 【二食堂】Beta - Scrum Meeting 3
Scrum Meeting 3 例会时间:5.15 18:30~18:50 进度情况 组员 当前进度 今日任务 李健 1. 继续完成文本区域划词添加的功能 issue 1. 划词功能已经实现,继续开发 ...
- 渗透测试神器——Burp的使用
公众号:白帽子左一 版本说明:Burp Suite2.1 下载地址: 链接:https://pan.baidu.com/s/1JPV8rRjzxCL-4ubj2HVsug 提取码:zkaq 使用环境: ...
- dwr简单应用及一个反向ajax消息推送
由于项目中最近需要用到dwr实现一些功能,因此在网上和dwr官网上找了一些资料进行学习.在此记录一下.(此处实现简单的dwr应用和dwr消息反向推送) 一.引入dwr的包 <dependency ...