An end-to-end TextSpotter with Explicit Alignment and Attention

论文下载:http://cn.arxiv.org/pdf/1803.03474
代码下载:https://github.com/tonghe90/textspotter

1方法概述
1.1主要思路
将文字检测和识别整合到一个端到端的网络中,检测使用PVAnet,识别使用RNN,其中加入一个Text-alignment layer和字符attention和mask机制,通过利用Text-alignment layer中的抽样网格将文字区域固定为64*8大的feature map,再输入双向LSTM进行识别。
1.2文章亮点
·提出Text alignment layer,用网格抽样方案代替RoI Pooling,处理多方向的文本区域
·增加字符attention和mask机制,使用字符的空间信息作为额外的监督,指导decode过程
·提出一个新颖的training strategy
1.3主要流程

·整个端到端识别主要有三个步骤:

·检测:用PVAnet代替ResNet50的EAST框架,得到任意方向的文本区域

·Test alignment:将四边形区域统一映射为大小为64*8的feature map

·识别:Test alignment得到的feature map经过encode-decode得到最终结果

2 方法细节

·检测

·检测的框架是用PVAnet代替ResNet50的EAST框架,通过调节IoU损失实现一个多任务预测。

·最终得到两个分支:第一个子分支返回文本分类概率。第二个子分支返回bounding box的五个参数,分别是当前点到上下左右边的距离以及倾斜角度。

·识别

上述得到的四边形将被输入RNN分支。

·Text-alignment layer:

·这步的目的:

·它可以将任意方向的region proposal固定为统一大小的feature map,精确地跟每个像素对齐

·为什么不用RoI Pooling

·RoI Pooling进行量化,不可避免地在原始RoI区域和提取出来的特性之间引入了misalignment。

·RoI Pooling是为矩形区域设计的,只能够定位水平region proposal。

·Text-alignment layer做什么

·给定一个四边形区域,首先在feature map中建立一个64*8大的采样网格,在这个区域内生成等间距的采样点,Vp代表每个采样点p空间位置(px,py)的特征向量,这个特征向量通过bilinear sampling计算,公式如下:

·Vpi是p周围的四个点,g(m,n)是双线性插值函数

·最终输出固定大小为64*8的文本区域

·Character Attention

·识别流程

·经过Text-Alignment Layer得到的feature map,经过多个inception模块,最终大小变为1*64,然后经过双向LSTM操作,encode-decode操作后输出最终识别结果。

·Attention alignment

·这张图与传统的注意力机制不同的地方是在增加了字符的attention作为监督,引入了字符对齐的损失函数,指导decode过程。这就是图中update的由来

·即attention point,它应该尽可能和字符的中心点尽可能对齐;

·是第t个字符GT的中心坐标,是当前字符的GT宽度,T是一个序列的字符数

·这个损失函数表示归一化的attention

·Character mask

·增加了binary masks,引入,mask数等于字符label数

·Position embedding

·从attention向量中生成一个one-hot向量,然后直接将one-hot向量和上下文向量直接连接起来,得到一个新的带有额外one-hot注意力信息的特征表示。

·Overall loss

·Lloc是文本检测的loss,Lword是文字识别的loss,Lalign和Lmask是可选的loss,可以不使用。λ1,λ2是平衡因子,这里面的实验都设为0.1。

·Training Strategy

·从800K张合成图像张随机抽取600K张,固定检测部分,提供Ground trut文本框进行单词识别的训练,迭代120K次,只计算识别,字符对齐和mask的loss

·打开检测部分,仍然提供GT文本框,更新权重,迭代80K次,接下来用检测部分生成抽样网格,进行端到端训练,迭代20K次

·在ICDAR2013和2015数据集上进行端到端训练,迭代60K次。

3 实验结果

·在ICDAR2013上得到的数据与最先进的结果相当,而在ICDAR2015上,这篇文章的方法大大超过了最新的结果。

·使用这篇文章的方法,一些小的文字和大幅度倾斜的文字都能很好的被识别到。

4 总结和收获

·检测部分用PVAnet代替ResNet50的EAST框架

·用bilinear sampling代替RoI Pooling,处理多方向的文本区域

·在原有的attention中增加字符的对齐信息和mask作为额外的监督,指导decode过程

·一个新颖的training strategy

An end-to-end TextSpotter with Explicit Alignment and Attention的更多相关文章

  1. 2017-2018_OCR_papers汇总

    2017-2018_OCR_papers 1. 简单背景 基于深度的OCR方法的发展历程 近年来OCR发展热点与趋势 检测方法按照主题进行分类 2. ECCV + CVPR + ICCV +AAAI ...

  2. A Survey of Visual Attention Mechanisms in Deep Learning

    A Survey of Visual Attention Mechanisms in Deep Learning 2019-12-11 15:51:59 Source: Deep Learning o ...

  3. QA系统Match-LSTM代码研读

    QA系统Match-LSTM代码研读 背景 在QA模型中,Match-LSTM是较早提出的,使用Prt-Net边界模型.本文是对阅读其实现代码的总结.主要思路是对照着论文和代码,对论文中模型的关键结构 ...

  4. 可空类型(Nullable<T>)及其引出的关于explicit、implicit的使用

    问题一:Nullable<T>可赋值为null 先看两行C#代码 int? i1 = null; int? i2 = new int?(); int? 即Nullable<int&g ...

  5. 关于Django 错误 doesn't declare an explicit app_label and isn't in an application in INSTALLED_APPS

    记录一下 报错 doesn't declare an explicit app_label and isn't in an application in INSTALLED_APPS\ 这个问题出现没 ...

  6. 显示转换explicit和隐式转换implicit

    用户自定义的显示转换和隐式转换 显式转换implicit关键字告诉编译器,在源代码中不必做显示的转型就可以产生调用转换操作符方法的代码. 隐式转换implicit关键字告诉编译器只有当源代码中指定了显 ...

  7. explicit抑制隐型转换

    本文出自 http://www.cnblogs.com/cutepig/ 按照默认规定,只有一个参数的构造函数也定义了一个隐式转换,将该构造函数对应数据类型的数据转换为该类对象,如下面所示: clas ...

  8. C++ explicit关键字详解

    本文系转载,原文链接:http://www.cnblogs.com/ymy124/p/3632634.html 首先, C++中的explicit关键字只能用于修饰只有一个参数的类构造函数, 它的作用 ...

  9. Implicit and Explicit Multithreading MULTITHREADING AND CHIP MULTIPROCESSORS

    COMPUTER ORGANIZATION AND ARCHITECTURE DESIGNING FOR PERFORMANCE NINTH EDITION The concept of thread ...

随机推荐

  1. Activity 学习(二) 搭建第一个Activity流程框架

    本次示例使用的IDER测试完成 测试背景 : xx饿了去饭店吃饭  需要先和服务员点餐  点完餐后服务员将菜品传递给厨师制作  制作完成后吃饱 一 :创建流程图 创建上一篇测试成功出现的BpmnFil ...

  2. 设计模式(十六)Mediator模式

    在实际的工作小组的交流过程是,组员向仲裁者报告,仲裁者向组员下达指示,组员之间不再互相询问和指示.Mediator模式是指,当发生麻烦事情的时候,通知仲裁者:当发生涉及全体组员的事情时,也通知仲裁者. ...

  3. unity 开启外部摄像头

    在unity中建立一个image作为摄像头显示画面,然后通过命令render到image上即可. public WebCamTexture webTex; public string deviceNa ...

  4. leetcode系列---atoiFunction C#code

    Function: /// <summary> /// ToInt /// </summary> /// <param name="str">& ...

  5. WebSocket原理及技术简介

    摘要: WebSocket用于在Web浏览器和服务器之间进行任意的双向数据传输的一种技术.WebSocket协议基于TCP协议实现,包含初始的握手过程,以及后续的多次数据帧双向传输过程.其目的是在We ...

  6. Life is short, I love Python~!

    python学习目录 一:计算机基础 计算机基础 二:python基础 python基础 三:函数 函数 内置函数匿名函数 迭代器生成器 四:文件处理&异常 文件处理 异常处理 五:模块 常用 ...

  7. VBoxManage.exe: error: Failed to instantiate CLSID_VirtualBox w/ IVirtualBox, CL SID_VirtualBox w/ IUnknown works.

    我先把vagrantbox卸载了 重新装了一个 然后提示这个错误 当时我一脸蒙逼 后来经过百度 1, win+r 快捷键打开 “运行”,输入regedit 打开注册表 2,找到 HKEY_CLASSE ...

  8. python基础-数字类型及内置方法

    --数字类型及内置方法 整型-int 用途:多用于年龄.电话.QQ号等变量 定义方法 age = 18 # age = int(18) 常用方式:多用于数学计算 # int(x)将x转换成整数,是向下 ...

  9. Mysql数据一般问题

    数据插入中文全部变为???问题: 1.停止Mysql服务: 2.修改C:\Program Files (x86)\MySQL\MySQL Server 5.5\My.ini default-chara ...

  10. Project Euler 56: Powerful digit sum

    一个古戈尔也就是\(10^{100}\)是一个天文数字,一后面跟着一百个零.\(100^{100}\)更是难以想像的大,一后面跟着两百个零.但是尽管这个数字很大,它们各位数字的和却只等于一.考虑两个自 ...