Weilin Huang——【ECCV2016】Detecting Text in Natural Image with Connectionist Text Proposal Network

作者和相关链接

个人主页：Zhi Tian，黄伟林，Tong He，Pan He，乔宇
作者简单信息：

论文下载：论文传送门
代码下载：代码传送门

几个关键的Idea出发点

文本检测和一般目标检测的不同——文本线是一个sequence（字符、字符的一部分、多字符组成的一个sequence），而不是一般目标检测中只有一个独立的目标。这既是优势，也是难点。优势体现在同一文本线上不同字符可以互相利用上下文，可以用sequence的方法比如RNN来表示。难点体现在要检测出一个完整的文本线，同一文本线上不同字符可能差异大，距离远，要作为一个整体检测出来难度比单个目标更大——因此，作者认为预测文本的竖直位置（文本bounding box的上下边界）比水平位置（文本bounding box的左右边界）更容易。
Top-down（先检测文本区域，再找出文本线）的文本检测方法比传统的bottom-up的检测方法（先检测字符，再串成文本线）更好。自底向上的方法的缺点在于（这点在作者的另一篇文章中说的更清楚），总结起来就是没有考虑上下文，不够鲁棒，系统需要太多子模块，太复杂且误差逐步积累，性能受限。
RNN和CNN的无缝结合可以提高检测精度。CNN用来提取深度特征，RNN用来序列的特征识别（2类），二者无缝结合，用在检测上性能更好。

方法概括

基本流程如Fig 1，整个检测分六步：
- 第一，用VGG16的前5个Conv stage（到conv5）得到feature map(W*H*C)
- 第二，在Conv5的feature map的每个位置上取3*3*C的窗口的特征，这些特征将用于预测该位置k个anchor（anchor的定义和Faster RCNN类似）对应的类别信息，位置信息。
- 第三，将每一行的所有窗口对应的3*3*C的特征（W*3*3*C）输入到RNN（BLSTM）中，得到W*256的输出
- 第四，将RNN的W*256输入到512维的fc层
- 第五，fc层特征输入到三个分类或者回归层中。第二个2k scores 表示的是k个anchor的类别信息（是字符或不是字符）。第一个2k vertical coordinate和第三个k side-refinement是用来回归k个anchor的位置信息。2k vertical coordinate表示的是bounding box的高度和中心的y轴坐标（可以决定上下边界），k个side-refinement表示的bounding box的水平平移量。这边注意，只用了3个参数表示回归的bounding box，因为这里默认了每个anchor的width是16，且不再变化（VGG16的conv5的stride是16）。回归出来的box如Fig.1中那些红色的细长矩形，它们的宽度是一定的。
- 第六，用简单的文本线构造算法，把分类得到的文字的proposal（图Fig.1（b）中的细长的矩形）合并成文本线

Fig. 1: (a) Architecture of the Connectionist Text Proposal Network (CTPN). We densely slide a 3×3 spatial window through the last convolutional maps (conv5 ) of the VGG16 model [27]. The sequential windows in each row are recurrently connected by a Bi-directional LSTM (BLSTM) [7], where the convolutional feature (3×3×C) of each window is used as input of the 256D BLSTM (including two 128D LSTMs). The RNN layer is connected to a 512D fully-connected layer, followed by the output layer, which jointly predicts text/non-text scores, y-axis coordinates and side-refinement offsets of k anchors. (b) The CTPN outputs sequential fixed-width fine-scale text proposals. Color of each box indicates the text/non-text score. Only the boxes with positive scores are presented.

方法细节

Detecting Text in Fine-scale proposals
- k个anchor尺度和长宽比设置：宽度都是16，k = 10，高度从11~273（每次除于0.7）
- 回归的高度和bounding box的中心的y坐标如下，带*的表示是groundTruth，带a的表示是anchor

- score阈值设置：0.7 （+NMS）
- 一般的RPN和采用本文的方法检测出的效果对比

Recurrent Connectionist Text Proposals
- RNN类型：BLSTM（双向LSTM），每个LSTM有128个隐含层
- RNN输入：每个滑动窗口的3*3*C的特征（可以拉成一列），同一行的窗口的特征形成一个序列
- RNN输出：每个窗口对应256维特征
- 使用RNN和不适用RNN的效果对比，CTPN是本文的方法（Connectionist Text Proposal Network）

Side-refinement
- 文本线构造算法（多个细长的proposal合并成一条文本线）
  - 主要思想：每两个相近的proposal组成一个pair，合并不同的pair直到无法再合并为止（没有公共元素）
  - 判断两个proposal，Bi和Bj组成pair的条件：
    1. Bj->Bi，且Bi->Bj。（Bj->Bi表示Bj是Bi的最好邻居）
    2. Bj->Bi条件1：Bj是Bi的邻居中距离Bi最近的，且该距离小于50个像素
    3. Bj->Bi条件2：Bj和Bi的vertical overlap大于0.7
- 固定要regression的box的宽度和水平位置会导致predict的box的水平位置不准确，所以作者引入了side-refinement，用于水平位置的regression。where x_side is the predicted x-coordinate of the nearest horizontal side (e.g., left or right side) to current anchor. x^∗ side is the ground truth (GT) side coordinate in x-axis, which is pre-computed from the GT bounding box and anchor location. c^a_xis the center of anchor in x-axis. wa is the width of anchor, which is fixed, w_a = 16

- 使用side-refinement的效果对比

实验结果

时间：0.14s with GPU
ICDAR2011，ICDAR2013，ICDAR2015库上检测结果

总结与收获点

这篇文章的方法最大亮点在于把RNN引入检测问题（以前一般做识别）。文本检测，先用CNN得到深度特征，然后用固定宽度的anchor来检测text proposal（文本线的一部分），并把同一行anchor对应的特征串成序列，输入到RNN中，最后用全连接层来分类或回归，并将正确的text proposal进行合并成文本线。这种把RNN和CNN无缝结合的方法提高了检测精度。

论文阅读（Weilin Huang——【ECCV2016】Detecting Text in Natural Image with Connectionist Text Proposal Network）的更多相关文章

论文阅读笔记四：CTPN: Detecting Text in Natural Image with Connectionist Text Proposal Network(ECCV2016)
前面曾提到过CTPN,这里就学习一下,首先还是老套路,从论文学起吧.这里给出英文原文论文网址供大家阅读:https://arxiv.org/abs/1609.03605. CTPN,以前一直认为缩写一 ...
深度学习论文翻译解析（三）：Detecting Text in Natural Image with Connectionist Text Proposal Network
论文标题:Detecting Text in Natural Image with Connectionist Text Proposal Network 论文作者:Zhi Tian , Weilin ...
论文阅读笔记（二十一）【CVPR2017】：Deep Spatial-Temporal Fusion Network for Video-Based Person Re-Identiﬁcation
Introduction (1)Motivation: 当前CNN无法提取图像序列的关系特征:RNN较为忽视视频序列前期的帧信息,也缺乏对于步态等具体信息的提取:Siamese损失和Triplet损失 ...
论文阅读笔记（十六）【AAAI2018】：Region-Based Quality Estimation Network for Large-Scale Person Re-Identiﬁcation
Introduction (1)Motivation: 当前的行人重识别方法都只能在标准的数据集上取得好的效果,但当行人被遮挡或者肢体移动时,往往效果不佳. (2)Contribution: ① 提出 ...
CTPN_论文阅读总结
论文全名:Detecting Text in Natural Image with Connectionist Text Proposal Network 1.摘要 (1)本文提出新型网络CTPN,用 ...
论文阅读（Weilin Huang——【TIP2016】Text-Attentional Convolutional Neural Network for Scene Text Detection）
Weilin Huang--[TIP2015]Text-Attentional Convolutional Neural Network for Scene Text Detection) 目录作者 ...
论文阅读（Weilin Huang——【AAAI2016】Reading Scene Text in Deep Convolutional Sequences）
Weilin Huang--[AAAI2016]Reading Scene Text in Deep Convolutional Sequences 目录作者和相关链接方法概括创新点和贡献方法 ...
论文阅读（Weilin Huang——【arXiv2016】Accurate Text Localization in Natural Image with Cascaded Convolutional Text Network）
Weilin Huang——[arXiv2016]Accurate Text Localization in Natural Image with Cascaded Convolutional Tex ...
论文阅读（XiangBai——【CVPR2017】Detecting Oriented Text in Natural Images by Linking Segments）
XiangBai——[CVPR2017]Detecting Oriented Text in Natural Images by link Segments 目录作者和相关链接方法概括方法细节 ...

随机推荐

(三)ajax请求不同源之服务器代理跨域
一.基本原理 Server Proxy,顾名思义,在服务器端设置一个代理,由服务器端向跨域的网站发出请求,再将请求结果返回给前端,成功避免同源策略的限制. 二.客户端和服务端代码 1.在localho ...
跑的飞快的dinic
orz kczno1 目前还是不知道怎么卡,也不会证明复杂度是正确的其实我感觉卡不了
MySql数据and高级查询
1.CREATE TABLE grade(stuID INT AUTO_INCREMENT PRIMARY KEY NOT NULL,stuName VARCHAR(32),stuAge INT ) ...
Linux下Python模式下【Tab】自动补全
注:此文为转载他人博客,如有侵权,请联系我删除 1.我们需要一个tab补全的功能脚本 #!/usr/bin/python # python tab file import sys import re ...
第二天(就业班) html的引入、html常用标签、实体标签、超链接标签、图片标签、表格、框架标签、表单[申明：来源于网络]
第二天(就业班) html的引入.html常用标签.实体标签.超链接标签.图片标签.表格.框架标签.表单[申明:来源于网络] 第二天(就业班) html的引入.html常用标签.实体标签.超链接标签. ...
python 中的类
1.1 类里面包括:类的属性.方法 OO的特征(Object Oriented) 封装:信息隐蔽技术继承:继承是子类自动共享父类之间数据和方法的机制 >>> class MyCla ...
go 并发编程(2)
协程执行体是个抽象的概念,在操作系统层面有很多个概念与之对应,如操作系统自己掌管的进程(process),进程内的线程(thread),以及进程内的协程(coroutine,也叫轻量级线程).与传统 ...
记录智能合约solidity编译的坑
在Linux环境下入门写一段solidity编译遇到error和warning,经过一番研究后才得其缘由,下面以一段demo总结一下. pragma solidity ^; // 指定所需的编译器版本 ...
mysql 外键约束及表关联
一.MYSQL中的约束 1.主键:primary key 唯一非空的特性并且可以优化查询速度 2.外键:foreign key 外键的作用保证2个或2个以上的数据表的数据一致性和完整性 3.唯一:un ...
Apache Arrow
https://www.kdnuggets.com/2017/02/apache-arrow-parquet-columnar-data.html https://arrow.apache.org/ ...

论文阅读（Weilin Huang——【ECCV2016】Detecting Text in Natural Image with Connectionist Text Proposal Network）

Weilin Huang——【ECCV2016】Detecting Text in Natural Image with Connectionist Text Proposal Network

目录

作者和相关链接

几个关键的Idea出发点

方法概括

基本流程如Fig 1， 整个检测分六步：

方法细节

Detecting Text in Fine-scale proposals

Recurrent Connectionist Text Proposals

Side-refinement

实验结果

总结与收获点

论文阅读（Weilin Huang——【ECCV2016】Detecting Text in Natural Image with Connectionist Text Proposal Network）的更多相关文章

随机推荐

热门专题

基本流程如Fig 1，整个检测分六步：