Shitala Prasad_ECCV2018】Using Object Information for Spotting Text

作者和代码

关键词

文字检测、水平文本、FasterRCNN、xywh、multi-stage

方法亮点

作者argue图像中的文字不可能单独出现,文字一定是写在什么载体上的,比如衣服,包装袋,交通部标志牌,黑板上,而且文字不会出现在某些载体上,比如天空,水面上,也就是说文字背后的载体对文字是否出现也有很强的相关性和指导性。所以,他串联了两个网络,第一个用来做通用目标检测,比如检测刚才说的衣服黑板等,第二个用来定位文字。通过利用这个文字载体的信息来辅助定位文字。这个方法确实对结果有提高,不过需要对数据集有要求,需要标注除文字外的其他物体(类似于COCO),所以作者又提出了一个2万多的数据集-NTU-UTOI(22k)。

There exists a strong relationship between certain objects and the presence of text, such as signboards or the absence of text, such as trees.

方法概述

本文方法利用Faster RCNN来做文字检测(水平),改进的地方在于backbone增加了一个VGG-16 net,该子网络用于学习图像中的所有Object信息(包括文字、背景里的各种目标类),采用了三步分段训练方式来训练模型。实验表明,把文字载体的类别信息融合进去后对文字检测结果有很大提升。

方法细节

方法流程

TO-CNN采用Faster RCNN框架,网络结构: backbone(Object VGG-16 + Text VGG-16) + RPN + Regression部分。

其中对于Object VGG-16和Text VGG-16的训练网络结构如下:。

  • Object VGG-16 + RPN + Regression构成第一个网络,用于通用目标检测(42类object),如下图a;

  • Object VGG-16 + Text VGG-16 + RPN + Regression构成第二个网络,用于文字检测(2类),如下图b。注意Object VGG-16是从第一个网络来的。

Fig. 3. The proposed TO-CNN for text spotting based on object information. (a) Illustrates the first training stage to extract object information and store in the Object CNN. (b) Illustrates the second training stage to tune the parameters in the Text CNN and the third training stage to fine tune the entire network for text spotting.

三个训练阶段

该方法分为三个训练阶段。

  • Stage1: 训练第一个通用目标检测网络,(Object的类目信息已存储在Object VGG-16 net里)

Once the network is fully trained, the object and text information would be stored in the VGG-16 net.

  • Stage2:固定Object VGG-16,训练第二个文字检测网络,(增加一个新的VGG-16 net,Text VGG-16 net)

In this stage, the Text VGG-16 net takes the object and text features from the Object VGG-16 to tune its parameters for text detection. From another point of view, the Text VGG-16 net fuses the text and object features for text detection.

  • Stage3: 不固定Object VGG-16,训练第二个文字检测网络

At the end of this training stage, the network is fully optimized for text spotting based on object and text information.

其他细节
  • 两个网络stack的方式采用的是:stacked hourglass approach(Yang, J., Liu, Q., Zhang, K.: Stacked hourglass network for robust facial landmark localisation. In: Computer Vision and Pattern Recognition Workshops (CVPRW), 2017 IEEE Conference on, IEEE (2017) 2025–2033)

实验结果

  • NTU-UTOI数据集

    该数据集是由几个已有的public公开数据集(只包含训练集,不包含测试集),并标注了42类object组成。

    • 22,767 images from ICDAR 2011 robust scene text, ICDAR 2015 incident scene text, KAIST scene text, MSRA-TD500, NEOCR11, SVT, USTBSV1k, and Traffic Sign datasets, together with images collected from the Internet and authors’ personal collections.
    • 18,173 images are used for training and the rest 4,594 images are used for testing.

  • MSRA-TD500

  • SVT

  • COCO-Text

  • NTU-UTOI

  • 在NTU-UTOI上fine-tune之后

  • 不同anchor的比较

总结与收获

这篇方法的idea很有意思。通过利用text背后的载体信息来帮助文字的定位,这个思想其实不是这篇文章首创,Yingli Tian_CVPR2017】Unambiguous Text Localization and Retrieval for Cluttered Scenes这篇文章里其实有提过相似的思想。

【论文速读】Shitala Prasad_ECCV2018】Using Object Information for Spotting Text的更多相关文章

  1. 【论文速读】Sheng Zhang_AAAI2018_Feature Enhancement Network_A Refined Scene Text Detector

    Sheng Zhang_AAAI2018_Feature Enhancement Network_A Refined Scene Text Detector 作者 关键词 文字检测.水平文字.Fast ...

  2. 论文速读(Jiaming Liu——【2019】Detecting Text in the Wild with Deep Character Embedding Network )

    Jiaming Liu--[2019]Detecting Text in the Wild with Deep Character Embedding Network 论文 Jiaming Liu-- ...

  3. 【论文速读】Shangbang Long_ECCV2018_TextSnake_A Flexible Representation for Detecting Text of Arbitrary Shapes

    Shangbang Long_ECCV2018_TextSnake_A Flexible Representation for Detecting Text of Arbitrary Shapes 作 ...

  4. 论文速读(Yongchao Xu——【2018】TextField_Learning A Deep Direction Field for Irregular Scene Text)

    Yongchao Xu--[2018]TextField_Learning A Deep Direction Field for Irregular Scene Text Detection 论文 Y ...

  5. 论文速读(Chuhui Xue——【arxiv2019】MSR_Multi-Scale Shape Regression for Scene Text Detection)

    Chuhui Xue--[arxiv2019]MSR_Multi-Scale Shape Regression for Scene Text Detection 论文 Chuhui Xue--[arx ...

  6. 【论文速读】Yuliang Liu_2017_Detecting Curve Text in the Wild_New Dataset and New Solution

    Yuliang Liu_2017_Detecting Curve Text in the Wild_New Dataset and New Solution 作者和代码 caffe版代码 关键词 文字 ...

  7. 【论文速读】XiangBai_TIP2018_TextBoxes++_A Single-Shot Oriented Scene Text Detector

    XiangBai_TIP2018_TextBoxes++_A Single-Shot Oriented Scene Text Detector 作者和代码 Minghui Liao, Baoguang ...

  8. 【论文速读】Cong_Yao_CVPR2017_EAST_An_Efficient_and_Accurate_Scene_Text_Detector

    Cong_Yao_CVPR2017_EAST_An_Efficient_and_Accurate_Scene_Text_Detector 作者和代码 非官方版tensorflow实现 非官方版kera ...

  9. 【论文速读】Chuhui Xue_ECCV2018_Accurate Scene Text Detection through Border Semantics Awareness and Bootstrapping

    Chuhui Xue_ECCV2018_Accurate Scene Text Detection through Border Semantics Awareness and Bootstrappi ...

随机推荐

  1. PBRT笔记(3)——KD树

    茎节点与叶子节点 茎节点与叶子节点皆适用KdAccelNode来表示 注意:这里使用了匿名union union有个特性:内部类型共用一段内存,且大小为内部最大类型的大小. struct KdAcce ...

  2. MongoDB 简单操作

    MongoDB操作 之 原生ORM,根本不存在SQL语句,数据之间不存在联系 查看数据库(查看磁盘中的数据库) > show databases; 使用数据库 > use local 创建 ...

  3. NOIP-数字反转

    题目描述 给定一个整数,请将该数各个位上数字反转得到一个新数.新数也应满足整数的常见形式,即除非给定的原数为零,否则反转后得到的新数的最高位数字不应为零(参见样例2). 输入描述: 一个整数 N. 输 ...

  4. Linux下的文件切割和文件合并

    linux下文件分割可以通过split命令来实现,可以指定按行数分割和按大小分割两种模式.Linux下文件合并可以通过cat命令来实现. 在Linux下用split进行文件分割: ①:指定分割后文件行 ...

  5. 【最短路+最大流】上学路线@安徽OI2006

    目录 [最短路+最大流]上学路线@安徽OI2006 PROBLEM SOLUTION CODE [最短路+最大流]上学路线@安徽OI2006 PROBLEM 洛谷P4300 SOLUTION 先在原图 ...

  6. React 面向组件化编程 - 封装了webpack - npm run build 产生的包的 /static 引用路径问题

    React 面向组件化编程 面向对象 ----> 面向模块 ----> 面向组件 套路: 注意: 组件名必须大写开头: 只能有一个根标签: <input />虚拟DOM 元素必 ...

  7. [LeetCode] Robot Room Cleaner 扫地机器人

    Given a robot cleaner in a room modeled as a grid. Each cell in the grid can be empty or blocked. Th ...

  8. What's the meaning of unqualified-id?

    catch( const std::runtime_error & e) { .... } When compile, met an error: error: expected unqual ...

  9. python基础的学习

    今日内容 1.常见操作系 1.win win7 win10 window serrer 2.linux centons 图像界面差 upuntu 个人开发(图形化较好) redhat 企业 3.mac ...

  10. Win10问题汇总

    1.重置网络连接命令 netsh winsock reset ipconfig /flushdns 2.WIN10去除我的电脑上面的6个文件夹 把下面代码复制,保存到.reg中,然后执行即可(修改注册 ...