Shangxuan Tian——【ICCV2017】WeText_Scene Text Detection under Weak Supervision


目录

  • 作者和相关链接
  • 文章亮点
  • 方法介绍
  • 方法细节
  • 实验结果
  • 总结与收获

作者和相关链接

  • 作者

文章亮点

  • 用半监督和无监督来学习字符分类器,解决字符标注数据量少的问题
  • 用regression的思路来学习字符分类器,而且是把proposal + text/non-text classification整合在一个网络中学习(这一点没有第一点亮)

方法介绍

  • 检测流程

    • 用SSD检测字符(文章的亮点在于如何训练这个SSD)

    • 用TextFlow的图模型把字符连成单词输出

Figure 2: The framework of the proposed WeText system: A “light” supervised model is pre-trained using a small amount of annotated character image set. The light model is then applied to an unannotated dataset to search for more character samples which are combined with the small annotated dataset to train a semi-supervised model. Under certain weak annotations, better character samples can be searched to train a semi-supervised model

  • 训练SSD的半监督方法

    • 用一个小数据集(记为D)采用监督的方式训练一个light的base model(记为M)

    • 用M跑一遍没有标注的大数据集(记为R),将其中分数大于阈值(0.5)的样本作为正样本(记为数据集P)

    • 用数据集D+数据集P训练新的model(记为M’)

  • 训练SSD的弱监督方法
    • 用一个小数据集(记为D)采用监督的方式训练一个light的base model(记为M)

    • 用M跑一遍有单词标注信息的大数据集(记为R’),将其中分数大于阈值(0.2)且与单词标注GT有重叠(水平和竖直IOU阈值0.8)的样本作为正样本(记为数据集P’)

    • 用数据集D+数据集P’训练新的model(记为M’’)

方法细节

  • 几种SSD模型效果对比

Figure 4: Comparison of different character detectors. Images in the top row from left to right are the input image and output of the baseline detector. Images in the bottom row from left to right are outputs of “COCO-Text Semi” and “COCO-Text Weakly” detectors, respectively. The thickness of the box boundary lines indicates the detection confidence

  • Training

    • Base model:ICDAR2013的字符集
    • FORU: FORU_Semi为半监督,FORU_Weakly为弱监督,FORU_GT为完全监督(FORU本身有字符集标注信息,COCO-Text上没有,故没有COCO-Text_GT)。FORU_GT的目的在于验证用半监督和弱监督的方法也可以达到几乎和完全监督的效果是一样的(FORU_GT算是算法的精度上限),证明其半监督和弱监督的有效性;
    • COCO_Text: 由于COCO-Text的样本集比FORU大,所以实验证明了无监督数据越多,效果越好;

实验结果

  • 速度说明

    • Nvidia Titan X GPU
    • ICDAR2013:190ms-SSD模型,130ms-text line model,总的320ms/每张图
  • ICDAR13

  • SVT

总结与收获

  • 这篇文章最大亮点无疑是用弱监督来扩增训练数据的思想,非常有参考价值,所以虽然点少但是也中ICCV。但是文中没有太多训练细节,比如在新的数据库上是重新train还是在原base model上fine-tune的,以及SSD的anchor设置细节之类的。
  • 不看亮点,单看检测方法,其缺点在于:第一,速度比较慢;第二,只能处理水平的,无法处理多方向的;第三,由于采用了character-based的pipeline,导致必须加上text flow里的图模型来合并文本线。这种思路不但需要两个分离的模型,速度降低,也会因为分步累计误差,且无法端到端训练。且第二点也是因为采用这种pipeline导致的,实际上要将character合并成多方向的text line也是可以的,但是不能用text flow里的,而是需要设计新的算法来替换(这个也蛮有难度的)。

【速读】——Shangxuan Tian——【ICCV2017】WeText_Scene Text Detection under Weak Supervision的更多相关文章

  1. 【论文速读】Fangfang Wang_CVPR2018_Geometry-Aware Scene Text Detection With Instance Transformation Network

    Han Hu--[ICCV2017]WordSup_Exploiting Word Annotations for Character based Text Detection 作者和代码 caffe ...

  2. 【论文速读】Chuhui Xue_ECCV2018_Accurate Scene Text Detection through Border Semantics Awareness and Bootstrapping

    Chuhui Xue_ECCV2018_Accurate Scene Text Detection through Border Semantics Awareness and Bootstrappi ...

  3. 【论文速读】Yuliang Liu_2017_Detecting Curve Text in the Wild_New Dataset and New Solution

    Yuliang Liu_2017_Detecting Curve Text in the Wild_New Dataset and New Solution 作者和代码 caffe版代码 关键词 文字 ...

  4. 【论文速读】Pan He_ICCV2017_Single Shot Text Detector With Regional Attention

    Pan He_ICCV2017_Single Shot Text Detector With Regional Attention 作者和代码 caffe代码 关键词 文字检测.多方向.SSD.$$x ...

  5. 论文速读(Chuhui Xue——【arxiv2019】MSR_Multi-Scale Shape Regression for Scene Text Detection)

    Chuhui Xue--[arxiv2019]MSR_Multi-Scale Shape Regression for Scene Text Detection 论文 Chuhui Xue--[arx ...

  6. 【论文速读】XiangBai_CVPR2018_Rotation-Sensitive Regression for Oriented Scene Text Detection

    XiangBai_CVPR2018_Rotation-Sensitive Regression for Oriented Scene Text Detection 作者和代码 caffe代码 关键词 ...

  7. 论文速读(Yongchao Xu——【2018】TextField_Learning A Deep Direction Field for Irregular Scene Text)

    Yongchao Xu--[2018]TextField_Learning A Deep Direction Field for Irregular Scene Text Detection 论文 Y ...

  8. 【论文速读】Shitala Prasad_ECCV2018】Using Object Information for Spotting Text

    Shitala Prasad_ECCV2018]Using Object Information for Spotting Text 作者和代码 关键词 文字检测.水平文本.FasterRCNN.xy ...

  9. 【论文速读】Sheng Zhang_AAAI2018_Feature Enhancement Network_A Refined Scene Text Detector

    Sheng Zhang_AAAI2018_Feature Enhancement Network_A Refined Scene Text Detector 作者 关键词 文字检测.水平文字.Fast ...

随机推荐

  1. (三)ajax请求不同源之cors跨域

    一.基本原理 CORS是一个W3C标准,全称是"跨域资源共享"(Cross-origin resource sharing)它允许浏览器向跨源服务器,发出 XMLHttpReque ...

  2. 关于Function Language(函数式语言是什么?包含哪些语言?为什么函数式语言流行?)

    1.What? Function Language是一种非冯诺依曼式的程序设计语言.函数式语言的主要成分是原始函数.定义函数和函数型. 这种语言具有较强的组织数据结构的能力,可以把某一数据结构(如数组 ...

  3. Hadoop Yarn 框架原理及运作机制及与MapReduce比较

    Hadoop 和 MRv1 简单介绍 Hadoop 集群可从单一节点(其中所有 Hadoop 实体都在同一个节点上运行)扩展到数千个节点(其中的功能分散在各个节点之间,以增加并行处理活动).图 1 演 ...

  4. PBRT笔记(4)——颜色和辐射度

    SPD 光谱功率分布 CoefficientSpectrum 根据给定采样数表示光谱,为RGBSpectrum.SampledSpectrum的父类. 重载大量的基础代码,比较简单不做赘述.其中为了方 ...

  5. Android的Activity组件

    本章主题是Activity组件:Activity是Android四大组价之一,其重要地位自然不用说.“Activity是应用程序中可见的交互组件的基类,大致上等同于传统桌面应用个程序开发中的窗体.”( ...

  6. 编程菜鸟的日记-初学尝试编程-C++ Primer Plus 第5章编程练习9

    #include <iostream>using namespace std;int main(){ int num; cout<<"Enter number of ...

  7. Linux shell编程语法

    由于条件判断和循环跟其他语言都大同小异,学过编程的话很好理解,这里只贴出格式,不具体写用法了.(select菜单会详细讲一下) 条件判断 if条件判断 普通if条件判断: if 判断条件1; then ...

  8. 字典树-THE XOR largest pair

    题目:给你n个数字A1,A2....An ,问从中选出两个数字异或运算得到的最大结果是多少 0<=Ai<231 用字典树,记录每个数字的31位2进制01串(int 为4个字节,每个字节8个 ...

  9. (97)Wangdao.com_第三十天_触摸事件

    触摸事件 只有触摸屏才会引发这一类事件 触摸事件 和 鼠标事件 同时触发,即使这个时候并没有用到鼠标. 这是为了让那些只定义鼠标事件.没有定义触摸事件的代码,在触摸屏的情况下仍然能用. 如果想避免这种 ...

  10. php发送邮箱重置密码链接,并在重置成功后使链接失效 (ThinkPHP5)

    /** * 重置密码页,验证链接有效性,页面发送邮件调用sendResetPwdEmail()方法 */ public function resetPwd() { $param = input('') ...