XiangBai——【AAAI2017】TextBoxes:A Fast Text Detector with a Single Deep Neural Network


目录

  • 作者和相关链接
  • 方法概括
  • 创新点和贡献
  • 方法细节
  • 实验结果
  • 总结与收获点

作者和相关链接

    • 作者

方法概括

  1. 文章核心

    • 改进版的SSD用来解决文字检测问题
  2. 端到端识别的pipeline:

    • Step 1: 图像输入到修改版SSD网络中 + 非极大值抑制(NMS)→ 输出候选检测结果
    • Step 2: 候选检测结果 + CRNN进行单词识别 → 新的检测结果 + 识别结果
  3. 方法的性能

    • 多尺度版本-定位:ICDAR2011-0.85(f),ICDAR2013-0.85(f),0.73s/per image
    • 单尺度版本-定位ICDAR2011-0.80(f),ICDAR2013-0.80(f),0.09s/per image
  4. 改进的SSD的地方:

    • default box的长宽比进行修改(长条形),使其更适合文字检测(单词)
    • 作为classifier的卷积滤波器大小从3*3变成1*5,更适合文字检测
    • SSD原来为多类检测问题,现在转为单类检测问题
    • 从输入图像为单尺度变为多尺度
    • 利用识别来调整检测的结果(text spotting)

创新点和贡献

  1. 创新点

    • 把SSD进行修改,使其适用于文字检测(SSD本身对小目标识别不鲁棒)
  2. 贡献

    • 提出一个端到端可训练的非常简洁的文字检测框架(SSD本身是single stage的,不像普通方法需要有多步骤组成)
    • 提出一个完整的端到端识别的文字检测+识别框架
    • 实验方法结果好,速度快

方法细节

  1. 相关背景——文字识别的任务

    • 文字检测
    • 文字/单词识别
    • 端到端文字识别 = 文字 + 识别
    • text spotting:和文字检测不同的是,可以利用带字典的文字识别进行调整检测结果,最终是用文字检测的结果进行评判
  2. 相关背景——SSD

    • SSD的网络结构
    • SSD的default box
    • Fig. 1: SSD framework. (a) SSD only needs an input image and ground truth boxes for each object during training. In a convolutional fashion, we evaluate a small set (e.g. 4) of default boxes of different aspect ratios at each location in several feature maps with different scales (e.g. 8 × 8 and 4 × 4 in (b) and (c)). For each default box, we predict both the shape offsets and the confidences for all object categories ((c1; c2; · · · ; cp)). At training time, we first match these default boxes to the ground truth boxes. For example, we have matched two default boxes with the cat and one with the dog, which are treated as positives and the rest as negatives. The model loss is a weighted sum between localization loss (e.g. Smooth L1 [6]) and confidence loss (e.g. Softmax). 

  3. 相关背景——CRNN

    • CRNN的网络结构
  4. TextBoxes与SSD网络结构对比

    • TextBoxes网络结构
    • SSD 网络结构
  5. Text-box layers的输出

    (与SSD一样)

  6. TextBoxes与SSD不同的修改细节

    • default box长宽比

      • (右边图)Figure 2: Illustration of default boxes for a 4*4 grid. For better visualization, only a column of default boxes whose aspect ratios 1 and 5 are plotted. The rest of the aspect ratios are 2,3,7 and 10, which are placed similarly. The black (aspect ratio: 5) and blue (ar: 1) default boxes are centered in their cells. The green (ar: 5) and red (ar: 1) boxes have the same aspect ratios and a vertical offset(half of the height of the cell) to the grid center respectively 

    • 卷积滤波器大小

    • 损失函数

  7. 多尺度输入

  8. TextBoxes+CRNN进行识别

实验结果

  1. 定位

  2. text spotting和端到端识别

  3. 效果展示

总结与收获点

  1. 原始的SSD是无法直接用在文字上的,需要进行许多修改才能达到比较好的效果,这一点作者在实验中也证明了
  2. 现在越来越多用Faster r-cnn,ssd,yolo,这类一般的目标检测方法进行修改后用在特定的目标检测上(例如文字,行人),这些方法不但速度快,而且鲁棒性也高,很重要一点,越来越倾向于端到端训练,这是因为single stage和传统的step-wise的方法相比有很多优势,例如,总体训练简单,没有stage衔接上的性能损耗,没有逐步的误差积累等等;

XiangBai——【AAAI2017】TextBoxes_A Fast Text Detector with a Single Deep Neural Network的更多相关文章

  1. 论文阅读(XiangBai——【AAAI2017】TextBoxes_A Fast Text Detector with a Single Deep Neural Network)

    XiangBai——[AAAI2017]TextBoxes:A Fast Text Detector with a Single Deep Neural Network 目录 作者和相关链接 方法概括 ...

  2. XiangBai——【CVPR2018】Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation

    XiangBai——[CVPR2018]Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentat ...

  3. 论文阅读(XiangBai——【CVPR2017】Detecting Oriented Text in Natural Images by Linking Segments)

    XiangBai——[CVPR2017]Detecting Oriented Text in Natural Images by link Segments 目录 作者和相关链接 方法概括 方法细节 ...

  4. 【RS】Automatic recommendation technology for learning resources with convolutional neural network - 基于卷积神经网络的学习资源自动推荐技术

    [论文标题]Automatic recommendation technology for learning resources with convolutional neural network ( ...

  5. 论文阅读(XiangBai——【PAMI2018】ASTER_An Attentional Scene Text Recognizer with Flexible Rectification )

    目录 XiangBai--[PAMI2018]ASTER_An Attentional Scene Text Recognizer with Flexible Rectification 作者和论文 ...

  6. 论文阅读(Lukas Neuman——【ICDAR2015】Efficient Scene Text Localization and Recognition with Local Character Refinement)

    Lukas Neuman--[ICDAR2015]Efficient Scene Text Localization and Recognition with Local Character Refi ...

  7. 论文阅读(Weilin Huang——【AAAI2016】Reading Scene Text in Deep Convolutional Sequences)

    Weilin Huang--[AAAI2016]Reading Scene Text in Deep Convolutional Sequences 目录 作者和相关链接 方法概括 创新点和贡献 方法 ...

  8. 【论文笔记】Malware Detection with Deep Neural Network Using Process Behavior

    [论文笔记]Malware Detection with Deep Neural Network Using Process Behavior 论文基本信息 会议: IEEE(2016 IEEE 40 ...

  9. 论文阅读笔记(三)【AAAI2017】:Learning Heterogeneous Dictionary Pair with Feature Projection Matrix for Pedestrian Video Retrieval via Single Query Image

    Introduction (1)IVPR问题: 根据一张图片从视频中识别出行人的方法称为 image to video person re-id(IVPR) 应用: ① 通过嫌犯照片,从视频中识别出嫌 ...

随机推荐

  1. BZOJ1493 [NOI2007]项链工厂

    未完待续... 终于改对了 热泪盈眶.jpg 错误原因:pushdown的时候没有判断是否有左右儿子,也没当x=0 return,于是出现一些奇怪的错误 #include<bits/stdc++ ...

  2. 解决Windows Server2008R2中导入Excel不能使用Jet 4.0

    操作系统使用了Windows Server2008R2(Windows Server2008R2是64位系统,同时配置IIS7.0 原读取Excel文件代码为: string strConn = st ...

  3. js回调函数,字符串,数组小析

    (一)回调函数:是指通过函数参数传递到其他代码的,某一块可执行代码的引用.这一设计允许了底层代码调用在高层定义的子程序.在抖动函数中,回调函数用于在实现一些功能之后采取的另外的措施,比如div,照片抖 ...

  4. phpcmsv9 阿里云OSS云存储整合教程

    该教程算不上是phpcmsv9阿里云oss插件,所以整个修改及其代码覆盖前请一定记得备份.还有一点就是后台发布文章时上传的附件还是会保存在你的服务器上,基于以下原因:1.个人的需求是前台页面需要使用t ...

  5. idea intellij 混淆anroid代码

    idea intellij 混淆anroid代码 在project.properties中加入 target=android-14proguard.config=proguard.cfg 点击 Bui ...

  6. Odoo Graph 指定默认 类型

    <graph string='Sale Paid Grapg' type="pivot"> <field name='section_id' type=" ...

  7. winform中的确定取消

    ~~~~~~~~~~~ 今天也是醉了,做的项目找了很多地方也没有找到为什么点击确定取消,form会关闭(还是脑子不活) 加了一个小功能,代码没有什么难的但是,就是碰见了这么一个问题 点击  确定  取 ...

  8. 2016huasacm暑假集训训练四 递推_A

    题目链接:http://acm.hust.edu.cn/vjudge/contest/125308#problem/A 这题主要考的就是就是一个排列公式,但是不能用阶乘的公式,    用这个公式不易超 ...

  9. 将bean转换成键值列表

    日常开发中在进行接口对接的数据传输时,有一种场景是将bean转成jsonString,这里可以将bean转换成Map再转成jsonString. 工具类如下: public static String ...

  10. 使用github的使用,利用git shell命令行模式进行操作

    一.登录到git,新建一个版本仓库 二.在"Repository name"一栏里填写版本仓库的名称,如"test",Description栏是描述,可填可不填 ...