【论文速读】Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation[2018-CPVR]

VitoYeah 2024-10-29 02:14:16 原文

方法概述

该方法用一个端到端网络完成文字检测整个过程——除了基础卷积网络（backbone）外，包括两个并行分支和一个后处理。第一个分支是通过一个DSSD网络进行角点检测来提取候选文字区域，第二个分支是利用类似于RFCN进行网格划分的方式来做position-sensitive的segmentation。后处理是利用segmentation的score map的综合得分，过滤角点检测得到的候选区域中的噪声。

文章亮点：

（1）不是用一般的目标检测的框架，而是用角点检测（corner point detection）来做。（可以更好解决文字方向任意、文字长宽比很大的文本）

（2）分割用的是“position sensitive segmentation”，仿照RFCN划分网格的思路，把位置信息融合进去（对于检测单词这种细粒度的更有利）

（3）把检测+分割两大类的方法整合起来，进行综合打分的pipeline（可以使得检测精度更高）

主要流程

Figure 2. Overview of our method. Given an image, the network outputs corner points and segmentation maps by corner detection and position-sensitive segmentation. Then candidate boxes are generated by sampling and grouping corner points. Finally, those candidate boxes are scored by segmentation maps and suppressed by NMS.

（1）backbone：基础网络（DSSD），用来特征提取（不同分支特征共享）

（2）corner detection：用来生成候选检测框，是一个独立的检测模块，类似于RPN的功能

（3）Position Sensitive Segmentation：整张图逐像素的打分，和一般分割不同的是输出4个score map，分别对应左上、左下、右上、右下不同位置的得分

（4）Scoring + NMS：综合打分，利用（2）的框和（3）的score map再综合打分，去掉非文字框，最后再接一个NMS

网络结构

网络包含三个部分：基础网络（backbone）、角点检测和敏感位置分割。

Backbone改编于DSSD；Corner Point Detection建立在多个特征层（粉红色的块）上；Position Sensitive Segmentation与Corner Point Detection共享部分特征（粉红色块）。

实验结果

（1）深度学习框架：PyTorch

（2）实验条件：CPU: Intel(R) Xeon(R) CPU E5-2650 v3 @ 2.30GHz;

GPU: Nvidia Titan Pascal;

RAM: 64GB

所有表格中，*表示多尺度输入，†表示网络的基础模型不是VGG16

（3）

多尺度（512*512，768*768，768*1280，1280*1280）

ICDAR2015（倾斜文本）

ICDAR2013（水平文本）

MSRA-TD500（倾斜文本行）

MLT（多语言文本）

COCO-Text

【论文速读】Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation[2018-CPVR]的更多相关文章

XiangBai——【CVPR2018】Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation
XiangBai——[CVPR2018]Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentat ...
【论文速读】XiangBai_CVPR2018_Rotation-Sensitive Regression for Oriented Scene Text Detection
XiangBai_CVPR2018_Rotation-Sensitive Regression for Oriented Scene Text Detection 作者和代码 caffe代码关键词 ...
论文速读（Chuhui Xue——【arxiv2019】MSR_Multi-Scale Shape Regression for Scene Text Detection）
Chuhui Xue--[arxiv2019]MSR_Multi-Scale Shape Regression for Scene Text Detection 论文 Chuhui Xue--[arx ...
【论文速读】XiangBai_TIP2018_TextBoxes++_A Single-Shot Oriented Scene Text Detector
XiangBai_TIP2018_TextBoxes++_A Single-Shot Oriented Scene Text Detector 作者和代码 Minghui Liao, Baoguang ...
【论文速读】Chuhui Xue_ECCV2018_Accurate Scene Text Detection through Border Semantics Awareness and Bootstrapping
Chuhui Xue_ECCV2018_Accurate Scene Text Detection through Border Semantics Awareness and Bootstrappi ...
论文速读（Yongchao Xu——【2018】TextField_Learning A Deep Direction Field for Irregular Scene Text）
Yongchao Xu--[2018]TextField_Learning A Deep Direction Field for Irregular Scene Text Detection 论文 Y ...
论文阅读（Xiang Bai——【arXiv2016】Scene Text Detection via Holistic, Multi-Channel Prediction）
Xiang Bai--[arXiv2016]Scene Text Detection via Holistic, Multi-Channel Prediction 目录作者和相关链接方法概括创新 ...
论文阅读（Weilin Huang——【TIP2016】Text-Attentional Convolutional Neural Network for Scene Text Detection）
Weilin Huang--[TIP2015]Text-Attentional Convolutional Neural Network for Scene Text Detection) 目录作者 ...
Learning Markov Clustering Networks for Scene Text Detection
Learning Markov Clustering Networks for Scene Text Detection 论文下载:https://arxiv.org/pdf/1805.08365v1 ...

随机推荐

Unity用Vuforia做AR实现脱卡效果
这篇不错,记录下,博主不让转载 http://blog.csdn.net/qwe161819/article/details/76107105
day09-python基础
一.Linux基础 - 计算机以及日后我们开发的程序防止的服务器的简单操作二.Python开发 a.开发 1.开发语言高级语言:Python Java.PHP C# Go ruby C++... ...
vxworks开发中simulator的使用之建立虚拟网卡
在使用windriver workben ch开发vxWorks应用时,有时需要在本机上利用Simulator跑一下程序,这就需要你安装一个虚拟的网卡.vxWorks自带了这些工具,下面,以windo ...
对八皇后的补充以及自己解决2n皇后问题代码
有了上次的八皇后的基础.这次准备解决2n皇后的问题,: //问题描述// 给定一个n*n的棋盘,棋盘中有一些位置不能放皇后.现在要向棋盘中放入n个黑皇后和n个白皇后,使任意的两个黑皇后都不在同一行./ ...
CentOS 离线安装 MYSQL+APACHE+PHP
一.MYSQL安装下载MYSQL安装包:MySQL-client-XXX.rpm MySQL-server-XXX.rpm MySQL-devel-XXX.rpm 如有冲突,要先删除原来的M ...
基础JAVA程序设计（多个类与方法的实现2）
设计一个类代表二维空间的一个点(Point),要求:两个成员变量:x坐标和y坐标. 设计一个类代表二维空间的一个圆(Circle),要求:两个成员变量:一个是圆心,一个是半径:提供计算圆面积的方法:提 ...
analysed of J-SON/XML processing model Extend to java design model （J-SON/XML处理模型分析扩展到Java设计模型）
一.JSON和XML 1.JSON JSON(JavaScript Object Notation)一种轻量级的数据交换格式,具有良好的可读和便于快速编写的特性.可在不同平台之间进行数据交换.JSON ...
HTML和CSS怎么用
首页> 1.HTML和CSS是什么? ·网站和HTML页面 ·简单理解网站 ·一个房子比喻(HTML比喻成房子,CSS为装修) ·页面的整体结构:有树桩标签对嵌套组成 ·页面的组成单元:元素 · ...
vimperator
racedu http://www.cnblogs.com/rocedu/p/6673380.html 首先这篇答案是用All-in-One Sidebar打开侧栏照打的...以下addons是经过自 ...
最大子段和的DP算法设计及其效率测试
表情包形象取自番剧<猫咪日常> 那我也整一个曾几何时,笔者是个对算法这个概念漠不关心的人,由衷地感觉它就是一种和奥数一样华而不实的存在,即便不使用任何算法的思想我一样能写出能跑的程序直 ...