Rotational region cnn

我们的目标是检测任意方向的场景文本，与RRPN类似，我们的网络也基于FasterR-CNN ，但我们采用不同的策略，而不是产生倾斜角度建议。

我们认为RPN有资格生成文本候选，并根据RPN提出的候选文本预测方向信息

检测步骤：

如图所示：a.原图片

　　　　　b.通过rpn得到的text regions

　　　　　c.预测轴对齐框和倾斜框

　　　　　d.对倾斜框进行非极大值抑制得到预测结果

整个检测网络的结构如图：

提取特征的步骤跟之前的RCNN系列一样，基础CNN网络提取出特征，

然后由RPN提取出文本区域(RPN生成包围任意方向文本的轴对齐边界框)，这里已经生成轴对齐框，送入ROI POOLING层进行多个尺度的池化操作（7*7，3*11，11*3）原先的Faster rcnn只有7*7,这三种是专门用来检测常见的文本框。并将pooled特征串联；

通过两个全连接层之后，进行

1.文本/非文本的分类

2.轴对齐框包围的倾斜框的预测，倾斜框的预测（x1,y1,x2,y2,h）这里解释下，倾斜框的坐标表示，通过矩形框顺时针的前两个点的坐标来确定一条线，然后通过h来确定宽度。

3.倾斜框的非极大值抑制，得到结果

倾斜框的坐标表示如图：

对于RPN做出的改动：

更多的小场景检测。通过在RPN中利用较小的anchor比例来解决这一问题。

在Faster R-CNN中的原始anchor 缩放是(8,16,32)

我们研究了两种策略：

　　a)将anchor比例缩放更改为较小的尺寸，并使用(4,8,16);

　　b)增加一个新的anchor缩放并利用(4,8,16,32)
对roi pooling做出的改动：

加入11*3和3*11，使用不同的roi pooling大小获取更多特征， pooled 特征被连接在一起以便进一步检测；

R2CNN的loss函数：

分为两部分，Lcls是分类的loss，下面分别是轴对齐框的Loss和倾斜框的Loss

R2CNN论文思路记录的更多相关文章

Scene Text Detection(场景文本检测)论文思路总结
任意角度的场景文本检测论文思路总结共同点:重新添加分支的创新更突出场景文本检测基于分割的检测方法 spcnet(mask_rcnn+tcm+rescore) psenet(渐进扩展) mask tex ...
SCI小论文投稿记录
英文小论文投的是SCI 3区的一个刊物,收录在spring,ei等, 投稿的时候2019/2/3影响因子2.8左右现在2019/8/13 影响因子3.844 先科普下论文的各个状态 1. Subm ...
【论文阅读记录】Real-Time Correlative Scan Matching
这篇文章是谷歌的Cartograph中实现real_time_correlative_scan_matcher的论文 Real-Time Correlative Scan MatchingEdwin ...
PTA-B 1039 到底买不买解题思路记录
#include <cstdio> #include <string> #include <iostream> using namespace std; int m ...
PAT1065 单身狗 (25分) 思路记录——参考大神柳婼
1065 单身狗 (25分) “单身狗”是中文对于单身人士的一种爱称.本题请你从上万人的大型派对中找出落单的客人,以便给予特殊关爱. 输入格式: 输入第一行给出一个正整数 N(≤ 50 000), ...
echarts学习思路及常用属性记录
此篇博文分享自己对于入门学习echart的思路及对常见组件的用法记录,如serise.data和坐标轴对应关系,多个坐标轴,多个grid的对齐,tooltip的超出处理,坐标轴/toolti ...
【Semantic segmentation】Fully Convolutional Networks for Semantic Segmentation 论文解析
目录 0. 论文链接 1. 概述 2. Adapting classifiers for dense prediction 3. upsampling 3.1 Shift-and-stitch 3.2 ...
NLP论文阅读一：Paper阅读方法
参考:https://pan.baidu.com/s/1MfcmXKopna3aLZHkD3iL3w 一.为什么要读论文? 基础技术:读论文中的related works可以帮助了解该领域的一些主要的 ...
论文阅读（Xiang Bai——【PAMI2017】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition）
白翔的CRNN论文阅读 1. 论文题目 Xiang Bai--[PAMI2017]An End-to-End Trainable Neural Network for Image-based Seq ...

随机推荐

mac终端方式修改host
打开终端 cd / #进入根目录 ls #查看根目录下列表,确定有需要打开的目录 cd etc #进入配置文件目录 ls sudo vim hosts #用vim打开 ...
python基础知识1
1.何为json? json 是一种轻量级的数据交换格式,采用完全独立于编程语言的文本格式来存储和表示数据.简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言. 易于人阅读和编写,同时也易于机 ...
java基础复习（三）
一.运算符 1.算术运算符 1) 加法(+) 加法正号字符串拼接 2) 减法(-) 减法负号 3) 乘法 (*) 乘法 4) 除法(/) 除法整数(小数)相除的例子 10/3 =3: ...
loadRunner函数之lr_set_debug_message
lr_set_debug_message:选择性开启扩展日志 vuser_init: vuser_init() { ; } Action: Action() { ExtendedLog(); // 开 ...
Python3解leetcode Lowest Common Ancestor of a Binary Search Tree
问题描述: Given a binary search tree (BST), find the lowest common ancestor (LCA) of two given nodes in ...
【BZOJ3756】Pty的字符串（广义后缀自动机）
题意: 思路:论文题建立Trie树的后缀自动机需要换这个长的板子 #include<bits/stdc++.h> using namespace std; typedef long lo ...
PHP基于PDO实现的SQLite操作类
<?php // sqlite分页类 class SqliteDB{ public function __construct(){ // 初始化数据库,并且连接数据库数据库配置 $this-& ...
PPT技巧
1.秋叶个人的PPT三分钟教程 http://www.pptfans.cn/315656.html 2.<说服力-让你的PPT会说话>秋叶 3.<三体> https://w ...
SoftDevice Specification v1.2
S110 SoftDevice是蓝牙®低功耗(BLE)外设协议栈的解决方案.它集成了一个低能量控制器和主机,并为建设蓝牙低功耗系统全面且灵活的API 芯片(SoC)解决方案. 本文件包含SoftDe ...
11. Jmeter-后置处理器二
jmeter-后置处理器介绍与使用二今天我们接着讲 JSR223 PostProcessor Debug PostProcessor JDBC PostProcessor Result Status ...

R2CNN论文思路记录

Rotational region cnn

R2CNN论文思路记录的更多相关文章

随机推荐

热门专题