Scene Text Detection(场景文本检测)论文思路总结
任意角度的场景文本检测
论文思路总结
共同点:重新添加分支的创新更突出
场景文本检测
基于分割的检测方法
	spcnet(mask_rcnn+tcm+rescore)
	psenet(渐进扩展) 
	mask text spottor(新加分割分支) 
	craft 
	incepText
基于回归的检测方法:
	r2cnn(类别分支,水平分支,倾斜分支)
	rrpn(旋转rpn) 
	textbox(ssd)
	textbox++
	sstd(tcm改进前身) 
	rtn 
	ctpn(微分)
基于分割和回归的混合方法:
	spcnet
	利用mask_rcnn来进行实例分割,通过新模块tcm(获取全局语义分割图)以及rescore来提升准确率,实例分割映射在全局语义分割打分
	pixel-anchor(deeplabv3+ssd): 
	分割的部分检测中大目标,ssd检测小目标
	east(deeplabv3)
	af-rpn 
	位于文本核心区域中的每个滑动点,直接预测从它到文本边框顶点的偏移量
	(采用ohem)
FPN官方给的训练时候是前面共享参数的,对结果影响不大,说是特征金字塔使得不同层学到了相同层次的语义特征
FPN在得到多层金字塔模块的proposals结果之后,放到一块做nms处理
FPN每层金字塔模块的scale都是一样的,因为对应到不同的feature map上面刚好检测不同大小的物体
***********************论文名字后边括号内容为亮点部分********************
hybrid:---------------------------------------------------------------
1.af-rpn(af)
anchor-free
  直接预测中心点到box的四个顶点偏移量,
  避免了这种情况(to achieve high recall, anchors use various scales and shapes should be designed to cover the scale and shape variabilities of objects )
scale-friendly
  FPN对大中小三种尺度的目标分开检测(实现细节与fpn有不同)
2.inceptext(inceptext)
	整体就是 fpn+inception_module+deformable_conv+deformable PSROI pooling
inception-text
  设计类似inception中(1*1,3*3,5*5)三种卷积核对大中小三种不同尺度的目标进行检测,
  也加入deformable卷积来调整感受野,把检测聚集到文字上面,不容易受方向限制;还有 two fused feature maps 增加多尺度信息。
deformable psroi pooling
  (把检测聚集到文字上面,不容易受方向限制)
  加入offset集中检测文字部分的信息,tend to learn the context surrounding the text
Each image is randomly cropped and scaled to have short edge of{640,800,960,1120}. 
The anchor scales are {2,4,8,16}, and ratios are {0.2,0.5,2,5}.
3.rtn(无亮点)
	一个多尺度的特征,加上ctpn竖直框,加上只有回归的预测
hierarchical convolutional
获得更强的语义特征,融合了resnet的模块4和模块5
vertical proposal mechanism
用ctpn获取竖直框,目的是去掉proposal的分类
regression:---------------------------------------------------------------
1.ctpn
 detecting text in fine-scale proposals 
   generate vertical proposals
 recurrent connectionist text proposals
   连接vertical proposals
 side-refinement
 针对左右边界的anchors预测文本行的边界进行调整
2.textboxs
 采用ssd来做std(multi-scale)
3.textboxs++
 可以借鉴数据增强的方式 random crop
4.r2cnn(inclined box)
 three ROIPoolings use different pooled sizes
 anchor scales(4,8,16,32)
 axis-aligned 和 inclined box一起预测且是包含关系
 incline NMS
 compute convolutional feature maps on an image pyramid(非主要)
 augment ICDAR 2015 
    We rotate our image at the following angles (-90, -75, -60, -45, -30, -15, 0, 15, 30, 45, 60, 75, 90). 
借鉴r2cnn的 ablation experiment
5.rrpn
 rrpn
   r-anchors(54,3*3*6),generate inclined proposals(representation,x,y,h,w,θ)
 RROI pooling
 skew NMS
 image rotation strategy during data augmentation
segmentation ------------------------------------------------------
Scene Text Detection(场景文本检测)论文思路总结的更多相关文章
- 论文阅读(Xiang Bai——【arXiv2016】Scene Text Detection via Holistic, Multi-Channel Prediction)
		Xiang Bai--[arXiv2016]Scene Text Detection via Holistic, Multi-Channel Prediction 目录 作者和相关链接 方法概括 创新 ... 
- 论文阅读(Weilin Huang——【TIP2016】Text-Attentional Convolutional Neural Network for Scene Text Detection)
		Weilin Huang--[TIP2015]Text-Attentional Convolutional Neural Network for Scene Text Detection) 目录 作者 ... 
- 论文速读(Chuhui Xue——【arxiv2019】MSR_Multi-Scale Shape Regression for Scene Text Detection)
		Chuhui Xue--[arxiv2019]MSR_Multi-Scale Shape Regression for Scene Text Detection 论文 Chuhui Xue--[arx ... 
- 【论文速读】XiangBai_CVPR2018_Rotation-Sensitive Regression for Oriented Scene Text Detection
		XiangBai_CVPR2018_Rotation-Sensitive Regression for Oriented Scene Text Detection 作者和代码 caffe代码 关键词 ... 
- 【论文速读】Chuhui Xue_ECCV2018_Accurate Scene Text Detection through Border Semantics Awareness and Bootstrapping
		Chuhui Xue_ECCV2018_Accurate Scene Text Detection through Border Semantics Awareness and Bootstrappi ... 
- 论文阅读笔记三:R2CNN:Rotational Region CNN for Orientation Robust Scene Text Detection(CVPR2017)
		进行文本的检测的学习,开始使用的是ctpn网络,由于ctpn只能检测水平的文字,而对场景图片中倾斜的文本无法进行很好的检测,故将网络换为RRCNN(全称如题).小白一枚,这里就将RRCNN的论文拿来拜 ... 
- Learning Markov Clustering Networks for Scene Text Detection
		Learning Markov Clustering Networks for Scene Text Detection 论文下载:https://arxiv.org/pdf/1805.08365v1 ... 
- XiangBai——【CVPR2018】Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation
		XiangBai——[CVPR2018]Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentat ... 
- 【OCR技术系列之五】自然场景文本检测技术综述(CTPN, SegLink, EAST)
		文字识别分为两个具体步骤:文字的检测和文字的识别,两者缺一不可,尤其是文字检测,是识别的前提条件,若文字都找不到,那何谈文字识别.今天我们首先来谈一下当今流行的文字检测技术有哪些. 文本检测不是一件简 ... 
随机推荐
- Linux下安装Tomcat(2)
			Tomcat是一个免费的开源的Serlvet容器,它是Apache基金会的Jakarta项目中的一个核心项目,由Apache,Sun和 其它一些公司及个人共同开发而成.由于有了Sun的参与和支持,最新 ... 
- 心形陀螺案例css3
			<!DOCTYPE html><html lang="zh-cn"><head> <meta charset="UTF-8&qu ... 
- Docker容器日常操作命令
			在Docker的运用中,从下载镜像,启动容器,在容器中输入命令来运行程序,这些命令都是手工一条条往里输入的,无法重复利用,而且效率很低.所以就需要一 种文件或脚本,我们把想执行的操作以命令的方式写入其 ... 
- Java控制台输入字符串及字符串比较
			需求描述:茵茵很喜欢研究车牌号码,从车牌号码上可以看出号码注册的早晚,据研究发现,车牌号码是按字典序发放的,现在她收集了很多车牌号码,请你设计程序帮她判断注册较早的号码.车牌号码由5个字母或数字组成. ... 
- P1022计算器の改良
			传送 这个题让你通过自己的努力,来写一个可以解一元一次方程的计算题(麻麻再也不用担心我计算错了qwq) 我们先学习一下一元一次方程的解法 step1:移项.把带有未知数的项移到方程的一边,把常数项移到 ... 
- CodeIgniter 技巧 - 通过 Composer 安装 CodeIgniter 框架并安装依赖包
			PHP 项目中,通过 Composer 来管理各种依赖包,类似 Java 中的 Maven,或 Node 中的 npm.CodeIgniter 框架要想通过 Composer 自动加载包也很简单,步骤 ... 
- Altium Designer chapter3总结
			绘制电路原理图中需要注意的如下: (1)元件库的操作:元件库的加载和卸载.查找元件. (2)元件操作: 1.放置元件(元件库中,place part,快捷键)中place part中的history可 ... 
- (转载) linux下文件权限设置中的数字表示
			chmod ABC file 其中A.B.C各为一个数字,分别表示User.Group.及Other的权限. A.B.C这三个数字如果各自转换成由“0”.“1”组成的二进制数,则二进制数的每一位分别代 ... 
- Python科学计算三维可视化(整理完结)
			中国MOOC<Pyhton计算计算三维可视化>总结 课程url:here ,教师:黄天宇,嵩天 下文的图片和问题,答案都是从eclipse和上完课后总结的,转载请声明. Python数据三 ... 
- 监控服务器的脚本log_agent
			监控服务器脚本: 将恶意攻击IP地址加入黑名单 1.分割日志 使用os.system 执行操作系统命令,使用重定向来分割日志 2.获取访问ip 读日志文件,获取访问ip记录,使用字符串.split来获 ... 
