CTPN_论文阅读总结
论文全名:Detecting Text in Natural Image with Connectionist Text Proposal Network
1.摘要
(1)本文提出新型网络CTPN,用于自然图像中的文本行定位。CTPN直接在卷积特征映射中的一系列细粒度文本提议中检测文本行。(创新一)开发了一个垂直锚点机制,联合预测每个固定宽度提议的位置和文本、非文本的分数。(创新二)序列提议通过循环神经网络自然连接起来,该网络无缝的结合到卷积网络中,从而形成可训练的端到端模型。
2.引言
(1)图像文字检测的应用:图像OCR、多语言翻译、图像检索等。包括检测和识别两个任务,本文聚焦检测任务。由于文本模式的大变化以及背景的高度杂乱,使得检测任务一般比文字识别任务难度更大。
(2)传统使用自下而上的方式,从低级别字符和笔画检测开始,步骤繁琐,现在普遍被神经网络所代替,无需自行查找特征。
(3)目前主流的方法Faster-RCNN虽然用于一般目标检测效果良好,但是用在文本检测上并不令人满意。第一:主要由于文本的长度往往都是难以固定,不像一般物体一般都是有相对较固定额边界框;第二:一般物体IOU>0.5可能就可以识别出物体的种类,而文字识别需要更精确的IOU,因为仅仅大于0.5可能根本无法识别出文字。
3.贡献
图一:(a)连接文本提议网络(CTPN)的架构。首先通过VGG16的最后一个卷积映射(conv5)密集的滑动3*3空间窗口。每行的序列窗口通过双向LSTM(BLSTM)循环连接,其中每个窗口的卷积特征(3*3*C)被用作256维的BLSTM(包括两个128维的LSTM)的输入。RNN层连接到512维的全连接层,接着是输出层,联合预测k个锚点的文本、非文本分数,y轴坐标坐标(包括坐标和高度)和边缘调整偏移。(b)CTPN输出连续的固定宽度细粒度文本提议。每个框的颜色表示文本/非文本的分数。只显示文本框正例的分数。
(1)贡献一:开发了一个垂直锚点机制,联合预测每个固定宽度提议的位置和文本、非文本的分数。
(2)贡献二:序列提议通过循环神经网络自然连接起来,该网络无缝的结合到卷积网络中,从而形成可训练的端到端模型。
在ICDAR2013,2015数据集上都取得了很好的成绩。
4.相关工作
(1)文本检测:过去都是使用自下而上的方法为主,粗略分为连接组件(CC)和基于滑动窗口的方法。特征手动设计,鲁棒性差,设计特征本身往往也十分困难,另外滑动窗口的方法在计算上也十分昂贵。
(2)目标检测:从选择性搜索的RCNN发展到了RPN网络提供候选框的Faster-RCNN,RPN提议不具有判别性,需要通过额外得成本高昂的CNN模型进一步细化和分类。更重要的是,文本和一般目标检测很大的不同,因此很难直接将通用的目标检测系统应用到这个高度领域化的任务中。
5.连接文本提议网络
本节详细介绍网络的细节,它包括三个关键的贡献,使文本定位可靠和准确:检测细粒度提议文本,循环连接文本提议和边缘细化。
(1)在细粒度提议中检测文本
输入的图像任意大小,VGG网络架构决定了总步长和感受野固定为16个和228个像素。而本文锚点的宽度恰好固定为16,刚好各个框互相挨着且不重叠。
文中k个锚点框,k设置成10,其高度从11个像素到273个像素(每次÷0.7),位置通过高度和y中心坐标度量。如下所示:
其中V={Vc,Vh},V*={V*c,V*h}分别是相对的预测坐标和相对的实际坐标,Cya,ha分别是锚点框的y轴中心高度,Cy,h是输入图片中预测的y轴坐标和高度,C*y,h*是输入图片的实际坐标和高度。
检测到的文本提议是从>0.7(具有非极大值抑制)的文本/非文本分数的锚点生成的。
(2)循环连接文本提议
RNN类型:BLSTM(双向LSTM),每个LSTM有128个隐含层。
RNN输入:每个滑动窗口的3*3*C的特征(可以拉成一列),同一行的窗口的特征形成一个序列。
RNN输出:每个窗口对应256维特征。
整个感受野理论上可以覆盖228*width.
(3)边缘细化
文本行的构建规则。后面详细补充。
与y中心坐标预测类似,下面是x坐标的相对偏移:
文中每个锚点都预测了x坐标的偏移(这个步骤不是后处理计算的),如图一所示,但最终只使用了文本行边缘的提议。即左右两边。
(4)模型输出和损失函数
提出的CTPN有三个输出共同连接到最后的FC层,如图一所示,这个三个输出同时预测文本/非文本分数,垂直坐标(v={Vc,Vh})和边缘细化偏移(o).,探索k个锚点来预测他们在conv5中的每个空间位置,从而在输出层分别得到2k,2k和k个参数。
其中每一个锚点都是一个训练样本,其中每个锚点都是一个训练样本,ii是一个小批量数据中一个锚点的索引。
未完。
CTPN_论文阅读总结的更多相关文章
- 论文阅读(Xiang Bai——【PAMI2017】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition)
白翔的CRNN论文阅读 1. 论文题目 Xiang Bai--[PAMI2017]An End-to-End Trainable Neural Network for Image-based Seq ...
- BITED数学建模七日谈之三:怎样进行论文阅读
前两天,我和大家谈了如何阅读教材和备战数模比赛应该积累的内容,本文进入到数学建模七日谈第三天:怎样进行论文阅读. 大家也许看过大量的数学模型的书籍,学过很多相关的课程,但是若没有真刀真枪地看过论文,进 ...
- 论文阅读笔记 - YARN : Architecture of Next Generation Apache Hadoop MapReduceFramework
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...
- 论文阅读笔记 - Mesos: A Platform for Fine-Grained ResourceSharing in the Data Center
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...
- Deep Reinforcement Learning for Dialogue Generation 论文阅读
本文来自李纪为博士的论文 Deep Reinforcement Learning for Dialogue Generation. 1,概述 当前在闲聊机器人中的主要技术框架都是seq2seq模型.但 ...
- 论文阅读笔记 Word Embeddings A Survey
论文阅读笔记 Word Embeddings A Survey 收获 Word Embedding 的定义 dense, distributed, fixed-length word vectors, ...
- 论文阅读笔记六:FCN:Fully Convolutional Networks for Semantic Segmentation(CVPR2015)
今天来看一看一个比较经典的语义分割网络,那就是FCN,全称如题,原英文论文网址:https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcn ...
- 论文阅读笔记 Improved Word Representation Learning with Sememes
论文阅读笔记 Improved Word Representation Learning with Sememes 一句话概括本文工作 使用词汇资源--知网--来提升词嵌入的表征能力,并提出了三种基于 ...
- 论文阅读:Prominent Object Detection and Recognition: A Saliency-based Pipeline
论文阅读:Prominent Object Detection and Recognition: A Saliency-based Pipeline 如上图所示,本文旨在解决一个问题:给定一张图像, ...
随机推荐
- visual studio installer 卸载时不能删除安装目录问题
在vs中可以制作安装程序,但是这个安装程序默认卸载的时候不会把安装目录卸载,如果想在卸载的时候删除这个目录,那就要费点周折了.此方法同时适应于程序自删除以及工作目录删除. 基本思路是在程序要退出的 ...
- 2018数学建模国赛总结(A题/编程选手视角)
2018数学建模已经告一段落了,先说说基本情况吧,我们队伍专业分别为:金融(A),会计(B),计算机(我),配置还算可以,他们俩会数据分析软件也会写论文,我可以写代码,画图.他们俩打过美赛(M奖),我 ...
- 转载智能家居 作者:热情的沙漠 出处:http://www.cnblogs.com/buptzym/
理工男打造帝都89平智能家庭 毕业后的2016年年初,搬入新家,总算不用在出租屋里鬼混了,于是就想把之前童年的梦想:智能家居+家庭影院好好实现一下~ 相比帝都高昂的房价,这些东东还凑合玩得起,不过 ...
- uoj #297. 【CTSC2017】密钥
#297. [CTSC2017]密钥 一个密钥是一个长度为 n=2k+1n=2k+1 的字符串,它包含 11 个字母X.kk 个字母 A 和 kk 个字母 B.例如 k=3k=3 时,BAXABAB ...
- 190411Python面向对象编程
一.面向对象的概念 类:把一类事物的相同特征抽取出来整合到一起就是一个类,类是一个抽象的概念 对象:基于类创建的一个具体的事物 class People(object): '这是一个人类的类' def ...
- [HNOI2006]公路修建问题 BZOJ1196 Kruskal
题目描述 输入输出格式 输入格式: 在实际评测时,将只会有m-1行公路 输出格式: 输入输出样例 输入样例#1: 复制 4 2 5 1 2 6 5 1 3 3 1 2 3 9 4 2 4 6 1 输出 ...
- [HNOI2004]树的计数 BZOJ 1211 prufer序列
题目描述 输入输出格式 输入格式: 输入文件第一行是一个正整数n,表示树有n个结点.第二行有n个数,第i个数表示di,即树的第i个结点的度数.其中1<=n<=150,输入数据保证满足条件的 ...
- Dubbo基础配置
服务启动检查配置 默认check=true dubbo:reference check=“false” 关闭某个服务的启动时检查:(没有提供者时报错) dubbo:consumer check=“ ...
- css flex 使内容 水平居中 的方法...
刚开始以为是 justify-content : center 设置为 居中... 的确,,当 元素满了时 的确能 居中.但是 当只有一个元素时,这一个元素也会居中... 想了半天没找到方法..突然 ...
- 【AC自动机】【树状数组】【dfs序】洛谷 P2414 [NOI2011]阿狸的打字机 题解
这一题是对AC自动机的充分理解和树dfs序的巧妙运用. 题目背景 阿狸喜欢收藏各种稀奇古怪的东西,最近他淘到一台老式的打字机. 题目描述 打字机上只有28个按键,分别印有26个小写英文字母和' ...