文本检测： CTPN

参考：

https://zhuanlan.zhihu.com/p/37363942

https://zhuanlan.zhihu.com/p/34757009

https://zhuanlan.zhihu.com/p/31426458 【 Faster RCNN 非常详尽】

对于理解RNN／LSTM首先推荐阅读以下2篇文章，里面有详细的公式推导：

零基础入门深度学习(5) - 循环神经网络

零基础入门深度学习(6) - 长短时记忆网络(LSTM)

简介

文章基本信息

论文题目：Detecting Text in Natural Image with Connectionist Text Proposal Network,简称CTPN.该文章是ECCV2016乔宇老师的文章

论文地址：https://arxiv.org/pdf/1609.03605.pdf

代码实现：https://github.com/tianzhi0549/CTPN(作者的caffe实现)，

https://github.com/eragonruan/text-detection-ctpn(其他人tensorflow实现)

作者提供的caffe实现没有训练代码，不过训练代码可以参考faster-rcnn的训练代码

文本检测概述

文本检测可以看成特殊的目标检测，但它有别于通用目标检测．在通用目标检测中，每个目标都有定义好的边界框，检测出的bbox与当前目标的groundtruth重叠率大于0.5就表示该检测结果正确．

文本检测中正确检出需要覆盖整个文本长度，且评判的标准不同于通用目标检测，具体的评判方法参见(ICDAR 2017 RobustReading Competition)．所以通用的目标检测方法并不适用文本检测。

原始CTPN只检测横向排列的文字。CTPN结构与Faster R-CNN基本类似，但是加入了LSTM层。假设输入 $N$ Images：

首先VGG提取特征，获得大小为 $N \times C\times H\times W$ 的conv5 feature map。
之后在conv5上做 $3×3$ 的滑动窗口，即每个点都结合周围 $3×3$ 区域特征获得一个长度为 $3×3×C$ 的特征向量。输出 $N \times9C\times H\times W$ 的feature map，该特征显然只有CNN学习到的空间特征。
再将这个的feature map每一行都作为一个 $T_{max}= W$ 的数据流，输入Bi-directional LSTM（双向LSTM），学习每一行的sequence feature。经过reshape后最终输出 $N \times256\times H\times W$ 特征，既包含空间特征，也包含了LSTM学习到的序列特征。
再经过“FC”卷积层，变为 $N \times512\times H\times W$ 的特征
最后经过类似Faster R-CNN的RPN网络，获得text proposals，如图2-b。

图2 CTPN网络结构

更具体的网络结构，请使用netscope查看CTPN的deploy.prototxt网络配置文件。

接下来，文章围绕下面三个问题展开：

回答这三个问题，基本原理就了解了。感谢作者，写的很详细。

详见知乎：https://zhuanlan.zhihu.com/p/34757009

文本检测： CTPN的更多相关文章

【OCR技术系列之六】文本检测CTPN的代码实现
这几天一直在用Pytorch来复现文本检测领域的CTPN论文,本文章将从数据处理.训练标签生成.神经网络搭建.损失函数设计.训练主过程编写等这几个方面来一步一步复现CTPN.CTPN算法理论可以参考这 ...
【OCR技术系列之五】自然场景文本检测技术综述（CTPN, SegLink, EAST）
文字识别分为两个具体步骤:文字的检测和文字的识别,两者缺一不可,尤其是文字检测,是识别的前提条件,若文字都找不到,那何谈文字识别.今天我们首先来谈一下当今流行的文字检测技术有哪些. 文本检测不是一件简 ...
EAST 自然场景文本检测
自然场景文本检测是图像处理的核心模块,也是一直想要接触的一个方面. 刚好看到国内的旷视今年在CVPR2017的一篇文章:EAST: An Efficient and Accurate S ...
使用Keras基于AdvancedEAST的场景图像文本检测
Blog:https://blog.csdn.net/linchuhai/article/details/84677249 GitHub:https://github.com/huoyijie/Adv ...
Scene Text Detection(场景文本检测)论文思路总结
任意角度的场景文本检测论文思路总结共同点:重新添加分支的创新更突出场景文本检测基于分割的检测方法 spcnet(mask_rcnn+tcm+rescore) psenet(渐进扩展) mask tex ...
对博弈活动中蕴含的信息论原理的讨论，以及从熵角度看不同词素抽象方式在WEBSHELL文本检测中的效果区别
1. 从赛马说起 0x1:赛马问题场景介绍假设在一场赛马中有m匹马参赛,令第i匹参赛马获胜的概率为pi,如果第i匹马获胜,那么机会收益为oi比1,即在第i匹马上每投资一美元,如果赢了,会得到oi美元 ...
Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network（利用像素聚合网络进行高效准确的任意形状文本检测）
PSENet V2昨日刚出,今天翻译学习一下. 场景文本检测是场景文本阅读系统的重要一步,随着卷积神经网络的快速发展,场景文字检测也取得了巨大的进步.尽管如此,仍存在两个主要挑战,它们阻碍文字检测部署 ...
OpenCV_contrib里的Text(自然场景图像中的文本检测与识别)
平台:win10 x64 +VS 2015专业版 +opencv-3.x.+CMake 待解决!!!Issue说明:最近做一些字符识别的事情,想试一下opencv_contrib里的Text(自然场景 ...
常用CTPN、CRNN文本检测识别框架
一.SWT识别: yestinsong/Text-Detection( Text Detection System with MSER , SWT and Text Verification(fft ...

随机推荐

shell练习题
一.编写一个脚本使我们在写一个脚本时自动生成”#!/bin/bash”这一行和注释信息. 原文代码为: Shell 1 2 3 4 5 6 7 8 9 10 #!/bin/bash ...
Linux环境redis集群搭建
集群后tomcat context.xml的配置  <Valve className="com.radiadesign.catalina.sessi ...
asmack xmpp 获取离线消息
原文:http://plplum.blog.163.com/blog/static/31032400201503015345948/ 注意事项: 1.登录前要将状态设置为离线: ConnectionC ...
企业应用：浅谈 “数据权限” 和查询 API 设计
背景多数企业应用都需要对数据权限进行控制,如:某个用户只能看到某个范围的数据(数据行).某个用户只能看到某几列数据(数据列).本文以数据行级别的权限控制为范例,谈谈如何设计权限模型和查询 API. ...
easyui 后台页面，在Tab中的链接点击后添加一个新TAB的解决方法
1.示例1 新增一个按钮添加点击事件 onclick="self.parent.addTab('百度','http://www.baidu.com','icon-add')" 如 ...
sharememory.c
//进程通信,共享存储区 #include <unistd.h> #include <sys/types.h> #include <sys/socket.h> #i ...
Linux进程间通信—套接字
六．套接字(socket) socket也是一种进程间的通信机制,不过它与其他通信方式主要的区别是:它可以实现不同主机间的进程通信.一个套接口可以看做是进程间通信的端点(endpoint),每个套接口 ...
BeagleBone折腾记（一）：连接你的狗板
BeagleBone折腾记一连接你的狗板准备了解BeagleBone BeagleBone社区所需软硬件 USB连接 TTL连接结语准备了解BeagleBone BeagleBone可能一 ...
ActiveX 控件漏洞挖掘之方法
ActiveX是微软公司提出,并在1996年被正式命名的组件技术.该技术提供了一种通用的开放程序接口,使用这种技术开发的ActiveX控件可以直接集成到IE浏览器或第三方应用程序中,但由于第三方编程等 ...
django单表操作增删改查
一.实现:增.删.改.查 1.获取所有数据显示在页面上 model.Classes.object.all(),拿到数据后,渲染给前端;前端通过for循环的方式,取出数据. 目的:通过classes(班 ...

文本检测： CTPN

简介

文本检测： CTPN的更多相关文章

随机推荐

热门专题