TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes

ECCV2018

北京大学、face++

思路:

预测文本区域与连接方向,串起来

Pipeline:

  1. 通过FCN+FPN网络
  2. 预测TR(文本域)、TCL(文本中心线)、角度、半径
  3. 过滤文本线,后处理

网络细节:

1.基础网络采用VGG16

2.输出大小和原图一样(耗内存,慢,但是和小栋工作类似)

输出细节:

1.过滤文本中心线(相交)

2.文本线生成(过滤后还是一整块状态)

(1) 取一点,作垂线定位中心

(2) 沿着预测的角度滑动一定距离(有给计算法则)

(3) 在新的点重复2步骤直到端点

滑动位置计算:

如果点不在区域内,就逐渐减小步长知道在里面或者该点当作端点(没具体解释,差不多了)

Label生成

  1. 文本线:

(1) 找出头尾(两条边:前后两条相邻边cos最小)

(2) 画出中心线上的点(在对应的边上打格子,取中点连起来)

(3) 缩短中心线(类似EAST),扩大中心线区域(缩短0.5r,扩大0.2r)

  1. 半径:到边的距离
  2. 角度:

损失函数:

  1. 系数均为1
  2. TR分类用的是OHEM,TCL损失只考虑TR区域内的

实验数据集:

  1. TotalText(弯曲)
  2. CTW1500(弯曲)
  3. ICDAR2015(多方向)
  4. MSRA-TD500(水平)

实验细节:

  1. 数据增强,缩放比0.24-1.69,随机旋转,还有颜色模糊高斯噪声等增强
  2. Tensorflow1.3
  3. GPU Titan X*2
  4. 学习率0.0001每5000次衰减0.8
  5. Batch size 32

实验结果:

0.SynthText预训练

1.Total-Text输入大小512*512,阈值(0.4,0.6),5k次训练

2.CTW1500输入大小512*512,阈值(0.4,0.5),5k次训练

3.ICDAR2015,30K次,(0.4,0.9),输入大小1280 × 768

4.30K次,(0.4,0.9),输入大小1280 × 768

4.迁移

总结:

  1. 学习任务拟人化
  2. 角度的预测有cos和sin
  3. 放大的map

思考:

  1. 增加标注信息,精确到字符
  2. 角度上更拟人一点,从左往右从上到下

【论文阅读】TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes的更多相关文章

  1. 【论文速读】Shangbang Long_ECCV2018_TextSnake_A Flexible Representation for Detecting Text of Arbitrary Shapes

    Shangbang Long_ECCV2018_TextSnake_A Flexible Representation for Detecting Text of Arbitrary Shapes 作 ...

  2. 论文阅读笔记 Improved Word Representation Learning with Sememes

    论文阅读笔记 Improved Word Representation Learning with Sememes 一句话概括本文工作 使用词汇资源--知网--来提升词嵌入的表征能力,并提出了三种基于 ...

  3. [论文阅读笔记] metapath2vec: Scalable Representation Learning for Heterogeneous Networks

    [论文阅读笔记] metapath2vec: Scalable Representation Learning for Heterogeneous Networks 本文结构 解决问题 主要贡献 算法 ...

  4. 论文阅读(XiangBai——【CVPR2017】Detecting Oriented Text in Natural Images by Linking Segments)

    XiangBai——[CVPR2017]Detecting Oriented Text in Natural Images by link Segments 目录 作者和相关链接 方法概括 方法细节 ...

  5. 深度学习论文翻译解析(三):Detecting Text in Natural Image with Connectionist Text Proposal Network

    论文标题:Detecting Text in Natural Image with Connectionist Text Proposal Network 论文作者:Zhi Tian , Weilin ...

  6. 论文阅读笔记五十:CornerNet: Detecting Objects as Paired Keypoints(ECCV2018)

    论文原址:https://arxiv.org/pdf/1808.01244.pdf github:https://github.com/princeton-vl/CornerNet 摘要 本文提出了目 ...

  7. 论文阅读(XiangBai——【PAMI2018】ASTER_An Attentional Scene Text Recognizer with Flexible Rectification )

    目录 XiangBai--[PAMI2018]ASTER_An Attentional Scene Text Recognizer with Flexible Rectification 作者和论文 ...

  8. 论文阅读笔记四:CTPN: Detecting Text in Natural Image with Connectionist Text Proposal Network(ECCV2016)

    前面曾提到过CTPN,这里就学习一下,首先还是老套路,从论文学起吧.这里给出英文原文论文网址供大家阅读:https://arxiv.org/abs/1609.03605. CTPN,以前一直认为缩写一 ...

  9. 论文阅读(Weilin Huang——【ECCV2016】Detecting Text in Natural Image with Connectionist Text Proposal Network)

    Weilin Huang——[ECCV2016]Detecting Text in Natural Image with Connectionist Text Proposal Network 目录 ...

随机推荐

  1. SpringBoot学习(一)基础篇

    目录 关于Springboot Springboot优势 快速入门 关于SpringBoot Spring Boot是由Pivotal团队提供的全新框架,其设计目的是用来简化新Spring应用的初始搭 ...

  2. (六)添加adbmingling

    给环境变量Path添加adb命令路径,即adb.exe所在的目录 C:\Users\LIU Liang\AppData\Local\Android\Sdk\platform-tools

  3. 文件读取(filestream)

    在stream中已经介绍过,文件读取应用filestream,其是以字节为单位读取文件的.在操作中,当应用filestream创建文件流,读取时应先定义一个字节数组,在转化成char类型,最后转化成s ...

  4. Java基础01-集合1、泛型

    集合.泛型 第一章:集合1 1. 什么是集合 定义:在Java中,集合是一种可以存储多个数据的容器. 代码: ArrayList<String> list = new ArrayList& ...

  5. 从一个简单的例子看spring ApplicationContext上下文隔离

    前言 某天,浏览博客园的时候,对首页上面的一篇文章,标题为:<<一个普通类就能干趴你的springboot,你信吗?>>,文章链接:https://www.cnblogs.co ...

  6. 前端技术之:JavaScript Test 断言库

    expect 声称可以写更好的断言. https://github.com/mjackson/expect   chai 可以写BDD样式的断言,也可以写TDD样式的断言,可用于Node.js与浏览器 ...

  7. [考试反思]1104csp-s模拟测试100: 终结

    这么好的整数场,就终结了我连续莫名考好的记录. 功德圆满了... 还是炸了啊.而且炸的还挺厉害(自己又上不去自己粘的榜单啦) 说实在的这场考试做的非常差劲.虽说分数不算特别低但是表现是真的特别差. T ...

  8. STL&&用法集合

    .....STL是c++里很强势很好用的一系列容器(函数)之类的,之前一直不太会用,所以总是暴毙....想着快比赛了,是时候理一下这些东西了. -1.pair 存放两个基本元素的东西 定义方法: pa ...

  9. CF480E Parking Lot(单调队列+dp然鹅并不是优化)

    (全英文题面所以直接放化简题意) 题意:在一个二维平面内,初始有一些点,然后每个时间点加入一些点,对每个时间点求平面内最大的无障碍正方形 (这次的题目是真的神仙啊...) 首先,考虑暴力,如果对每一个 ...

  10. DAY 5 搜索

    搜索 开篇: mayan游戏(noip2011 day1 T3) 这道题就是个码量题,老师讲题时淡淡的说写完前两题就花一个半小时了,最后一题不快点打会调不出来,对于一个三个半小时就写两题的蒟蒻来说这. ...