Lukas Neuman--[ICDAR2015]Efficient Scene Text Localization and Recognition with Local Character Refinement 算法介绍 Fig. 2. Overview of the method. Initial text hypotheses efficiently generatedby a MSER detector are further refined using a local text mod…
Lukas Neumann——[ICCV2017]Deep TextSpotter_An End-to-End Trainable Scene Text Localization and Recognition Framework 目录 作者和相关链接 方法概括 方法细节 实验结果 总结与收获点 参考文献和链接 作者和相关链接 作者 论文下载 代码下载 方法概括 方法概述 该方法将文字检测和识别整合到一个端到端的网络中.检测使用YOLOv2+RPN,并利用双线性采样将文字区域统一为高度一致的变长…
Chuhui Xue_ECCV2018_Accurate Scene Text Detection through Border Semantics Awareness and Bootstrapping 作者和代码 关键词 文字检测.多方向.FCN.$$xywh\theta$$.multi-stage.border 方法亮点 采用Bootstrapping进行数据扩增 增加border-loss 方法概述 本文方法是直接回归的方法,除了学习text/non-text分类任务,四个点到边界的回归…
论文的关注点在于如何提高bounding box的定位,使用的是概率的预测形式,模型的基础是region proposal.论文提出一个locNet的深度网络,不在依赖于回归方程.论文中提到locnet可以很容易与现有的detection系统结合,但我困惑的是(1)它们的训练的方法,这点论文中没有明确的提到,而仅仅说用迭代的方法进行(2)到底两者的融合后两个网络的结构是怎样呢?可以看做一个多任务的系统,还是存在两个网络呢? 检测方法 输入的候选bounding box(使用selective s…
前面曾提到过CTPN,这里就学习一下,首先还是老套路,从论文学起吧.这里给出英文原文论文网址供大家阅读:https://arxiv.org/abs/1609.03605. CTPN,以前一直认为缩写一般是从题目的开始依次排序选取首字母的,怕是孤陋寡闻了,全称是“ Detecting Text in Natural Image with Connectionist Text Proposal Network”,翻译过来是基于连接Proposal(直译太难受!!)网络的文本检测. 作者在论文中描述了…
Han Hu--[ICCV2017]WordSup_Exploiting Word Annotations for Character based Text Detection 作者和代码 caffe检测torch7识别代码 关键词 文字检测.多方向.直接回归.$$xywh\theta$$ .multi-stage.监督学习 方法亮点 采用单词.文本行的标注信息进行监督学习来辅助字符检测 在ICDAR2013数据集上F值90+,后来的方法能超过这篇文章的寥寥无几 方法概述 利用Faster RC…
论文链接:https://aclweb.org/anthology/P18-1031 对文章内容的总结 文章研究了一些在general corous上pretrain LM,然后把得到的model transfer到text classiffication上 整个过程的训练技巧. 这些技巧的切入点是learning rate. 主要是三个: (1)discriminative fine-tuning (其中的discriminative 指 fine-tune each layer with d…
[code] [pdf] 白盒 beam search 基于梯度 字符级…
关于论文的阅读笔记 论文的题目是“Attention-based Audio-Visual Fusion for Rubust Automatic Speech recognition”,翻译成中文为 基于注意力的视听融合技术实现鲁棒自动语音识别 (这是用谷歌翻译的.....)   摘要 文章介绍提出了一种音-视融合方案,这种方案超越了简单的特征融合,可以实现两种模式的自动对齐,进而实现了不论在嘈杂还是安静环境下识别精度的提高.文章在TCD-TIMIT和LRS2数据集上进行了测试,其中这两个数据…
原文: A Discriminative Feature Learning Approach for Deep Face Recognition 用于人脸识别的center loss. 1)同时学习每个类的深度特征的中心点 2)对深度特征和其对应的类中心的距离有一定的惩罚 提出的center loss函数在CNN中可以训练并且很容易优化. 联合softmax loss和center loss,可以同时增加类间分散程度(inter-class dispension)与类内紧凑程度(intra-cl…