ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17) 介绍
阅读文章:《ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17)》
这篇文章是对一项中文检测和识别比赛项目(RCTW)的介绍和总结,这是一项新的专注于中文识别的竞赛。这项竞赛的特点在于,包含12263张标注过的中文数据集,有两项任务,文本检测以及end-to-end文本识别。竞赛时间从2017年1月20日至3月31日,共收到19个team的23个有效的提交结果。下面从几个方面进行详细说明 。
-数据介绍
-任务及评价标准
-结果总结与分析
1. 数据介绍
数据集的名字叫做CTW-12k,由12263张包含中文的自然场景图片组成,其中大部分是直接由摄像头或手机拍摄,少部分为生成图像,并且每张图像至少包含一行中文。
数据的标注均通过标注工具手工标注完成,通过绘制四边形来标注一个文本行,而不是以单词为单位进行标注,每个文本行的内容以UTF-8字符串进行标注。在数据集中存在字体、布局和语言等多样性。
数据集划分为两部分,训练集和验证集包含8034张图片,这部分数据集的图像和标注均在比赛时发布。测试集包含4229张图片,并在截止日期前一个星期发布。
2. 任务及评价标准
任务分为两个:文本检测,end-to-end文本识别。与之前的比赛不同的是,没有设置cropped text recognition task,因为相比之下,进行end-to-end的识别设定效果更好。
1) Task 1 - Text Localization
文本定位是一项传统的竞赛任务,目标是确定图像中包含文本行的四边形位置,同时提供每个四边形的置信分数。
对于这项任务,主要采用的评价标准为mean Average Precision(mAP)。mAP是PR曲线以下的归一化面积值,即所有类别PR曲线下面积的平均值,由于本次竞赛中只有文本这一个类别,故mAP也就等同于AP。
原始的AP是定义在轴对齐的bounding box基础上的,而本次竞赛项目中的文本由四边形定位,所以在四边形上计算IoU而不是矩形,如下图所示,计算方法采用python的shapely package。检测结果满足以下两个条件认定为正确:(1)IoU大于0.5;(2)groundtruth没有匹配其他检测结果。当多个检测结果都匹配至同一groundtruth时,选择IoU最大的一个。
之前的竞赛普遍使用F-score作为评价标准,F-score是在P和R之间做出一些调整,但AP在调整中保持不变。本任务以AP作为主要的评价标准,并以此根据提交结果进行排行。为了与之前的竞赛对比,同时对每一个提交结果计算出最大F-meansure分数,两个分数均在结果表上列出。
(a) PR(precision-recall)曲线:以查全率R为横坐标,以查准率P为纵坐标的曲线。查准率关心的是”预测出正例的正确率”即从正反例子中挑选出正例的问题。查全率关心的是”预测出正例的保证性”即从正例中挑选出正例的问题。
(b) mAP:每个类别都可以绘制一条PR曲线,曲线下方与X轴之间的面积为AP值,对每个类的AP再求mean,就是mAP。
(c) ROC曲线:曲线的坐标分别为真正例率(TPR)和假正例率(FPR)
(d) F-score:综合考虑PR曲线中P和R两个指标
当β=1β=1时称为F1-score,即P和R的权重相同。
2)Task 2 - End-to-End Recognition
该任务的目标是同时进行文本定位和识别,参与队伍要求提交检测结果的同时提交识别结果,检测分数替换为识别的文本内容。
评价标准为计算识别结果与groundtruth之间的编辑距离,评价过程包括两步:首先,每一个检测结果匹配为一个groundtruth(对应最大的IoU)或”None”(没有与groundtruth的IoU大于0.5的检测结果),如果多个检测结果与同一groundtruth匹配,则选择IoU最大的一个作为检测结果,其他的均设为”None”;然后,计算所有匹配对的编辑距离,如果一个检测结果被标记为”None”,则计算检测结果的文本内容与空字符之间的距离,求最后的平均编辑距离average edit distance(AED)。这个方法同时考虑了检测和识别对结果的影响。
为了与其他比赛相比较,还计算了normalized edit distance(NED)。
3. 结果总结与分析
1)结果提交
Table 1 总结了Task 1的top10,并在结果列表中列出了AP和最大F-measure分数。
其中排在前3名的队伍:
(i)”Foo&Bar”:采用的是faster-rcnn算法,网络为resnet101及基于imagenet预训练的模型。
(ii)”NLPR_PAL”:采用Deep Direct Regression Network方法(我的上一篇论文笔记中提到的论文)。
(iii)”gmh“:CNN算法。
Table 2列举了Task 2的结果:
2)结果分析
Task 1:普遍的错误有两种,(1)由于text line过长导致的错误;(2)检测结果有冗余。
Task 2:主要错误有3种,(1)错误的检测结果导致识别错误;(2)视角问题导致的文字形变;(3)相似的文字结构导致的错误识别(如“园”和“国”)
---------------------
转自:https://blog.csdn.net/rabbithui/article/details/79107208?utm_source=copy
ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17) 介绍的更多相关文章
- OpenCascade Chinese Text Rendering
OpenCascade Chinese Text Rendering eryar@163.com Abstract. OpenCascade uses advanced text rendering ...
- 论文阅读(Weilin Huang——【AAAI2016】Reading Scene Text in Deep Convolutional Sequences)
Weilin Huang--[AAAI2016]Reading Scene Text in Deep Convolutional Sequences 目录 作者和相关链接 方法概括 创新点和贡献 方法 ...
- 论文速读(Jiaming Liu——【2019】Detecting Text in the Wild with Deep Character Embedding Network )
Jiaming Liu--[2019]Detecting Text in the Wild with Deep Character Embedding Network 论文 Jiaming Liu-- ...
- Python第三方库SnowNLP(Simplified Chinese Text Processing)快速入门与进阶
简介 github地址:https://github.com/isnowfy/snownlp SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的 ...
- Assignment 1:Chinese Text Data Processing.
记录过程. Lucene分词:http://blog.csdn.net/cyxlzzs/article/details/7999212 Lucene自定义词典:http://lilongbao.blo ...
- FastReport"Text"对象中的HTML标签介绍以及使用
"Text"对象可以理解一些简单的HTML标签.标签可位于对象中的文本.在默认情况下,标签是禁用的,要启用这些HTML标签,可选择对象上下文菜单中的“Allow HTML tags ...
- sublime text 3 15个常用插件介绍
1.ColorPicker 功能:调色板(需要输入颜色时,可直接选取颜色) 使用:快捷键Windows: ctrl+shift+c 2.Emmet 功能:编码快捷键,前端必备 使用:在输入代码段后,按 ...
- ocr 资源
1. PIL 在图片上添加中文 https://blog.csdn.net/m0_37606112/article/details/78511381 2 .Chinese Text in the Wi ...
- 厉害了!阿里安全图灵实验室在ICDAR2017 MLT竞赛刷新世界最好成绩
近日,阿里安全图灵实验室(Alibaba Turing Lab)的ATL Cangjie OCR算法在ICDAR2017的MLT(Competition on Multi-lingual scene ...
随机推荐
- electron项目中使用jquery不生效的解决方法
才开始接触electron的时候,本来想用bootstrap快速搞一个demo,无奈有些功能没法用,之后才意识到是jquery没发用,之后找了一些资料,比较简单的方式就是在引入jquery之前加入一下 ...
- VS2008+Windows DDK 7的环境配置
Mark offers some third party utilities. That's good, but I will show a more handy way (IMHO): how to ...
- ZOJ 3587 扩展KMP
思路:这题确实大帝做得非常机智!字符串先求最长前缀,反的字符串再求一次最长前缀.然后就能够搞了. 每一个子串出现的次数就是最长前缀的次数嘛! #pragma comment(linker, " ...
- Jacoco覆盖率工具使用调研
JaCoCo Java Code Coverage Library Jacoco是一个开源的覆盖率工具.Jacoco可以嵌入到Ant .Maven中,并提供了EclEmma Eclipse插件,也可以 ...
- 【Canvas】动态正17边光阑 向高斯致敬
[背景知识] 公元前三世纪,欧几里得在<几何原本>中记载了正方形,正五边形,正六边形的做法,后来人们也掌握了正十五边形作图,但之后两千多年,人们没有在更高阶边形上取得突破. 1796年,1 ...
- [置顶] Android之服务器编程
这个教程主要是讲解服务器编程的,如果你的应用需要和服务器通信,那就必须了解服务器编程(当然,也许你不需要了解,因为你只开发客户端),Android应用和服务器的通信可以使用Http + JSON来通信 ...
- shell脚本中的几个括号总结(小括号/大括号/花括号)
from:http://www.cnblogs.com/hanyan225/archive/2011/10/06/2199652.html 是毋庸置疑的,方便了我们也迷惑了我们,比如这些杂七杂八的括号 ...
- openerp 7.0接收陌生邮件名称显示乱码问题解决方法
修改代码:addons\mail\mail_thread.py #858 line #msg_dict['email_from'] = decode(message.get('from')) ms ...
- 关于NHibernate中存在于Session中实例的3种状态的简单分析
在使用NHibernate的时候.在Session中会有3种状态. 1. 瞬时状态 (Transient) 由 new 命令开辟内存空间的对象,也就是平时所熟悉的普通对象. 如: Student st ...
- 网路总结01-HTTP协议和NSURLConnection