ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17) 介绍
阅读文章:《ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17)》
这篇文章是对一项中文检测和识别比赛项目(RCTW)的介绍和总结,这是一项新的专注于中文识别的竞赛。这项竞赛的特点在于,包含12263张标注过的中文数据集,有两项任务,文本检测以及end-to-end文本识别。竞赛时间从2017年1月20日至3月31日,共收到19个team的23个有效的提交结果。下面从几个方面进行详细说明 。
-数据介绍
-任务及评价标准
-结果总结与分析
1. 数据介绍
数据集的名字叫做CTW-12k,由12263张包含中文的自然场景图片组成,其中大部分是直接由摄像头或手机拍摄,少部分为生成图像,并且每张图像至少包含一行中文。
数据的标注均通过标注工具手工标注完成,通过绘制四边形来标注一个文本行,而不是以单词为单位进行标注,每个文本行的内容以UTF-8字符串进行标注。在数据集中存在字体、布局和语言等多样性。
数据集划分为两部分,训练集和验证集包含8034张图片,这部分数据集的图像和标注均在比赛时发布。测试集包含4229张图片,并在截止日期前一个星期发布。
2. 任务及评价标准
任务分为两个:文本检测,end-to-end文本识别。与之前的比赛不同的是,没有设置cropped text recognition task,因为相比之下,进行end-to-end的识别设定效果更好。
1) Task 1 - Text Localization
文本定位是一项传统的竞赛任务,目标是确定图像中包含文本行的四边形位置,同时提供每个四边形的置信分数。
对于这项任务,主要采用的评价标准为mean Average Precision(mAP)。mAP是PR曲线以下的归一化面积值,即所有类别PR曲线下面积的平均值,由于本次竞赛中只有文本这一个类别,故mAP也就等同于AP。
原始的AP是定义在轴对齐的bounding box基础上的,而本次竞赛项目中的文本由四边形定位,所以在四边形上计算IoU而不是矩形,如下图所示,计算方法采用python的shapely package。检测结果满足以下两个条件认定为正确:(1)IoU大于0.5;(2)groundtruth没有匹配其他检测结果。当多个检测结果都匹配至同一groundtruth时,选择IoU最大的一个。
之前的竞赛普遍使用F-score作为评价标准,F-score是在P和R之间做出一些调整,但AP在调整中保持不变。本任务以AP作为主要的评价标准,并以此根据提交结果进行排行。为了与之前的竞赛对比,同时对每一个提交结果计算出最大F-meansure分数,两个分数均在结果表上列出。
(a) PR(precision-recall)曲线:以查全率R为横坐标,以查准率P为纵坐标的曲线。查准率关心的是”预测出正例的正确率”即从正反例子中挑选出正例的问题。查全率关心的是”预测出正例的保证性”即从正例中挑选出正例的问题。
(b) mAP:每个类别都可以绘制一条PR曲线,曲线下方与X轴之间的面积为AP值,对每个类的AP再求mean,就是mAP。
(c) ROC曲线:曲线的坐标分别为真正例率(TPR)和假正例率(FPR)
(d) F-score:综合考虑PR曲线中P和R两个指标
当β=1β=1时称为F1-score,即P和R的权重相同。
2)Task 2 - End-to-End Recognition
该任务的目标是同时进行文本定位和识别,参与队伍要求提交检测结果的同时提交识别结果,检测分数替换为识别的文本内容。
评价标准为计算识别结果与groundtruth之间的编辑距离,评价过程包括两步:首先,每一个检测结果匹配为一个groundtruth(对应最大的IoU)或”None”(没有与groundtruth的IoU大于0.5的检测结果),如果多个检测结果与同一groundtruth匹配,则选择IoU最大的一个作为检测结果,其他的均设为”None”;然后,计算所有匹配对的编辑距离,如果一个检测结果被标记为”None”,则计算检测结果的文本内容与空字符之间的距离,求最后的平均编辑距离average edit distance(AED)。这个方法同时考虑了检测和识别对结果的影响。
为了与其他比赛相比较,还计算了normalized edit distance(NED)。
3. 结果总结与分析
1)结果提交
Table 1 总结了Task 1的top10,并在结果列表中列出了AP和最大F-measure分数。
其中排在前3名的队伍:
(i)”Foo&Bar”:采用的是faster-rcnn算法,网络为resnet101及基于imagenet预训练的模型。
(ii)”NLPR_PAL”:采用Deep Direct Regression Network方法(我的上一篇论文笔记中提到的论文)。
(iii)”gmh“:CNN算法。
Table 2列举了Task 2的结果:
2)结果分析
Task 1:普遍的错误有两种,(1)由于text line过长导致的错误;(2)检测结果有冗余。
Task 2:主要错误有3种,(1)错误的检测结果导致识别错误;(2)视角问题导致的文字形变;(3)相似的文字结构导致的错误识别(如“园”和“国”)
---------------------
转自:https://blog.csdn.net/rabbithui/article/details/79107208?utm_source=copy
ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17) 介绍的更多相关文章
- OpenCascade Chinese Text Rendering
OpenCascade Chinese Text Rendering eryar@163.com Abstract. OpenCascade uses advanced text rendering ...
- 论文阅读(Weilin Huang——【AAAI2016】Reading Scene Text in Deep Convolutional Sequences)
Weilin Huang--[AAAI2016]Reading Scene Text in Deep Convolutional Sequences 目录 作者和相关链接 方法概括 创新点和贡献 方法 ...
- 论文速读(Jiaming Liu——【2019】Detecting Text in the Wild with Deep Character Embedding Network )
Jiaming Liu--[2019]Detecting Text in the Wild with Deep Character Embedding Network 论文 Jiaming Liu-- ...
- Python第三方库SnowNLP(Simplified Chinese Text Processing)快速入门与进阶
简介 github地址:https://github.com/isnowfy/snownlp SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的 ...
- Assignment 1:Chinese Text Data Processing.
记录过程. Lucene分词:http://blog.csdn.net/cyxlzzs/article/details/7999212 Lucene自定义词典:http://lilongbao.blo ...
- FastReport"Text"对象中的HTML标签介绍以及使用
"Text"对象可以理解一些简单的HTML标签.标签可位于对象中的文本.在默认情况下,标签是禁用的,要启用这些HTML标签,可选择对象上下文菜单中的“Allow HTML tags ...
- sublime text 3 15个常用插件介绍
1.ColorPicker 功能:调色板(需要输入颜色时,可直接选取颜色) 使用:快捷键Windows: ctrl+shift+c 2.Emmet 功能:编码快捷键,前端必备 使用:在输入代码段后,按 ...
- ocr 资源
1. PIL 在图片上添加中文 https://blog.csdn.net/m0_37606112/article/details/78511381 2 .Chinese Text in the Wi ...
- 厉害了!阿里安全图灵实验室在ICDAR2017 MLT竞赛刷新世界最好成绩
近日,阿里安全图灵实验室(Alibaba Turing Lab)的ATL Cangjie OCR算法在ICDAR2017的MLT(Competition on Multi-lingual scene ...
随机推荐
- scala 学习笔记五 foreach, map, reduce
例子 val v = Vector(,,,) ) println(s) //输出:Vector(2, 4, 6, 8) val v2 = Vector(,,,) var v3 = v2.reduce( ...
- Android -- Fragment动画异常Unknown animation name: objectAnimator
异常 Caused by: java.lang.RuntimeException: Unknown animation name: objectAnimator 异常代码 FragmentTransa ...
- 顺序查找 && 折半查找
顺序查找 算法描述 顺序比较即可. 平均查找长度 (n+1)/2, 其中n为表长 ...
- SSIS包部署错误之运行环境设置
在SQLServer代理处新建了一个job,步骤里面的操作是指向一个SSIS模型包 执行,报错如下 根据报错信息是64bit,于是做出修改如下图 再次执行 OK
- Jmeter+Ant+Jenkins搭建持续集成的接口测试框架
https://my.oschina.net/hellotest/blog/516079 摘要: 一个系统通常有多个接口,软件的生命周期中,我们会不断的去优化老的接口和开发新的接口,那么在这个过程中, ...
- (剑指Offer)面试题60:把二叉树打印成多行
题目: 从上到下按层打印二叉树,同一层结点从左至右输出.每一层输出一行. 思路: 很明显,采用广度优先遍历来解决,但因为需要按行输出,所以需要判断每一层的开始和结束,因此需要两个变量,一个表示当前层尚 ...
- 开源 免费 java CMS - FreeCMS1.9 会员权限管理
项目地址:http://www.freeteam.cn/ 会员权限管理 管理会员可使用的权限.会员在使用某一特定功能时,如投稿.可依据此会员所在会员组是否有投稿权限来决定会员能否够使用投稿功能. 1. ...
- STL - 容器 - MultiSet
MultiSet根据特定排序准则,自动将元素排序.MultiSet允许元素重复.一些常规操作:MultiSetTest.cpp #include <iostream> #include & ...
- storm0.9.0.1升级安装
来自:http://blog.csdn.net/liuzhoulong/article/details/21112101 1,下载0.9.0.1 http://storm.incubator.apac ...
- HDU 4902 Nice boat 成段线段树
操作1 的时候标记deng[rt]表示以下一段数都是与当前节点的值同样 下次操作2时直接对有deng标记的节点gcd更新 (可能还能够更简单) #include <stdio.h> #in ...