ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17) 介绍

阅读文章：《ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17)》

　　这篇文章是对一项中文检测和识别比赛项目（RCTW）的介绍和总结，这是一项新的专注于中文识别的竞赛。这项竞赛的特点在于，包含12263张标注过的中文数据集，有两项任务，文本检测以及end-to-end文本识别。竞赛时间从2017年1月20日至3月31日，共收到19个team的23个有效的提交结果。下面从几个方面进行详细说明。

-数据介绍
-任务及评价标准
-结果总结与分析

1. 数据介绍
　　数据集的名字叫做CTW-12k，由12263张包含中文的自然场景图片组成，其中大部分是直接由摄像头或手机拍摄，少部分为生成图像，并且每张图像至少包含一行中文。
　　数据的标注均通过标注工具手工标注完成，通过绘制四边形来标注一个文本行，而不是以单词为单位进行标注，每个文本行的内容以UTF-8字符串进行标注。在数据集中存在字体、布局和语言等多样性。
　　数据集划分为两部分，训练集和验证集包含8034张图片，这部分数据集的图像和标注均在比赛时发布。测试集包含4229张图片，并在截止日期前一个星期发布。

2. 任务及评价标准
　　任务分为两个：文本检测，end-to-end文本识别。与之前的比赛不同的是，没有设置cropped text recognition task，因为相比之下，进行end-to-end的识别设定效果更好。

1） Task 1 - Text Localization
　　文本定位是一项传统的竞赛任务，目标是确定图像中包含文本行的四边形位置，同时提供每个四边形的置信分数。
　　对于这项任务，主要采用的评价标准为mean Average Precision(mAP)。mAP是PR曲线以下的归一化面积值，即所有类别PR曲线下面积的平均值，由于本次竞赛中只有文本这一个类别，故mAP也就等同于AP。
　　原始的AP是定义在轴对齐的bounding box基础上的，而本次竞赛项目中的文本由四边形定位，所以在四边形上计算IoU而不是矩形，如下图所示，计算方法采用python的shapely package。检测结果满足以下两个条件认定为正确：(1)IoU大于0.5；(2)groundtruth没有匹配其他检测结果。当多个检测结果都匹配至同一groundtruth时，选择IoU最大的一个。

　　之前的竞赛普遍使用F-score作为评价标准，F-score是在P和R之间做出一些调整，但AP在调整中保持不变。本任务以AP作为主要的评价标准，并以此根据提交结果进行排行。为了与之前的竞赛对比，同时对每一个提交结果计算出最大F-meansure分数，两个分数均在结果表上列出。

　　(a) PR（precision-recall）曲线：以查全率R为横坐标，以查准率P为纵坐标的曲线。查准率关心的是”预测出正例的正确率”即从正反例子中挑选出正例的问题。查全率关心的是”预测出正例的保证性”即从正例中挑选出正例的问题。

　　(b) mAP：每个类别都可以绘制一条PR曲线，曲线下方与X轴之间的面积为AP值，对每个类的AP再求mean，就是mAP。
　　(c) ROC曲线：曲线的坐标分别为真正例率（TPR）和假正例率（FPR）

　　(d) F-score：综合考虑PR曲线中P和R两个指标
当β=1β=1时称为F1-score，即P和R的权重相同。
2）Task 2 - End-to-End Recognition
　　该任务的目标是同时进行文本定位和识别，参与队伍要求提交检测结果的同时提交识别结果，检测分数替换为识别的文本内容。
　　评价标准为计算识别结果与groundtruth之间的编辑距离，评价过程包括两步：首先，每一个检测结果匹配为一个groundtruth（对应最大的IoU）或”None”（没有与groundtruth的IoU大于0.5的检测结果），如果多个检测结果与同一groundtruth匹配，则选择IoU最大的一个作为检测结果，其他的均设为”None”；然后，计算所有匹配对的编辑距离，如果一个检测结果被标记为”None”，则计算检测结果的文本内容与空字符之间的距离，求最后的平均编辑距离average edit distance(AED)。这个方法同时考虑了检测和识别对结果的影响。
　　为了与其他比赛相比较，还计算了normalized edit distance(NED)。

3. 结果总结与分析
1）结果提交
Table 1 总结了Task 1的top10，并在结果列表中列出了AP和最大F-measure分数。

其中排在前3名的队伍：
（i）”Foo&Bar”：采用的是faster-rcnn算法，网络为resnet101及基于imagenet预训练的模型。
（ii）”NLPR_PAL”：采用Deep Direct Regression Network方法(我的上一篇论文笔记中提到的论文)。
（iii）”gmh“：CNN算法。

Table 2列举了Task 2的结果：

2）结果分析
Task 1：普遍的错误有两种，(1)由于text line过长导致的错误；(2)检测结果有冗余。
Task 2：主要错误有3种，(1)错误的检测结果导致识别错误；(2)视角问题导致的文字形变；(3)相似的文字结构导致的错误识别（如“园”和“国”）
---------------------

转自：https://blog.csdn.net/rabbithui/article/details/79107208?utm_source=copy

ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17) 介绍的更多相关文章

OpenCascade Chinese Text Rendering
OpenCascade Chinese Text Rendering eryar@163.com Abstract. OpenCascade uses advanced text rendering ...
论文阅读（Weilin Huang——【AAAI2016】Reading Scene Text in Deep Convolutional Sequences）
Weilin Huang--[AAAI2016]Reading Scene Text in Deep Convolutional Sequences 目录作者和相关链接方法概括创新点和贡献方法 ...
论文速读（Jiaming Liu——【2019】Detecting Text in the Wild with Deep Character Embedding Network ）
Jiaming Liu--[2019]Detecting Text in the Wild with Deep Character Embedding Network 论文 Jiaming Liu-- ...
Python第三方库SnowNLP（Simplified Chinese Text Processing）快速入门与进阶
简介 github地址:https://github.com/isnowfy/snownlp SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的 ...
Assignment 1:Chinese Text Data Processing.
记录过程. Lucene分词:http://blog.csdn.net/cyxlzzs/article/details/7999212 Lucene自定义词典:http://lilongbao.blo ...
FastReport"Text"对象中的HTML标签介绍以及使用
"Text"对象可以理解一些简单的HTML标签.标签可位于对象中的文本.在默认情况下,标签是禁用的,要启用这些HTML标签,可选择对象上下文菜单中的“Allow HTML tags ...
sublime text 3 15个常用插件介绍
1.ColorPicker 功能:调色板(需要输入颜色时,可直接选取颜色) 使用:快捷键Windows: ctrl+shift+c 2.Emmet 功能:编码快捷键,前端必备使用:在输入代码段后,按 ...
ocr 资源
1. PIL 在图片上添加中文 https://blog.csdn.net/m0_37606112/article/details/78511381 2 .Chinese Text in the Wi ...
厉害了！阿里安全图灵实验室在ICDAR2017 MLT竞赛刷新世界最好成绩
近日,阿里安全图灵实验室(Alibaba Turing Lab)的ATL Cangjie OCR算法在ICDAR2017的MLT(Competition on Multi-lingual scene ...

随机推荐

（转）NGUI系列教程七（序列帧动画UITexture 和 UIsprit）
NGUI系列教程七(序列帧动画) 今天我给大家讲一下如何使用NGUI做序列帧动画.本节主要包括两方面内容,分别是使用UIspirit和使用UITexture 做序列帧动画.废话不说了,下面开始.还 ...
（转）Unity中protobuf的使用方法
在移动手机游戏开发中,目前Unity3D已成为比较主流的开发技术. 那么对于客户端服务器协议的打解包,我们有3中常用的处理方式: 1.自定义结构体:在协议中直接传输代码中自定义的结构体:这种方式的坏处 ...
VS2008+Windows DDK 7的环境配置
Mark offers some third party utilities. That's good, but I will show a more handy way (IMHO): how to ...
Untracked Files Prevent Checkout move or commit them before checkout
点开View Files... 查看里面的文件名称,在项目的.idea文件夹中删掉ViewFiles显示的文件夹名称就好
Mysql 环境配置查询
Mysql 环境查询 1, 查看全部的引擎 a) Show engines 或者是进入到information_schama里面去查看ENGINES表 2, 查看当前用户 a) Select user ...
cocos2d－x3.0创建第一个jsb游戏
第一步: 最新的cocos2d-x.下载地址https://github.com/cocos2d/cocos2d-x github上最新的引擎,值得注意的是官网上发布的引擎是稳定版.选择哪种就看个人喜 ...
Java从零开始学三十一(DATE和Calendar类)
一.Date类 Date类是一个相对较为简单的操作类,在使用中直接使用java.util.Date类的构造方法并进行输出就可以得到一个完整的日期二.Calendar类 Calendar类可以将取得的 ...
Linux对文件内容基本操作(学习笔记七)
一.cat 1.1.查看文件内容格式:cat 文件名 [root@model /]# cat /etc/resolv.conf # Generated by NetworkManager names ...
〖Windows〗Linux的Qt程序源码转换至Windows平台运行，编码的解决
在中国大陆,Windows默认的编码是gb2312,而Linux是UTF8: 多数情况下,把Linux上的程序转换至Windows上运行需要进行编码转换才能正常显示: 而其实大可以不必的,同样,文件使 ...
ORA-27090 故障一例
近期的alert日志中碰到了ORA-27090的错误信息.其错误提示为Unable to reserve kernel resources for asynchronous disk I/O.依据这个 ...

ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17) 介绍

ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17) 介绍的更多相关文章

随机推荐

热门专题