来源 | Towards Data Science
整理 | 磐石

就在几天前,Google AI在Kaggle上推出了一项名为Open Images Challenge的大规模目标检测竞赛。当今计算机视觉社区已经很长一段时间没有进行如此新的大规模竞赛,这对视觉研究者来说绝对是一个令人振奋的消息。

连续多年ImageNet一直是计算机视觉领域的“黄金标准型”竞赛,并且吸引了大量团队每年都参与竞争,以获得在ImageNet数据集上最低的错误率。同时,深度学习技术的突破更是使得图像识别任务取得了令人瞩目的巨大进步,甚至超过了人类的准确度。

ImageNet是一个大规模的视觉识别竞赛,有着1000个不同的类别和120万张训练图像。如此大规模的数据使ImageNet变得非常具有挑战性。通过这个比赛,除了学习到如何很好地分类图像之外,还得到了很重要的一点就是我们得到了可以用于其他视觉任务的特征提取器。在ImageNet上预训练的特征提取网络被运用到了许多其他计算机视觉任务,包括目标检测分割跟踪等等。此外,这些特征提取网络的设计同样也可以适用在那些其他的视觉任务上。例如,shortcut connections(跳连)最初就是来自2015年获奖的ImageNet挑战团队,并且现在已经被用于解决计算机视觉任务的大量卷积神经网络结构中。这是一件很有意义的事,大家在一个挑战赛中设计的网络可以被应用到更复杂的任务上。

ImageNet上的错误率历史记录(显示每年团队最佳结果,每年最多10个条目)

Google AI在Kaggle上推出的新一轮目标检测竞赛是正朝着这个积极方向迈进。到目前为止,COCO检测挑战一直是目标检测的重要挑战之一。但是,与ImageNet相比,它规模较小。COCO只有80个类别和330K图像。它并不能达到人们在现实世界中那么复杂的场景想要实现的目标。从业者往往也会发现在自然环境下目标检测会变得极具挑战性。相比而言,ImageNet至少有着足够大的数据集和足够多的类,它对于预训练和使用网络进行迁移学习都非常有用。也许在足够大的数据集上,训练得到的目标检测器在迁移学习时会同样有着足够好表现。

Google AI已公开发布了Open Images数据集v4版本。kaggle上由Google AI发起的比赛的数据集就是基于这个数据集,但又不是完全相同的。另外,Open Images同样遵循着PASCAL VOC,ImageNet和COCO的传统,而且规模空前

Open Images Challenge基于Open Images数据集。竞赛训练集包括:

  • 1.7Million训练图像,500个类别,12Million边界框标注
  • 具有多个目标的复杂场景图像 - 每个图像平均7个标注框
  • 高度多样化的图像,包含像“男士软呢帽(fedora)”和“雪人(snowman)”这样的全新目标
  • 包含描述Open Images类别之间关系的类别层次结构(class hierarchy)信息

除了目标检测赛道(Google AI Open Images - Object Detection Track)之外,比赛还包括视觉关系检测赛道(Google AI Open Images - Visual Relationship Track),用于检测特定关系中的物体对。例如“女人弹吉他”,“桌上的啤酒”,“车内的狗”,“男人拿着咖啡”等等。大家可以在此处https://storage.googleapis.com/openimages/web/factsfigures.html找到有关数据集的更多信息。这是一个很棒的数据集,在上边的链接中你会发现它的丰富性。在这里https://storage.googleapis.com/openimages/2018_04/bbox_labels_600_hierarchy_visualizer/circle.html大家可以看到数据集全部600个类别的层次结构关系。大家可以观察到这是一个不均匀且非常广泛的类别分布。这意味着大家不能天真地统一对待所有类别做处理,大家需要考虑到类别的分布。这一点也更加贴近人们现实世界中的场景。这个数据集的以上特性无疑使我们更接近于创建对于自然场景更鲁棒的模型。

这个挑战赛的奖品也非常诱人,不但有着目标检测赛道30,000美元与视觉关系识别20000美元的奖金池,此外挑战赛的结果还会在2018年欧洲计算机视觉会议(ECCV2018)的研讨会上公布。ECCV2018将在德国慕尼黑举行。

这个比赛是在Kaggle上举办的,很赞。挑战的核心(kernel)往往最终成为从竞争对手看到不同方法的知识来源。如此大规模且复杂的挑战很有希望带来可以应用于计算机视觉领域的最佳研究与一些新想法,就像ImageNet一样。

希望大家在这场激烈的比赛中学到了一些新的和有用的东西,并对计算机视觉和AI的未来感到兴奋。

比赛直达链接:

[1] 目标检测(Google AI Open Images - Object Detection Track):https://www.kaggle.com/c/google-ai-open-images-object-detection-track

[2] 视觉关系识别(Google AI Open Images - Visual Relationship Track):https://www.kaggle.com/c/google-ai-open-images-visual-relationship-track

Google AI推出新的大规模目标检测挑战赛的更多相关文章

  1. AI佳作解读系列(二)——目标检测AI算法集杂谈:R-CNN,faster R-CNN,yolo,SSD,yoloV2,yoloV3

    1 引言 深度学习目前已经应用到了各个领域,应用场景大体分为三类:物体识别,目标检测,自然语言处理.本文着重与分析目标检测领域的深度学习方法,对其中的经典模型框架进行深入分析. 目标检测可以理解为是物 ...

  2. 腾讯推出超强少样本目标检测算法,公开千类少样本检测训练集FSOD | CVPR 2020

    论文提出了新的少样本目标检测算法,创新点包括Attention-RPN.多关系检测器以及对比训练策略,另外还构建了包含1000类的少样本检测数据集FSOD,在FSOD上训练得到的论文模型能够直接迁移到 ...

  3. deeplearning.ai 卷积神经网络 Week 3 目标检测 听课笔记

    本周的主题是对象检测(object detection):不但需要检测出物体(image classification),还要能定位出在图片的具体位置(classification with loca ...

  4. deeplearning.ai 卷积神经网络 Week 3 目标检测

    本周的主题是对象检测(object detection):不但需要检测出物体(image classification),还要能定位出在图片的具体位置(classification with loca ...

  5. 带你读AI论文丨用于目标检测的高斯检测框与ProbIoU

    摘要:本文解读了<Gaussian Bounding Boxes and Probabilistic Intersection-over-Union for Object Detection&g ...

  6. 如何快速使用YOLO3进行目标检测

    本文目的:介绍一篇YOLO3的Keras实现项目,便于快速了解如何使用预训练的YOLOv3,来对新图像进行目标检测. 本文使用的是Github上一位大神训练的YOLO3开源的项目.这个项目提供了很多使 ...

  7. 经典论文系列 | 目标检测--CornerNet & 又名 anchor boxes的缺陷

    ​ 前言: 目标检测的预测框经过了滑动窗口.selective search.RPN.anchor based等一系列生成方法的发展,到18年开始,开始流行anchor free系列,CornerNe ...

  8. COCO2018 目标检测

    刚浏览了一下coco数据集官网,认真看了一下18年的目标检测任务,简单记录一下. coco2018目标检测挑战赛只进行实例分割的评比,虽然仍然可以输出bbox,但是不可以提交到比赛的服务器,原因是官方 ...

  9. AI佳作解读系列(五) - 目标检测二十年技术综述

    计算机视觉中的目标检测,因其在真实世界的大量应用需求,比如自动驾驶.视频监控.机器人视觉等,而被研究学者广泛关注.   上周四,arXiv新出一篇目标检测文献<Object Detection ...

随机推荐

  1. 游LeetCode一月之闲谈

    今年的2月比往常更长,不是因为比往年多了一天,而是被病毒隔离在家的日子显得十分漫长.如果再不给自己找点事情做的话,且不论身体方面的健康状况,精神方面可能也会有些隐忧.做为一名工程师,适时地读上几本平日 ...

  2. Javascript学习笔记-基本概念-语句

    1.if语句 if (condition) statement1 else statement2 也可以像下面这样把整个if 语句写在一行代码中: if (condition1) statement1 ...

  3. 一起了解 .Net Foundation 项目 No.12

    .Net 基金会中包含有很多优秀的项目,今天就和笔者一起了解一下其中的一些优秀作品吧. 中文介绍 中文介绍内容翻译自英文介绍,主要采用意译.如与原文存在出入,请以原文为准. Cecil Cecil 是 ...

  4. Tomcat服务自动启动以隐藏start.bat命令窗口

    该方法注意先要配置好CATALINA_HOME和path等环境变量.接着主要命令有:cmd命令符下进入tomcat/bin目录,输入:service.bat install (自定义的tomcat版本 ...

  5. python初学者必看学习路线图!!!

    python应该是近几年比较火的语言之一,很多人刚学python不知道该如何学习,尤其是没有编程基础想要从事程序员工作的小白,想必应该都会有此疑惑,包括我刚学python的时候也是通过从网上查找相关资 ...

  6. Markdown中插入复杂的合并表格方法

    由于Markdown自身的语法限制,不能直接插入有合并单元格的复杂表格. 姓名 学号 专业 张三 2018123456 计算机 赵四 2018222356 自动化 李六 2018666666 信息工程 ...

  7. 《即时消息技术剖析与实战》学习笔记12——IM系统如何提升图片、音视频消息发送、浏览的体验

    IM系统如何提升用户发送.浏览图片和音视频消息的体验呢?一是保证图片.音视频消息发送得又快又稳,二是保证用户浏览播放图片.音视频消息时流畅不卡顿. 一.提升用户发送图片.音视频的体验 1. 多上传接入 ...

  8. 复制图片链接和标题生成Markdown文本

    写Markdown的时候常常会需要复制图片链接和标题以插入图片,不借助其他工具的话,一般需要先在Markdown文件中输入插入图片的格式,然后在浏览器中复制图片链接和标题将其依次粘贴到Markdown ...

  9. 如何使用Kibana

    目录 前言 一.安装 二.加载自定义索引 三.如何搜索数据 四.如何切换中文 五.如何使用控制台 六.可视化图表 七.使用仪表盘 前言 Kibana 是为 Elasticsearch设计的开源分析和可 ...

  10. Java安装和配置

    一. Java安装和配置 1.JDK下载地址: http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-21331 ...