p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 13.0px "Helvetica Neue"; color: #042eee }
p.p2 { margin: 0.0px 0.0px 0.0px 0.0px; font: 13.0px "Helvetica Neue"; color: #323333 }
p.p3 { margin: 0.0px 0.0px 0.0px 0.0px; font: 15.0px "Helvetica Neue"; color: #323333 }
p.p4 { margin: 0.0px 0.0px 0.0px 0.0px; font: 13.0px "Helvetica Neue"; color: #323333; min-height: 15.0px }
li.li2 { margin: 0.0px 0.0px 0.0px 0.0px; font: 13.0px "Helvetica Neue"; color: #323333 }
span.s1 { text-decoration: underline }
span.s2 { }
ul.ul1 { list-style-type: disc }
ul.ul2 { list-style-type: circle }
ul.ul3 { list-style-type: square }

https://arxiv.org/pdf/1706.08249.pdf

Few-Example Object Detection with Model Communication,Xuanyi Dong, Liang Zheng, Fan Ma, Yi Yang, Deyu Meng

亮点

  • 本文仅仅通过每个类别3-4个bounding box标注即可实现物体检测,并与其它使用大量training examples的方法性能可比
  • 主要方法是:multi-modal learning (多模型同时训练) + self-paced learning (curriculum learning)

相关工作

这里介绍几个比较容易混淆的概念,以及与他们相关的方法

  • 弱监督物体检测:数据集的标签是不可靠的,如(x,y),y对于x的标记是不可靠的。这里的不可靠可以是标记不正确,多种标记,标记不充分,局部标记等。
    • 标签是图像级别的类别标签[7][8][9][10][11][18][30][31][32][33][34]
  • 半监督物体检测:半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。
    • 一些训练样本只有类别标签,另外一些样本有详细的物体框和类别标注[4][5][6]
      • 需要大量标注 (e.g., 50% of the full annotations)
    • 每个类别只有几个物体框标注(Few-Example Object Detection with Model Communication)[12][35]
      • 和few-shot learning 的区别:是否使用未标注数据学习
    • 通过视频挖掘位置标注,此类方法主要针对会移动的物体[2][3][29][1]
  • Webly supervised learning for object detection: reduce the annotation cost by leveraging web data

方法

Basic detector: Faster RCNN & RFCN

Object proposal method: selective search & edge boxes

Annotations: when we randomly annotate approximately four images for each class, an image may contain several objects, and we annotate all the object bounding boxes.

参数更新
更新vj:对上述损失函数进行求导,可以得到vj的解

对同一张图像i同一个模型j,如果有多个样本使得vj=1,则只选择使Lc最小的那个样本置为1,其他置为0。gamma促使模型之间共享信息,因为vj为1时,阈值变大,图像更容易被选择到。

更新wj:与其它文章方法相同

更新yuj:为更新yuj我们需要从一组bounding box找到满足以下条件的解,

很难直接找到最优化的解。文中采用的方案是:将所有模型预测出的结果输入nms,并通过阈值只保留分数高的结果,余下的组成yuj。

去除难例:we employ a modified NMS (intersection/max(area1,area2)) to filter out the nested boxes, which usually occurs when there are multiple overlapping objects. If there are too many boxes (≥ 4) for one specific class or too many classes (≥ 4) in the image, this image will be removed. Images in which no reliable pseudo objects are found are filtered out.

实验

Compared with the-state-of-the-art (4.2 images per class is annotated)

  • VOC 2007: -1.1mAP, correct localization +0.9% compared with [21]
  • VOC 2012: -2.5mAP compared with [21], correct localization +9.8%
  • ILSVRC 2013: -2.4mAP compared with [21]
  • COCO 2014: +1.3 mAP compared with [22]

[20] V. Kantorov, M. Oquab, M. Cho, and I. Laptev, “Contextlocnet: Context-aware deep network models for weakly supervised localization,” in European Conference on Computer Vision, 2016.
[21] A. Diba, V. Sharma, A. Pazandeh, H. Pirsiavash, and L. Van Gool, “Weakly supervised cascaded convolutional networks,” 2017
[22] Y. Zhu, Y. Zhou, Q. Ye, Q. Qiu, and J. Jiao, “Soft proposal networks for weakly supervised object localization,” in International Conference on Computer Vision, 2017.

Ablation study

  • VOC 2007: +4.1 mAP compared with model ensemble
  • k number of labeled images per class; w/ image labels: image-level supervision incorporated

  

不足

虽然localization有一定准确率,但是难例图片漏检比较多(也就是说few example classification效果不好)。

[Arxiv1706] Few-Example Object Detection with Model Communication 论文笔记的更多相关文章

  1. Minimum Barrier Salient Object Detection at 80 FPS 论文阅读笔记

    v\:* {behavior:url(#default#VML);} o\:* {behavior:url(#default#VML);} w\:* {behavior:url(#default#VM ...

  2. Rank & Sort Loss for Object Detection and Instance Segmentation 论文解读(含核心源码详解)

    第一印象 Rank & Sort Loss for Object Detection and Instance Segmentation 这篇文章算是我读的 detection 文章里面比较难 ...

  3. Sparse R-CNN: End-to-End Object Detection with Learnable Proposals 论文解读

    前言 事实上,Sparse R-CNN 很多地方是借鉴了去年 Facebook 发布的 DETR,当时应该也算是惊艳众人.其有两点: 无需 nms 进行端到端的目标检测 将 NLP 中的 Transf ...

  4. 『计算机视觉』FPN:feature pyramid networks for object detection

    对用卷积神经网络进行目标检测方法的一种改进,通过提取多尺度的特征信息进行融合,进而提高目标检测的精度,特别是在小物体检测上的精度.FPN是ResNet或DenseNet等通用特征提取网络的附加组件,可 ...

  5. [Tensorflow] Object Detection API - predict through your exclusive model

    开始预测 一.训练结果 From: Testing Custom Object Detector - TensorFlow Object Detection API Tutorial p.6 训练结果 ...

  6. 论文阅读之 DECOLOR: Moving Object Detection by Detecting Contiguous Outliers in the Low-Rank Representation

    DECOLOR: Moving Object Detection by Detecting Contiguous Outliers in the Low-Rank Representation Xia ...

  7. 使用TensorFlow Object Detection API+Google ML Engine训练自己的手掌识别器

    上次使用Google ML Engine跑了一下TensorFlow Object Detection API中的Quick Start(http://www.cnblogs.com/take-fet ...

  8. TensorFlow object detection API

    cloud执行:https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/running_pet ...

  9. Object Detection with 10 lines of code - Image AI

    To perform object detection using ImageAI, all you need to do is Install Python on your computer sys ...

随机推荐

  1. Linux 开发环境搭建

    本文多参考自网上资料,在此多谢这些资料的作者的辛勤劳动! 另外,本文所用 Linux 版本为 CentOS 7.1. 终端配置 安装及配置 Zsh 在默认情况下,Linux 下的终端是 bash,但其 ...

  2. android 开源图表库MPChart最简单使用方法示例教程Demo--折线图 柱状图

    转载请注明本文出处:http://blog.csdn.net/wingichoy/article/details/50428246 MPChart是android上一款强大的图表开源库,他可以轻松的绘 ...

  3. Linux系统的shell是什么

    shell是用户和Linux操作系统之间的接口.Linux中有多种shell,其中缺省使用的是Bash.本章讲述了shell的工作原理,shell的种类,shell的一般操作及Bash的特性. 什么是 ...

  4. HDTV(1920x1080)码率和视频质量关系的研究 1 (前期准备)

    Hans Hoffmann等人在论文<Studies on the Bit Rate Requirements for a HDTV Format With 1920 x 1080 pixel ...

  5. 浅析数据结构中栈与C实现

    最近在搞摄像头驱动,o()︿︶)o 唉,别提有多烦,一堆寄存器就有人受的了--特么这不是单片机的开发,这是内核驱动开发-- 今天放松一下,我们来看看数据结构中的栈,这节的知识点可以说是数据结构中最容易 ...

  6. 一张图解释NIO原理

  7. 内核调试工具 — kdump & crash

    kdump简介 kdump是系统崩溃的时候,用来转储运行内存的一个工具. 系统一旦崩溃,内核就没法正常工作了,这个时候将由kdump提供一个用于捕获当前运行信息的内核, 该内核会将此时内存中的所有运行 ...

  8. 不用局部变量实现C语言两数交换算法

    关于交换算法,我想非常简单,所以,这次不做分析,直接上代码: #include <stdio.h> #include <stdlib.h> //用异或方式实现 void swa ...

  9. iOS监听模式系列之对APNs的认知与理解

    前言: APNs 协议在近两年的 WWDC 上改过两次, 15 年 12 月 17 日更是推出了革命性的新特性.但在国内传播的博客.面试题里关于 APNs 的答案全都是旧的.错的. 导航: 对 APN ...

  10. Hash函数

    简介 哈稀函数按照定义可以实现一个伪随机数生成器(PRNG),从这个角度可以得到一个公认的结论:哈希函数之间性能的比较可以通过比较其在伪随机生成方面的比较来衡量. 一些常用的分析技术,例如泊松分布可用 ...