[Arxiv1706] Few-Example Object Detection with Model Communication 论文笔记
p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 13.0px "Helvetica Neue"; color: #042eee }
p.p2 { margin: 0.0px 0.0px 0.0px 0.0px; font: 13.0px "Helvetica Neue"; color: #323333 }
p.p3 { margin: 0.0px 0.0px 0.0px 0.0px; font: 15.0px "Helvetica Neue"; color: #323333 }
p.p4 { margin: 0.0px 0.0px 0.0px 0.0px; font: 13.0px "Helvetica Neue"; color: #323333; min-height: 15.0px }
li.li2 { margin: 0.0px 0.0px 0.0px 0.0px; font: 13.0px "Helvetica Neue"; color: #323333 }
span.s1 { text-decoration: underline }
span.s2 { }
ul.ul1 { list-style-type: disc }
ul.ul2 { list-style-type: circle }
ul.ul3 { list-style-type: square }
https://arxiv.org/pdf/1706.08249.pdf
Few-Example Object Detection with Model Communication,Xuanyi Dong, Liang Zheng, Fan Ma, Yi Yang, Deyu Meng
亮点
- 本文仅仅通过每个类别3-4个bounding box标注即可实现物体检测,并与其它使用大量training examples的方法性能可比
- 主要方法是:multi-modal learning (多模型同时训练) + self-paced learning (curriculum learning)
相关工作
这里介绍几个比较容易混淆的概念,以及与他们相关的方法
- 弱监督物体检测:数据集的标签是不可靠的,如(x,y),y对于x的标记是不可靠的。这里的不可靠可以是标记不正确,多种标记,标记不充分,局部标记等。
- 标签是图像级别的类别标签[7][8][9][10][11][18][30][31][32][33][34]
- 半监督物体检测:半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。
- 一些训练样本只有类别标签,另外一些样本有详细的物体框和类别标注[4][5][6]
- 需要大量标注 (e.g., 50% of the full annotations)
- 每个类别只有几个物体框标注(Few-Example Object Detection with Model Communication)[12][35]
- 和few-shot learning 的区别:是否使用未标注数据学习
- 通过视频挖掘位置标注,此类方法主要针对会移动的物体[2][3][29][1]
- Webly supervised learning for object detection: reduce the annotation cost by leveraging web data
方法

Basic detector: Faster RCNN & RFCN
Object proposal method: selective search & edge boxes
Annotations: when we randomly annotate approximately four images for each class, an image may contain several objects, and we annotate all the object bounding boxes.

参数更新:
更新vj:对上述损失函数进行求导,可以得到vj的解
对同一张图像i同一个模型j,如果有多个样本使得vj=1,则只选择使Lc最小的那个样本置为1,其他置为0。gamma促使模型之间共享信息,因为vj为1时,阈值变大,图像更容易被选择到。
更新wj:与其它文章方法相同
更新yuj:为更新yuj我们需要从一组bounding box找到满足以下条件的解,
很难直接找到最优化的解。文中采用的方案是:将所有模型预测出的结果输入nms,并通过阈值只保留分数高的结果,余下的组成yuj。
去除难例:we employ a modified NMS (intersection/max(area1,area2)) to filter out the nested boxes, which usually occurs when there are multiple overlapping objects. If there are too many boxes (≥ 4) for one specific class or too many classes (≥ 4) in the image, this image will be removed. Images in which no reliable pseudo objects are found are filtered out.
实验
Compared with the-state-of-the-art (4.2 images per class is annotated)
- VOC 2007: -1.1mAP, correct localization +0.9% compared with [21]
- VOC 2012: -2.5mAP compared with [21], correct localization +9.8%
- ILSVRC 2013: -2.4mAP compared with [21]
- COCO 2014: +1.3 mAP compared with [22]
[20] V. Kantorov, M. Oquab, M. Cho, and I. Laptev, “Contextlocnet: Context-aware deep network models for weakly supervised localization,” in European Conference on Computer Vision, 2016.
[21] A. Diba, V. Sharma, A. Pazandeh, H. Pirsiavash, and L. Van Gool, “Weakly supervised cascaded convolutional networks,” 2017
[22] Y. Zhu, Y. Zhou, Q. Ye, Q. Qiu, and J. Jiao, “Soft proposal networks for weakly supervised object localization,” in International Conference on Computer Vision, 2017.
Ablation study
- VOC 2007: +4.1 mAP compared with model ensemble
- k number of labeled images per class; w/ image labels: image-level supervision incorporated

不足
虽然localization有一定准确率,但是难例图片漏检比较多(也就是说few example classification效果不好)。
[Arxiv1706] Few-Example Object Detection with Model Communication 论文笔记的更多相关文章
- Minimum Barrier Salient Object Detection at 80 FPS 论文阅读笔记
v\:* {behavior:url(#default#VML);} o\:* {behavior:url(#default#VML);} w\:* {behavior:url(#default#VM ...
- Rank & Sort Loss for Object Detection and Instance Segmentation 论文解读(含核心源码详解)
第一印象 Rank & Sort Loss for Object Detection and Instance Segmentation 这篇文章算是我读的 detection 文章里面比较难 ...
- Sparse R-CNN: End-to-End Object Detection with Learnable Proposals 论文解读
前言 事实上,Sparse R-CNN 很多地方是借鉴了去年 Facebook 发布的 DETR,当时应该也算是惊艳众人.其有两点: 无需 nms 进行端到端的目标检测 将 NLP 中的 Transf ...
- 『计算机视觉』FPN:feature pyramid networks for object detection
对用卷积神经网络进行目标检测方法的一种改进,通过提取多尺度的特征信息进行融合,进而提高目标检测的精度,特别是在小物体检测上的精度.FPN是ResNet或DenseNet等通用特征提取网络的附加组件,可 ...
- [Tensorflow] Object Detection API - predict through your exclusive model
开始预测 一.训练结果 From: Testing Custom Object Detector - TensorFlow Object Detection API Tutorial p.6 训练结果 ...
- 论文阅读之 DECOLOR: Moving Object Detection by Detecting Contiguous Outliers in the Low-Rank Representation
DECOLOR: Moving Object Detection by Detecting Contiguous Outliers in the Low-Rank Representation Xia ...
- 使用TensorFlow Object Detection API+Google ML Engine训练自己的手掌识别器
上次使用Google ML Engine跑了一下TensorFlow Object Detection API中的Quick Start(http://www.cnblogs.com/take-fet ...
- TensorFlow object detection API
cloud执行:https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/running_pet ...
- Object Detection with 10 lines of code - Image AI
To perform object detection using ImageAI, all you need to do is Install Python on your computer sys ...
随机推荐
- ORACLE 多表关联 UPDATE 语句
为了方便起见,建立了以下简单模型,和构造了部分测试数据: 在某个业务受理子系统BSS中, SQL 代码 --客户资料表 create table customers ( customer_id num ...
- Java集合之Hashtable
和HashMap一样,Hashtable也是一个散列表,存储的内容也是键值对key-value映射.它继承了Dictionary,并实现了Map.Cloneable.io.Serializable接口 ...
- ROS_RGB-D SLAM学习笔记--室内环境测试
ROS_RGB-D SLAM学习笔记 RTAB-Map's ros-pkg. RTAB-Map is a RGB-D SLAM approach with real-time constraints. ...
- Weka 算法大全
关联规则挖掘 (一) Apriori (二) FilteredAssociator (三) FPGrowth (四) GeneralizedSequentislPatterns (五) Pr ...
- ITU-T Technical Paper: NP, QoS 和 QoE的框架以及它们的区别
本文翻译自ITU-T的Technical Paper:<How to increase QoS/QoE of IP-based platform(s) to regionally agreed ...
- Linux - 动态(Dynamic)与静态(Static)函数库
首先我们要知道的是,函式库的类型有哪些?依据函式库被使用的类型而分为两大类,分别是静态 (Static) 与动态 (Dynamic) 函式库两类. 静态函式库的特色: 扩展名:(扩展名为 .a) ...
- 【46】java对象的三个特征(oop)
对象的三个特征: 对象的行为: 对象有哪些行为和方法 同一个类的实例,由于支持相同的行为具有家族式的特征,对象的行为是由方法定义的. 对象的状态: 施加方法时.对象的响应 每个对象都保存着描述当前特征 ...
- IOS常见的加密方法,常用的MD5和Base64
iOS代码加密常用加密方式 iOS代码加密常用加密方式,常见的iOS代码加密常用加密方式算法包括MD5加密.AES加密.BASE64加密,三大算法iOS代码加密是如何进行加密的,且看下文 MD5 iO ...
- Oracel 编写控制结构
1.条件分支语句 在Oracle9i之前,执行条件分支操作都需要使用IF语句来完成,并且PL/SQL中,提供了三种条件分支语句:IF-THEN.IF-THEN-ELSE.IF-THEN-ELSIF.具 ...
- TCP浅谈为什么3次握手
<计算机网络>中的例子是这样的,"已失效的连接请求报文段"的产生在这样一种情况:客户发出的第一个连接请求报文段并没有丢失,而是在某个网络结点长时间的滞留了,以致延误到连 ...