[CVPR 2016] Weakly Supervised Deep Detection Networks论文笔记

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 13.0px "Helvetica Neue"; color: #323333 }
p.p2 { margin: 0.0px 0.0px 0.0px 0.0px; font: 13.0px "Helvetica Neue"; color: #042eee }
p.p3 { margin: 0.0px 0.0px 0.0px 0.0px; font: 13.0px "Helvetica Neue"; color: #323333; min-height: 15.0px }
p.p4 { margin: 0.0px 0.0px 0.0px 0.0px; font: 15.0px "Helvetica Neue"; color: #323333 }
li.li1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 13.0px "Helvetica Neue"; color: #323333 }
span.s1 { }
span.s2 { text-decoration: underline }
ul.ul1 { list-style-type: disc }
ul.ul2 { list-style-type: circle }

Weakly Supervised Deep Detection Networks，Hakan Bilen，Andrea Vedaldi

https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Bilen_Weakly_Supervised_Deep_CVPR_2016_paper.pdf

亮点

把弱监督检测问题解释为proposal排序的问题，通过比较所有proposal的类别分数得到一个比较正确的排序，这种思想与检测中评测标准的计算方法一致

相关工作

The MIL strategy results in a non-convex optimization problem; in practice, solvers tend to get stuck in local optima

such that the quality of the solution strongly depends on the initialization.

developing various initialization strategies [19, 5, 32, 4]

[19] propose a self-paced learning strategy
[5] initialize object locations based on the objectness score.
[4] propose a multi-fold split of the training data to escape local optima.

on regularizing the optimization problem [31, 1].

[31] apply Nesterov’s smoothing technique to the latent SVM formulation
[1] propose a smoothed version of MIL that softly labels object instances instead of choosing the highest scoring ones.

Another line of research in WSD is based on the idea of identifying the similarity between image parts.

[31] propose a discriminative graph-based algorithm that selects a subset of windows such that each window is connected to its nearest neighbors in positive images.
[32] extend this method to discover multiple co-occurring part configurations.
[36] propose an iterative technique that applies a latent semantic clustering via latent Semantic Analysis (pLSA)
[2] propose a formulation that jointly learns a discriminative model and enforces the similarity of the selected object regions via a discriminative convex clustering algorithm

方法

本文采用的方法非常简单易懂，主要分为以下三部：

将特征和region proposal的结果输入spatial pyramid pooling层，取出与区域相关的特征向量，并输入两个fc层
分类：fc层的输出通过softmax分类器，计算出这一区域类别
检测：fc层的输出通过softmax分类器，与上面不同的是归一化的时候不是用类别归一化，而是用所有区域的分数进行归一化，通过区域之间的对比找到包含该类别信息最多的区域

某区域r属于某类别c的得分，为后两部分的积
全图的类别得分，为所有区域属于该类别的得分之和

训练的loss function如下

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 13.0px "Helvetica Neue"; color: #323333 }
p.p2 { margin: 0.0px 0.0px 0.0px 0.0px; font: 15.0px "Helvetica Neue"; color: #323333 }
li.li1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 13.0px "Helvetica Neue"; color: #323333 }
span.s1 { }
ul.ul1 { list-style-type: disc }
ul.ul2 { list-style-type: circle }
ul.ul3 { list-style-type: square }

最后一项是一个校准项（按照理解轻微更改了，感觉论文notation有点问题），其目的是通过拉近feature的距离约束解的平滑性（即与正确解相近的proposal也应该得到高分）。

实验结果

本文根据basenet不同给出了4种model：S (VGG-F), M (VGG-M-1024), L (VGG-VD16)和Ens（前三种ensemble的模型）

Ablation:

Object proposal

Baseline mAP: Selective Search S 31.1%, M 30.9%, L 24.3%, Ens. 33.3%
Edge Box: +0~1.2%
Edge Box + Edge Box Score: +1.8~5.9%

Spatial regulariser (compared with Edge Box + Edge Box Score) mAP +1.2~4.4%

VOC2007

mAP on test: S +2.9%, M +3.3%, L +3.2%, Ens. +7.7% compared with [36] + context
CorLoc on trainval: S +5.7%, M +7.6%, L +5%, Ens. +9.5% compared with [36]
Classification AP on test: S +7.9% compared with VGG-F, M +6.5% compared with VGG-M-1024, L +0.4% compared with VGG-VD16, Ens. -0.3% compared with VGG-VD16

VOC2010

mAP on test: +8.8% compared with [4]
CorLoc on trainval: +4.5% compared with [4]

缺点

本文有一个明显的缺点是只考虑了一张图中某类别物体只出现一次的情况（regulariser中仅限制了最大值及其周围的框），这一点在文中给出的failure cases中也有所体现。

[CVPR 2016] Weakly Supervised Deep Detection Networks论文笔记的更多相关文章

[CVPR2017] Weakly Supervised Cascaded Convolutional Networks论文笔记
p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 14.0px "Helvetica Neue"; color: #042eee } p. ...
[ICCV 2019] Weakly Supervised Object Detection With Segmentation Collaboration
新在ICCV上发的弱监督物体检测文章,偷偷高兴一下,贴出我的poster,最近有点忙,话不多说,欢迎交流- https://arxiv.org/pdf/1904.00551.pdf http://op ...
Video Frame Synthesis using Deep Voxel Flow 论文笔记
Video Frame Synthesis using Deep Voxel Flow 论文笔记 arXiv 摘要:本文解决了模拟新的视频帧的问题,要么是现有视频帧之间的插值,要么是紧跟着他们的探索. ...
吴恩达《深度学习》-第一门课 (Neural Networks and Deep Learning)-第四周：深层神经网络(Deep Neural Networks)-课程笔记
第四周:深层神经网络(Deep Neural Networks) 4.1 深层神经网络(Deep L-layer neural network) 有一些函数,只有非常深的神经网络能学会,而更浅的模型则 ...
CVPR 2018paper: DeepDefense: Training Deep Neural Networks with Improved Robustness第一讲
前言:好久不见了,最近一直瞎忙活,博客好久都没有更新了,表示道歉.希望大家在新的一年中工作顺利,学业进步,共勉! 今天我们介绍深度神经网络的缺点:无论模型有多深,无论是卷积还是RNN,都有的问题:以图 ...
[paper reading] C-MIL: Continuation Multiple Instance Learning for Weakly Supervised Object Detection CVPR2019
MIL陷入局部最优,检测到局部,无法完整的检测到物体.将instance划分为空间相关和类别相关的子集.在这些子集中定义一系列平滑的损失近似代替原损失函数,优化这些平滑损失. C-MIL learns ...
StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 论文笔记
StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 本文将利 ...
[CVPR2015] Is object localization for free? – Weakly-supervised learning with convolutional neural networks论文笔记
p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 13.0px "Helvetica Neue"; color: #323333 } p. ...
【医学影像】《Identifying Medical Diagnoses and Treatable Diseases by Image-Based Deep Learning》论文笔记
这篇论文的作者是张康教授为首的团队,联合国内外众多医院及科研机构,合力完成,最后发表在cell上,实至名归. 从方法的角度上来说,与上一篇博客中的论文很相似,采用的都是InceptionV3模型,同时 ...

随机推荐

Stochastic Gradient Descent 随机梯度下降法-R实现
随机梯度下降法 [转载时请注明来源]:http://www.cnblogs.com/runner-ljt/ Ljt 作为一个初学者,水平有限,欢迎交流指正. 批量梯度下降法在权值更新前对所有样本汇总 ...
聊聊javaMail
今天闲着无事看了看用java发送邮件的相关知识代码参考自<<精通Java Web整合开发(JSP+AJAX+Struts+Hibernate)>>(第2版) 不多说先上图 ...
akamai：与看视频广告等待相比，用户更不能忍受缓冲等待
根据akamai的研究,网络视频广告的位置对于完成率的影响最大,间插广告的完成率比前贴片广告要高18.1%,而前贴片广告比后贴片广告的完成率要高14.3%. 网站的重复访客的视频广告观看完成率比一时兴 ...
OpenCV 闭合轮廓检测
这个好像是骨头什么的,但是要求轮廓闭合,于是对图片进行一下膨胀操作,再次检测轮廓就好了. // A closed contour.cpp : 定义控制台应用程序的入口点. // #include &q ...
OpenCV 矩形轮廓检测
转载请注明出处:http://blog.csdn.net/wangyaninglm/article/details/44151213, 来自:shiter编写程序的艺术基础介绍 OpenCV里提取目 ...
Systemc在VC++2010安装方法及如何在VC++2010运行Noxim模拟器
Systemc在VC++2010的安装方法可以参考文档"Systemc with Microsoft Visual Studio 2008.pdf".本文档可以在"htt ...
ZooKeeper 权限管理
这其中一个显而易见的问题就是权限:如果我的数据被别人动了怎么办? 方案一:采用ZooKeeper支持的ACL digest方式,用户自己定义节点的权限这种方案将zookeeper的acl和diges ...
obj-c编程10:Foundation库中类的使用(1)[数字,字符串]
我们知道在mac或iphone上编程最终逃不开os x平台,你无法在windows或linux上开发纯正的apple程序.(so不要舍不得银子买mac啦)虽说linux和windows上有移植的obj ...
LeetCode(48)-Length of Last Word
题目: Given a string s consists of upper/lower-case alphabets and empty space characters ' ', return t ...
ruby正则表带式对象使用备忘
ruby对于正则表达式的使用是非常灵活的,提供了专门的正则表达式对象Regexp.其包括match实例方法,字符串也含有该方法.so可以这么做: /a/ =~ "a" " ...

[CVPR 2016] Weakly Supervised Deep Detection Networks论文笔记

[CVPR 2016] Weakly Supervised Deep Detection Networks论文笔记的更多相关文章

随机推荐

热门专题