好久不写论文笔记了,不是没看,而是很少看到好的或者说值得记的了,今天被xinlei这篇paper炸了出来,这篇被据老大说xinlei自称idea of the year,所以看的时候还是很认真的,然后最后确实也发现了不少干货。

一、introduction

  这篇文章主要还是解决detection中如何有效的利用context信息的问题,这里作者提出了有两种context信息:1、image-level的信息,也就是当前场景的信息,例如一张床出现在卧室里面,一个篮球出现在篮球场里面,都是极其合理的  2、obeject-object relationship,例如一个人手上拿着一个球,比一个人手上拿着一辆车还是要合理很多很多的。。

  首先传统的faster rcnn的pipeline中几乎没有利用过任何的context信息,作者提出特别实在NMS的时候,暴力去除掉那些候选框并不是一个好主意,因此提出来spatial memory network来解决这个问题。这个方法的核心就是,当你在图片中检测到车,记住它,然后在下次迭代的时候作为先验知识会帮助下一次的检测得到一些之前漏检的结果。

二、insight&&contribution

具体的内容其实还是要看paper,文章太长了然后mac截图好麻烦,记几点关键的吧。

1.首先将在图片中的检测物体的行为model成一个公式

   随后为了实现obeject-obeject的这种conditional的关系,可以将原式近似为:
  再后来引入state变量,其实就是memory,也就是把上式的O0:n-1 encode成state,并且编程了spatial memory。

  这些推导当然都是合理的,不过其实一般DL的论文,怎么解释都有道理。。

2.下图式整个算法的pipeline,灰色的是原来的faster rcnn的步骤,只不过把conv5的feature换成了m_conv5的feature,并且在每次迭代的时候,通过memory S得到更好的detection结果,然后再根据新的结果更新S,如此迭代优化。

这里为决定memory S的选择也是比较合理的,如下图所示:

细节就不说了,主要是融合了conv5_3的feature以及softmax的的score,前者具有spatial的fearure,后者更多的是semantic的信息。

3.最后一个比较合理的地方就是训练的一个关键了,很多时候你有一个很好的idea,最后的结果不好,未必是你的idea不好,而是有些地方没有处理好。

如下图所示,一开始训练的时候并不收敛,作者经过实验和推导发现了问题所在,那就是memory和detection的在bp的时候是有contract的,我们希望第一次之后的迭代是不会检测到前面的物体的,所以网络会不停的接受矛盾的signal,一个希望它尽量检测一切物体,一个希望不要检测太多,这样的矛盾是的detecor的更新是不合理的,所以最后作者发现,第一次没有memory的时候更新detector M,后面的迭代就不BP了。

三、conclusion

  让我最喜欢的是两点,一个是context信息的object-obejct的阐述,还有一个是训练的时候bp的细节,到了这个份上,这个工作到底work不work对于我来说已经不是关键了。。。。

    

论文笔记《Spatial Memory for Context Reasoning in Object Detection》的更多相关文章

  1. 《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》论文笔记

    论文题目:<Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition> 论文作者:Qibin ...

  2. [place recognition]NetVLAD: CNN architecture for weakly supervised place recognition 论文翻译及解析(转)

    https://blog.csdn.net/qq_32417287/article/details/80102466 abstract introduction method overview Dee ...

  3. 论文笔记系列-Auto-DeepLab:Hierarchical Neural Architecture Search for Semantic Image Segmentation

    Pytorch实现代码:https://github.com/MenghaoGuo/AutoDeeplab 创新点 cell-level and network-level search 以往的NAS ...

  4. 论文笔记——Rethinking the Inception Architecture for Computer Vision

    1. 论文思想 factorized convolutions and aggressive regularization. 本文给出了一些网络设计的技巧. 2. 结果 用5G的计算量和25M的参数. ...

  5. 论文笔记:Fast Neural Architecture Search of Compact Semantic Segmentation Models via Auxiliary Cells

    Fast Neural Architecture Search of Compact Semantic Segmentation Models via Auxiliary Cells 2019-04- ...

  6. 论文笔记:ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware

    ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware 2019-03-19 16:13:18 Pape ...

  7. 论文笔记:DARTS: Differentiable Architecture Search

    DARTS: Differentiable Architecture Search 2019-03-19 10:04:26accepted by ICLR 2019 Paper:https://arx ...

  8. 论文笔记:Progressive Neural Architecture Search

    Progressive Neural Architecture Search 2019-03-18 20:28:13 Paper:http://openaccess.thecvf.com/conten ...

  9. 论文笔记:Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation

    Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation2019-03-18 14:4 ...

  10. 论文笔记系列-DARTS: Differentiable Architecture Search

    Summary 我的理解就是原本节点和节点之间操作是离散的,因为就是从若干个操作中选择某一个,而作者试图使用softmax和relaxation(松弛化)将操作连续化,所以模型结构搜索的任务就转变成了 ...

随机推荐

  1. elasticsearch搜索引擎搭建

    在该路径下,运行elasticsearch.bat该命令,后面访问127.0.0.1:9200 出现如下界面说明启动成功 elasticsearch-head操作elasticsearch的图形界面, ...

  2. Table被web编程弃用的原因

    Table要比其它html标记占更多的字节. (延迟下载时间,占用服务器更多的流量资源.)Tablle会阻挡浏览器渲染引擎的渲染顺序. (会延迟页面的生成速度,让用户等待更久的时间.)Table里显示 ...

  3. go学习笔记-语言指针

    语言指针 定义及使用 变量是一种使用方便的占位符,用于引用计算机内存地址.取地址符是 &,放到一个变量前使用就会返回相应变量的内存地址. 一个指针变量指向了一个值的内存地址.类似于变量和常量, ...

  4. loj136 (最小瓶颈路,多次询问)

    题目描述 给定一个包含 n nn 个节点和 m mm 条边的图,每条边有一个权值.你的任务是回答 k kk 个询问,每个询问包含两个正整数 s ss 和 t tt 表示起点和终点,要求寻找从 s ss ...

  5. Ubantu E325 错误的解决办法

    这个错误是由于未正确关闭文本编辑器导致的: 图一 解决办法:退出后输入 sudo vim /etc/hosts 图二 直接输入 D 即可! 注意:退出文本编辑器的正确方式是:ESC键 + :wq. 我 ...

  6. 高德API+.NET解决租房问题(新增诚信房源)

    作者:李国宝链接:https://zhuanlan.zhihu.com/p/22105008(欢迎点赞)来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 之前有小伙伴反应 ...

  7. find的详细使用

    对我我这个出学者,这个已经算是很难了,不过今天整理了一下,感觉还可以接受. find Linux中十分重要的一个查找功能, [root@moban /]# find /tmp/ -type f -na ...

  8. Django笔记 —— 高级视图和URL配置

    最近在学习Django,打算玩玩网页后台方面的东西,因为一直很好奇但却没怎么接触过.Django对我来说是一个全新的内容,思路想来也是全新的,或许并不能写得很明白,所以大家就凑合着看吧- 本篇笔记(其 ...

  9. Android PopupWindow 疑难杂症之宽度WRAP_CONTENT

    一直以来都觉得 Android 中的 PopupWindow 不好用.主要有以下两点:1.宽度不好控制2.位置不好控制 今天单说第1点. 由于应用有好几种国家的语言,加上各设备宣染效果不完全一样,对p ...

  10. C# 获取当前日期当年的周数

    这几天跨年,项目上遇到了一个周数计算的问题. 2016年的元旦是周五开始的,之前系统计算的是属于15年的第53个周,但是年份已经到了16年了. 公司要求从1月1号周五开始算作16年的第一个周,今天1月 ...