论文阅读之: Hierarchical Object Detection with Deep Reinforcement Learning
Hierarchical Object Detection with Deep Reinforcement Learning
NIPS 2016 WorkShop
Paper : https://arxiv.org/pdf/1611.03718v1.pdf
Project Page : https://github.com/imatge-upc/detection-2016-nipsws
摘要: 我们提出一种基于深度强化学习的等级物体检测方法 (Hierarchical Object Detection). 关键点在于: 专注于图像的含有更多信息量的区域, 并且放大该区域. 我们训练一个 intelligent agent, 给定一个图像窗口, 能够确定将注意力集中于预先设定的五个区域中的哪一个. 这个过程迭代的提供了一个等级的图像分析. 我们对比了两个不同的候选 proposal 策略来引导图像搜索: with and without overlap. 此外, 我们的方法对比了两种不同的策略来提取特征: 第一种是对每一个 region proposal 计算新的 feature map ; 另一种方法是对于整幅图像计算 feature maps 并为后续的每一个 region proposal 提供 crop 的feature map.
模型 Hierarchical Object Detection Model :
我们定义了物体检测问题当做是序列决策过程 (the sequential decision process). 每一个时间步骤, agent 应该决定图像的哪个区域应该集中注意力, 以便于少量的步骤内找到物体. 我们将这个问题看作是 Markov Decision Process , 提供了一个框架来建模 decision making.
MDP formulation :
作者首先定义了 MDP 的大致过程 : state, actions, reward :
State : 当前区域 和 记忆向量 构成, 即: the current region and a memory vector. 描述符定义了两个模型: the Image-Zooms model and the Pool45-Crops model . 状态的记忆向量(memory vector)捕获了agent 搜索物体当中,已经选择的过去 4 个 actions. 由于 agent 是学习一个 bounding box 的 refinement procedure, 一个记忆向量编码了这个 refinement procedure 的状态 用来稳定搜索轨迹. 我们将过去的 4 个 actions 编码成一个 one-shot vector. 由于本文定义了 6 个 actions, 所以向量的维度是 24.
Actions : 跟 ICCV 2015 年的那个检测的方法一样, 这里的action 也是定义成了图像变换的操作 和 停止操作.
Rewards : 此处的设计 与 ICCV 2015 仍然是一致的.


Model :

我们讨论了两种提取特征的方法, 上面就是所用的大致网络框架. Image-Zooms model and the Pool45-Crops model.
对于 Image-Zooms model 来说, 每一个区域都 resize 成 224*224 的大小, 然后抽取 VGG-16 的 Pool 5 layer 的特征.
对于 Pool45-Crops model, 图像是 full-resolution 传给 VGG-16 的 Pool 5 layer.
像 Faster RCNN 的 ROI Pooling 的方法一样, 本文也是采用这种思路, 只是抽取 ROI 的 feature . 像 SSD 一样, 我们根据 ROI 的尺寸来选择 feature map. 对于较大的物体, 本文的方法就选择较深的 feature map, 而较小的物体, 本文就选择较浅的 feature map .


论文阅读之: Hierarchical Object Detection with Deep Reinforcement Learning的更多相关文章
- 论文阅读:Prominent Object Detection and Recognition: A Saliency-based Pipeline
论文阅读:Prominent Object Detection and Recognition: A Saliency-based Pipeline 如上图所示,本文旨在解决一个问题:给定一张图像, ...
- 论文笔记之:Active Object Localization with Deep Reinforcement Learning
Active Object Localization with Deep Reinforcement Learning ICCV 2015 最近Deep Reinforcement Learning算 ...
- 论文笔记之:Human-level control through deep reinforcement learning
Human-level control through deep reinforcement learning Nature 2015 Google DeepMind Abstract RL 理论 在 ...
- 论文笔记之:Asynchronous Methods for Deep Reinforcement Learning
Asynchronous Methods for Deep Reinforcement Learning ICML 2016 深度强化学习最近被人发现貌似不太稳定,有人提出很多改善的方法,这些方法有很 ...
- 论文笔记之:Playing Atari with Deep Reinforcement Learning
Playing Atari with Deep Reinforcement Learning <Computer Science>, 2013 Abstract: 本文提出了一种深度学习方 ...
- 论文阅读 | CenterNet:Object Detection with Keypoint Triplets
相关链接 论文地址:https://arxiv.org/abs/1904.08189 代码链接:https://github.com/Duankaiwen/CenterNet 概述 CenterNet ...
- 论文阅读 | STDN: Scale-Transferrable Object Detection
论文地址:http://openaccess.thecvf.com/content_cvpr_2018/papers/Zhou_Scale-Transferrable_Object_Detection ...
- getting started with building a ROS simulation platform for Deep Reinforcement Learning
Apparently, this ongoing work is to make a preparation for futural research on Deep Reinforcement Le ...
- 目标检测--Scalable Object Detection using Deep Neural Networks(CVPR 2014)
Scalable Object Detection using Deep Neural Networks 作者: Dumitru Erhan, Christian Szegedy, Alexander ...
随机推荐
- jQuery事件--blur()和focus()
blur([[data],fn]) 概述 当元素失去焦点时触发 blur 事件. 这个函数会调用执行绑定到blur事件的所有函数,包括浏览器的默认行为.可以通过返回false来防止触发浏览器的默 ...
- python range函数
这个函数很简单,就不写例子了,看看语法,拿来即用 python range() 函数可创建一个整数列表,一般用在 for 循环中. 函数语法 range(start, stop[, step]) 参数 ...
- hive 常见时间日期函数的使用
1.时间戳函数 日期转时间戳:从1970-01-01 00:00:00 UTC到指定时间的秒数 获得当前时区的UNIX时间戳: select unix_timestamp(); 1533716607 ...
- Linux基础命令---忽略挂起信号nohup
nohup nohup可以使程序能够忽略挂起信号,继续运行.用户退出时会挂载,而nohup可以保证用户退出后程序继续运行.如果标准输入是终端,请将其从/dev/null重定向.如果标准输出是终端,则将 ...
- GUI常用对象的属性
%常用对象的属性 %.figure %hf=figure; %get(hf); %改变颜色 set Color %set(hf,'Color','w'); %去掉默认的菜单 Menubar %set( ...
- [转载] mysql 索引中的USING BTREE 的意义
索引是在存储引擎中实现的,因此每种存储引擎的索引都不一定完全相同,并且每种存储引擎也不一定支持所有索引类型. 根据存储引擎定义每个表的最大索引数和最大索引长度.所有存储引擎支持每个表至少16个索引,总 ...
- [转载]用纯css改变下拉列表select框的默认样式
在这篇文章里,我将介绍如何不依赖JavaScript用纯css来改变下拉列表框的样式. 问题的提出 事情是这样的,您的设计师团队向您发送一个新的PSD(Photoshop文档),它是一个新的网站的最终 ...
- Kotlin基础学习
Kotlin 和 java 都是一种静态类型的编程语言.表达式的类型在编译期已经确定,编译期能验证对象是否包含想访问方法或是字段,维护正确性与性能的同时保持源代码的简洁 静态类型的 ...
- 需求中碰到的简单Map集合 key相同合并 value的思路
从两个接口获取到了数据Map集合, 但是要展示到同一页面 根据了播控人为key 将两个返回的进行遍历 将他们存在新的map里面 只有单个key value 就存为(MAP<object,obje ...
- 论文翻译——Rapid 2D-to-3D conversion——快速2D到3D转换
https://blog.csdn.net/qq_33445835/article/details/80143598 目前想做一个关于2D转3D的项目,由于国内资料比较少而且大部分都是基于国外的研究 ...