论文阅读之: Hierarchical Object Detection with Deep Reinforcement Learning

Hierarchical Object Detection with Deep Reinforcement Learning

NIPS 2016 WorkShop

　　Paper : https://arxiv.org/pdf/1611.03718v1.pdf

　　Project Page : https://github.com/imatge-upc/detection-2016-nipsws

　　摘要: 我们提出一种基于深度强化学习的等级物体检测方法 (Hierarchical Object Detection). 关键点在于: 专注于图像的含有更多信息量的区域, 并且放大该区域. 我们训练一个 intelligent agent, 给定一个图像窗口, 能够确定将注意力集中于预先设定的五个区域中的哪一个. 这个过程迭代的提供了一个等级的图像分析. 我们对比了两个不同的候选 proposal 策略来引导图像搜索: with and without overlap. 此外, 我们的方法对比了两种不同的策略来提取特征: 第一种是对每一个 region proposal 计算新的 feature map ; 另一种方法是对于整幅图像计算 feature maps 并为后续的每一个 region proposal 提供 crop 的feature map.

　　模型 Hierarchical Object Detection Model :

　　我们定义了物体检测问题当做是序列决策过程 (the sequential decision process). 每一个时间步骤, agent 应该决定图像的哪个区域应该集中注意力, 以便于少量的步骤内找到物体. 我们将这个问题看作是 Markov Decision Process , 提供了一个框架来建模 decision making.

　　MDP formulation :

　　作者首先定义了 MDP 的大致过程 : state, actions, reward :

　　State : 当前区域和记忆向量构成, 即: the current region and a memory vector. 描述符定义了两个模型: the Image-Zooms model and the Pool45-Crops model . 状态的记忆向量（memory vector）捕获了agent 搜索物体当中,已经选择的过去 4 个 actions. 由于 agent 是学习一个 bounding box 的 refinement procedure, 一个记忆向量编码了这个 refinement procedure 的状态用来稳定搜索轨迹. 我们将过去的 4 个 actions 编码成一个 one-shot vector. 由于本文定义了 6 个 actions, 所以向量的维度是 24.

　　Actions : 跟 ICCV 2015 年的那个检测的方法一样, 这里的action 也是定义成了图像变换的操作和停止操作.

　　Rewards : 此处的设计与 ICCV 2015 仍然是一致的.

　　Model :　　

　　我们讨论了两种提取特征的方法, 上面就是所用的大致网络框架. Image-Zooms model and the Pool45-Crops model.

　　对于 Image-Zooms model 来说, 每一个区域都 resize 成 224*224 的大小, 然后抽取 VGG-16 的 Pool 5 layer 的特征.

　　对于 Pool45-Crops model, 图像是 full-resolution 传给 VGG-16 的 Pool 5 layer.

　　像 Faster RCNN 的 ROI Pooling 的方法一样, 本文也是采用这种思路, 只是抽取 ROI 的 feature . 像 SSD 一样, 我们根据 ROI 的尺寸来选择 feature map. 对于较大的物体, 本文的方法就选择较深的 feature map, 而较小的物体, 本文就选择较浅的 feature map .

论文阅读之: Hierarchical Object Detection with Deep Reinforcement Learning的更多相关文章

论文阅读：Prominent Object Detection and Recognition: A Saliency-based Pipeline
论文阅读:Prominent Object Detection and Recognition: A Saliency-based Pipeline 如上图所示,本文旨在解决一个问题:给定一张图像, ...
论文笔记之：Active Object Localization with Deep Reinforcement Learning
Active Object Localization with Deep Reinforcement Learning ICCV 2015 最近Deep Reinforcement Learning算 ...
论文笔记之：Human-level control through deep reinforcement learning
Human-level control through deep reinforcement learning Nature 2015 Google DeepMind Abstract RL 理论在 ...
论文笔记之：Asynchronous Methods for Deep Reinforcement Learning
Asynchronous Methods for Deep Reinforcement Learning ICML 2016 深度强化学习最近被人发现貌似不太稳定,有人提出很多改善的方法,这些方法有很 ...
论文笔记之：Playing Atari with Deep Reinforcement Learning
Playing Atari with Deep Reinforcement Learning <Computer Science>, 2013 Abstract: 本文提出了一种深度学习方 ...
论文阅读 | CenterNet：Object Detection with Keypoint Triplets
相关链接论文地址:https://arxiv.org/abs/1904.08189 代码链接:https://github.com/Duankaiwen/CenterNet 概述 CenterNet ...
论文阅读 | STDN: Scale-Transferrable Object Detection
论文地址:http://openaccess.thecvf.com/content_cvpr_2018/papers/Zhou_Scale-Transferrable_Object_Detection ...
getting started with building a ROS simulation platform for Deep Reinforcement Learning
Apparently, this ongoing work is to make a preparation for futural research on Deep Reinforcement Le ...
目标检测--Scalable Object Detection using Deep Neural Networks(CVPR 2014)
Scalable Object Detection using Deep Neural Networks 作者: Dumitru Erhan, Christian Szegedy, Alexander ...

随机推荐

jQuery事件--blur()和focus()
blur([[data],fn]) 概述当元素失去焦点时触发 blur 事件. 这个函数会调用执行绑定到blur事件的所有函数,包括浏览器的默认行为.可以通过返回false来防止触发浏览器的默 ...
python range函数
这个函数很简单,就不写例子了,看看语法,拿来即用 python range() 函数可创建一个整数列表,一般用在 for 循环中. 函数语法 range(start, stop[, step]) 参数 ...
hive 常见时间日期函数的使用
1.时间戳函数日期转时间戳:从1970-01-01 00:00:00 UTC到指定时间的秒数获得当前时区的UNIX时间戳: select unix_timestamp(); 1533716607 ...
Linux基础命令---忽略挂起信号nohup
nohup nohup可以使程序能够忽略挂起信号,继续运行.用户退出时会挂载,而nohup可以保证用户退出后程序继续运行.如果标准输入是终端,请将其从/dev/null重定向.如果标准输出是终端,则将 ...
GUI常用对象的属性
%常用对象的属性 %.figure %hf=figure; %get(hf); %改变颜色 set Color %set(hf,'Color','w'); %去掉默认的菜单 Menubar %set( ...
[转载] mysql 索引中的USING BTREE 的意义
索引是在存储引擎中实现的,因此每种存储引擎的索引都不一定完全相同,并且每种存储引擎也不一定支持所有索引类型. 根据存储引擎定义每个表的最大索引数和最大索引长度.所有存储引擎支持每个表至少16个索引,总 ...
[转载]用纯css改变下拉列表select框的默认样式
在这篇文章里,我将介绍如何不依赖JavaScript用纯css来改变下拉列表框的样式. 问题的提出事情是这样的,您的设计师团队向您发送一个新的PSD(Photoshop文档),它是一个新的网站的最终 ...
Kotlin基础学习
Kotlin 和 java 都是一种静态类型的编程语言.表达式的类型在编译期已经确定,编译期能验证对象是否包含想访问方法或是字段,维护正确性与性能的同时保持源代码的简洁静态类型的 ...
需求中碰到的简单Map集合 key相同合并 value的思路
从两个接口获取到了数据Map集合, 但是要展示到同一页面根据了播控人为key 将两个返回的进行遍历将他们存在新的map里面只有单个key value 就存为(MAP<object,obje ...
论文翻译——Rapid 2D-to-3D conversion——快速2D到3D转换
https://blog.csdn.net/qq_33445835/article/details/80143598 目前想做一个关于2D转3D的项目,由于国内资料比较少而且大部分都是基于国外的研究 ...

论文阅读之: Hierarchical Object Detection with Deep Reinforcement Learning

论文阅读之: Hierarchical Object Detection with Deep Reinforcement Learning的更多相关文章

随机推荐

热门专题