论文笔记之:Natural Language Object Retrieval
论文笔记之:Natural Language Object Retrieval
2017-07-10 16:50:43
本文旨在通过给定的文本描述,在图像中去实现物体的定位和识别。大致流程图如下:
此处,作者强调了一点不同之处:
Natural language object retrieval differs from text-based image retrieval task as it involves spatial information about objects within the scene and global scene context. (自然语言物体的检索 与 基于文本的图像检索任务 是不同的,因为其涉及到:在场景内部的关于物体的空间信息,以及全局的场景信息)。本文通过 recurrent network 来实现 query text, local image descriptor, spatial configurations and global context features,然后输出是:文本和 proposal 之间的相符程度的得分。与此同时,也可以将 visual-linguistic knowledge 从 image caption 领域借鉴到我们的任务当中。
作者发现:简单的将 text-based image retrieval system 来直接做这个任务,得到的效果并不是非常好,因为自然语言物体检索涉及到 物体的空间信息 以及 场景中全局信息。利用 RNN 作为 scoring function有如下的好处:
1. 整个模型可以通过 反向传播 来进行end to end 的训练,使得 visual feature extraction 和 text sequence embedding 可以相互影响。实验表明这种方向比 bag of words 效果要好很多。
2. 可以很简单的利用 大型 image-text datasets 来学习一个 vision-language model 来协助该任务的完成。
但是,这个任务有一个比较大的挑战是:the lack of large scale datasets with annotated object bounding box and description pairs.
To address this issue, we show that it allows us to transfer visual-linguistic knowledge learned from the former task to the latter one by first pretraining on the image caption domain and then adapting it to the natural language object retrieval domain.
这种 pre-training 和 adaptation 的过程不但提升了性能,而且避免了过拟合,特别是当 the object retrieval training dataset 比较小的时候。
本文的网络结构 和 大致示意图 如下所示:
训练所用到的损失函数为:
简单而言,其实就是:
利用给定的图像,BBOX的位置信息,以及检索的语言。。。
然后基于此给出一个网络结构的预测,在去比较该结果和给定的语言描述之间的 loss 。。。
从而完成整个网络的训练。。。。
在测试的时候,就可以将 proposal 替换掉 原始 GT image patch,然后就可以利用这个语言模型,给各个 proposal 进行打分了。。。
最终选择一个最佳的 proposal 作为检测的结果。。。
论文笔记之:Natural Language Object Retrieval的更多相关文章
- 论文笔记:Fast Online Object Tracking and Segmentation: A Unifying Approach
Fast Online Object Tracking and Segmentation: A Unifying Approach CVPR-2019 2019-03-11 23:45:12 Pape ...
- 论文笔记 Beyond Part Models: Person Retrieval with Refined Part Pooling_ECCV_2018
1. 摘要 使用part-feature 能够起到更好的效果,不过这个需要我们很好地定位part的位置. 本文中作者集中考虑part内部的一致性,提出了 part-based convolutiona ...
- 论文笔记之:Multiple Object Recognition With Visual Attention
Multiple Object Recognition With Visual Attention Google DeepMind ICRL 2015 本文提出了一种基于 attention 的用 ...
- 论文笔记之:Active Object Localization with Deep Reinforcement Learning
Active Object Localization with Deep Reinforcement Learning ICCV 2015 最近Deep Reinforcement Learning算 ...
- 论文笔记:Capsules for Object Segmentation
Capsules for Object Segmentation 2018-04-16 21:49:14 Introduction: ----
- 论文笔记 - Noisy Channel Language Model Prompting for Few-Shot Text Classification
Direct && Noise Channel 进一步把语言模型推理的模式分为了: 直推模式(Direct): 噪声通道模式(Noise channel). 直观来看: Direct ...
- 论文阅读笔记: Natural Language Inference over Interaction Space
这篇文章提出了DIIN(DENSELY INTERACTIVE INFERENCE NETWORK)模型. 是解决NLI(NATURAL LANGUAGE INFERENCE)问题的很好的一种方法. ...
- 论文笔记:Dynamic Multimodal Instance Segmentation Guided by Natural Language Queries
Dynamic Multimodal Instance Segmentation Guided by Natural Language Queries 2018-09-18 09:58:50 Pape ...
- 论文笔记:Tracking by Natural Language Specification
Tracking by Natural Language Specification 2018-04-27 15:16:13 Paper: http://openaccess.thecvf.com/ ...
随机推荐
- 多语言(Java、.NET、Node.js)混合架构下开源调用链追踪APM项目初步选型
1. 背景 我们的技术栈包括了Java..NET.Node.js等,并且采用了分布式的技术架构,系统性能管理.问题排查成本越来越高. 2. 基本诉求 针对我们的情况,这里列出了选型的主要条件,作为最终 ...
- html5-css渐变应用小实例,按钮
.but1{ padding: 10px 20px; font-size: 16px; text-shadow: 2px 2px 3px rgba(0,0,0,0.8); bo ...
- 【转】基于Python的接口测试框架实例
下面小编就为大家带来一篇基于Python的接口测试框架实例.小编觉得挺不错的,现在就分享给大家,也给大家做个参考.一起跟随小编过来看看吧 背景 最近公司在做消息推送,那么自然就会产生很多接口,测试 ...
- Eclipse-----解决调试源码不进入断点问题
1.Window-->Preferences-->Java-->installed JRES 添加Standard VM 添加完成后,如下图 2.右键点击项目-->Prop ...
- jQuery文档操作--empty()和remove()
empty() 概述 删除匹配的元素集合中所有的子节点 <!DOCTYPE html> <html> <head> <meta charset="U ...
- arc 092D Two Sequences
题意: 给出两个长度N相同的整数序列A和B,有N^2种方式从A中选择一个数Ai,从B中选择一个数Bj,让两个数相加,求这N^2个数的XOR,即异或. 思路: 暴力的求显然是会超时的,因为是异或,就考虑 ...
- QString 与 string转换
[1]QString 转换为string QString qString("好好学习天天向上"); std::string stdString = qString.toStdStr ...
- 20165305 Linux安装及学习
一.虚拟机的安装 在根据老师所给的<基于VirtualBox虚拟机安装Ubuntu图文教程>的时候,我发现虚拟化处于被禁用状态,于是我在网上查找了一下解决办法,在我将bios中虚拟化设置为 ...
- flask上下文全局变量,程序上下文、请求上下文、上下文钩子
Flask上下文 Flask中有两种上下文,程序上下文(application context)和请求上下文(request context) 当客户端发来请求时,请求上下文就登场了.请求上下文里包含 ...
- 和風いろはちゃんイージー / Iroha and Haiku (ABC Edition) (水水)
题目链接:http://abc042.contest.atcoder.jp/tasks/abc042_a Time limit : 2sec / Memory limit : 256MB Score ...