论文笔记之:Natural Language Object Retrieval
论文笔记之:Natural Language Object Retrieval
2017-07-10 16:50:43
本文旨在通过给定的文本描述,在图像中去实现物体的定位和识别。大致流程图如下:

此处,作者强调了一点不同之处:
Natural language object retrieval differs from text-based image retrieval task as it involves spatial information about objects within the scene and global scene context. (自然语言物体的检索 与 基于文本的图像检索任务 是不同的,因为其涉及到:在场景内部的关于物体的空间信息,以及全局的场景信息)。本文通过 recurrent network 来实现 query text, local image descriptor, spatial configurations and global context features,然后输出是:文本和 proposal 之间的相符程度的得分。与此同时,也可以将 visual-linguistic knowledge 从 image caption 领域借鉴到我们的任务当中。
作者发现:简单的将 text-based image retrieval system 来直接做这个任务,得到的效果并不是非常好,因为自然语言物体检索涉及到 物体的空间信息 以及 场景中全局信息。利用 RNN 作为 scoring function有如下的好处:
1. 整个模型可以通过 反向传播 来进行end to end 的训练,使得 visual feature extraction 和 text sequence embedding 可以相互影响。实验表明这种方向比 bag of words 效果要好很多。
2. 可以很简单的利用 大型 image-text datasets 来学习一个 vision-language model 来协助该任务的完成。
但是,这个任务有一个比较大的挑战是:the lack of large scale datasets with annotated object bounding box and description pairs.
To address this issue, we show that it allows us to transfer visual-linguistic knowledge learned from the former task to the latter one by first pretraining on the image caption domain and then adapting it to the natural language object retrieval domain.
这种 pre-training 和 adaptation 的过程不但提升了性能,而且避免了过拟合,特别是当 the object retrieval training dataset 比较小的时候。
本文的网络结构 和 大致示意图 如下所示:

训练所用到的损失函数为:

简单而言,其实就是:
利用给定的图像,BBOX的位置信息,以及检索的语言。。。
然后基于此给出一个网络结构的预测,在去比较该结果和给定的语言描述之间的 loss 。。。
从而完成整个网络的训练。。。。
在测试的时候,就可以将 proposal 替换掉 原始 GT image patch,然后就可以利用这个语言模型,给各个 proposal 进行打分了。。。
最终选择一个最佳的 proposal 作为检测的结果。。。
论文笔记之:Natural Language Object Retrieval的更多相关文章
- 论文笔记:Fast Online Object Tracking and Segmentation: A Unifying Approach
Fast Online Object Tracking and Segmentation: A Unifying Approach CVPR-2019 2019-03-11 23:45:12 Pape ...
- 论文笔记 Beyond Part Models: Person Retrieval with Refined Part Pooling_ECCV_2018
1. 摘要 使用part-feature 能够起到更好的效果,不过这个需要我们很好地定位part的位置. 本文中作者集中考虑part内部的一致性,提出了 part-based convolutiona ...
- 论文笔记之:Multiple Object Recognition With Visual Attention
Multiple Object Recognition With Visual Attention Google DeepMind ICRL 2015 本文提出了一种基于 attention 的用 ...
- 论文笔记之:Active Object Localization with Deep Reinforcement Learning
Active Object Localization with Deep Reinforcement Learning ICCV 2015 最近Deep Reinforcement Learning算 ...
- 论文笔记:Capsules for Object Segmentation
Capsules for Object Segmentation 2018-04-16 21:49:14 Introduction: ----
- 论文笔记 - Noisy Channel Language Model Prompting for Few-Shot Text Classification
Direct && Noise Channel 进一步把语言模型推理的模式分为了: 直推模式(Direct): 噪声通道模式(Noise channel). 直观来看: Direct ...
- 论文阅读笔记: Natural Language Inference over Interaction Space
这篇文章提出了DIIN(DENSELY INTERACTIVE INFERENCE NETWORK)模型. 是解决NLI(NATURAL LANGUAGE INFERENCE)问题的很好的一种方法. ...
- 论文笔记:Dynamic Multimodal Instance Segmentation Guided by Natural Language Queries
Dynamic Multimodal Instance Segmentation Guided by Natural Language Queries 2018-09-18 09:58:50 Pape ...
- 论文笔记:Tracking by Natural Language Specification
Tracking by Natural Language Specification 2018-04-27 15:16:13 Paper: http://openaccess.thecvf.com/ ...
随机推荐
- FILE文件删除操作(删除指定文件夹下所有文件和文件夹包括子文件夹下所有文件和文件夹),就是删除所有
2018-11-05 19:42:08开始写 选择 删除 1.FileUtils.java类 import java.io.File;//导入包 import java.util.List;//导入 ...
- GCD (RMQ + 二分)
RMQ存的是区间GCD,然后遍历 i: 1->n, 然后不断地对[i, R]区间进行二分求以i为起点的相同gcd的区间范围,慢慢缩减区间. #include<bits/stdc++.h&g ...
- uva 12222 Mountain Road
题意: 有一个单行道,两个方向都有车在等待.给出每个车的方向以及到达的时间以及走完这段路所需要的时间. 为了防止车祸,同向两车通过任一点的时间间隔不得小于10s. 求最后一辆车离开时刻的最小值. 思路 ...
- 开源词袋模型DBow3原理&源码(一)整体结构
前人摘树,后人乘凉. 源码在github有CMakeLists,代码下下来可以直接编译. 泡泡机器人有个很详细的分析,结合浅谈回环检测中的词袋模型,配合高翔的回环检测应用,基本上就可以串起来了. tf ...
- CSS 选择器权重计算规则
其实,CSS有自己的优先级计算公式,而不仅仅是行间>内部>外部样式:ID>class>元素. 一.样式类型 1.行间 <h1 style="font-size: ...
- 调查显示数据分析已取代Web开发成为第一用例
一项关于Python的开发者调查显示,编程语言现在主要用于数据分析,取代了之前的第一个用例Web开发. 去年秋天,由Python软件基金会和开发人员工具供应商JetBrains进行,2018 Pyth ...
- amoeba读写分离
第一单元 高性能mysql读写分离的实现 5.1 mysql读写分离 5.1.1 mysql读写分离概述 5.1.2 mysql读写分离原理 5.2 mysql读写分离配置 ...
- 【新架构测试】Fiddler转发数据测试
跨域转发设置: 首先进行设置, AutoResponder--> 选中Enable rules和Unmatched requests passthrough 然后Import...导入fiddl ...
- Docker学习笔记之Copy on Write机制
0x00 概述 Copy-On-Write简称COW,是一种用于程序设计中的优化策略.其基本思路是,从一开始大家都在共享同一个内容,当某个人想要修改这个内容的时候,才会真正把内容Copy出去形成一个新 ...
- DBeaver数据库管理工具连接Sybase数据库
DBeaver数据库管理工具连接Sybase数据库 1. 下载DBeaver 官方网站:http://dbeaver.jkiss.org/ DBeaver5.3.1解压缩版(不用安装和配置):http ...