论文笔记:Visual Question Answering as a Meta Learning Task
Visual Question Answering as a Meta Learning Task
ECCV 2018
2018-09-13 19:58:08
1. Introduction:
本文提出一种新的 VQA 思路,将 meta-learning 结合进来,通过支持集的形式(Support Set),让神经网络学会学习。

本文核心的技术贡献是:提供一种顶尖的 VQA模型到 meta-learning 的设定下。the resulting model 是一个深度神经网络,利用 dynamic parameters,也被称为 fast weights,依赖于 support set 在测试时决定的。
the resulting system 的一个能力是:学会产生完全新颖的答案(在 training data 中从未出现的回答)。另外一个能力是处理 rare answers 能力。因为 VQA 是严重的类别不均衡。
本文的贡献是:
1. 将 VQA 看做是 meta-learnig 的问题,在测试时,提供一个 support set 进行模仿;
2. 描述了一个神经网络结构 以及 训练过程,能够结合 meta-learning 的场景;
3. 能够产生新颖的答案。对于 rare answers 能够很好的处理,更好的采样效率;

2. VQA in a Meta Learning Setting :
1)传统的 VQA 模型:
Image I, Question Q, 答案集合 A;
2)拓展到meta-learning 应用场景下:
带有 support set S, the support set S can include novel examples S' provided at test time; S = T U S' ;
3. Proposed Model:
作者将 VQA 系统分为两个部分:第一个部分就是感知,the embedding part that encodes the input question and image;第二个部分就是,the classifier part that handles the reasoning and actural question answering;
3.1. 非线性映射 $f_{theta} (*)$ :
非线性映射的作用是:将问题/图像 h 的 embedding 映射到适合 classifier 的表示(is to map the embedding of the question/image h to a representation suitable for the following classifier)。
我们采用 paper 【34】的设置,利用 a gated hyperbolic tangent layer, 定义为:

其中,$\delta$ 是逻辑激活函数,W, W', b, b' 都是可学习的参数,圆圈代表了元素级相乘。我们将这些参数统一表达为 $\theta$,传统方法就是用 BP 算法以及 梯度下降的方法进行训练,这样他们得到的就是 static 的参数。而本文所提出的方法,在测试的时候,依赖于 the input h 以及 the available support set,自适应的进行参数的调整。具体的,我们利用 static parameter $\theta^s$,以及 测试时候的动态参数 $\theta^d$。其线性组合为:
其中,w 是学习权重的向量。动态权重 可以看做是根据输入 h,对 static weights 进行的调整(the dynamic weights can therefore be seen as an adjustment made to be the static ones depends on the input h)。
候选动态权重的集合,被保留在 associative memory M 中。该 memory 是一个关于 key/value pair 的集合(跟支持集一样大)。在测试的时候,我们从该 memory 中提取出合适的动态权重,通过 soft key matching:

其中,$d_{cos}$ 代表了余弦相似度函数。所以,我们得到的是一个加权的 sum,用的是 输入 h 和 memory keys $h_i^~$ 之间的相似度来加权 the memory values。
Mapping to Candidate Answers :
未完,待遇 。。。
==
论文笔记:Visual Question Answering as a Meta Learning Task的更多相关文章
- 论文阅读:Learning Visual Question Answering by Bootstrapping Hard Attention
Learning Visual Question Answering by Bootstrapping Hard Attention Google DeepMind ECCV-2018 2018 ...
- 【自然语言处理】--视觉问答(Visual Question Answering,VQA)从初始到应用
一.前述 视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务.这一任务的定义如下: A VQA system takes as inp ...
- Hierarchical Question-Image Co-Attention for Visual Question Answering
Hierarchical Question-Image Co-Attention for Visual Question Answering NIPS 2016 Paper: https://arxi ...
- Visual Question Answering with Memory-Augmented Networks
Visual Question Answering with Memory-Augmented Networks 2018-05-15 20:15:03 Motivation: 虽然 VQA 已经取得 ...
- Learning Conditioned Graph Structures for Interpretable Visual Question Answering
Learning Conditioned Graph Structures for Interpretable Visual Question Answering 2019-05-29 00:29:4 ...
- 论文笔记系列-Neural Architecture Search With Reinforcement Learning
摘要 神经网络在多个领域都取得了不错的成绩,但是神经网络的合理设计却是比较困难的.在本篇论文中,作者使用 递归网络去省城神经网络的模型描述,并且使用 增强学习训练RNN,以使得生成得到的模型在验证集上 ...
- 论文笔记:Deep Attentive Tracking via Reciprocative Learning
Deep Attentive Tracking via Reciprocative Learning NIPS18_tracking Type:Tracking-By-Detection 本篇论文地主 ...
- 论文笔记:(CVPR2017)PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation
目录 一. 存在的问题 二. 解决的方案 1.点云特征 2.解决方法 三. 网络结构 四. 理论证明 五.实验效果 1.应用 (1)分类: ModelNet40数据集 (2)部件分割:ShapeNet ...
- 论文笔记之:Large Scale Distributed Semi-Supervised Learning Using Streaming Approximation
Large Scale Distributed Semi-Supervised Learning Using Streaming Approximation Google 2016.10.06 官方 ...
随机推荐
- windows环境下Oracle数据库冷备份和恢复
1.点击开始菜单的“运行”,输入sqlplus/nolog 2.在弹出的命令行窗口以sysdba身份登陆,要输入:系统用户名/登陆密码@数据库实例名,如sys/testora@orcl 3.输入 al ...
- mysql存储emoji问题
前一段时间,项目中需要在数据库中存储emoji,由于编码格式不对,直接导致数据库报错,后来修改mysql的编码,就解决了 emoji符号实际上是文本,并不是图片,它们仅仅显示为图片 在mysql5.5 ...
- weblogic反序列化漏洞CVE-2018-2628-批量检测脚本
#coding=utf-8 import socket import time import re,os,sys,codecs type = 'utf-8' reload(sys) sys.setde ...
- yarn集群客户端gateway常用限制
spark默认集群模式,省略上传依赖包过程:spark-default.sh spark.yarn.jars hdfs:///${PATH}/sparkJar/jars/*.jarspark.subm ...
- CString中 format、trimLeft和trimright、trim 和FindOneOf用法
1.format 可以帮助各种类型转换成CString. a. int 转 CString CString str; int number = 4; str.Format(_T("%d&qu ...
- python语法_while循环_for循环
while 循环: while 条件: print('''asdasd') print('''asdasd') print('''asdasd') 当条件为True时,持续循环 当条件为Flase时, ...
- php利用OpenXML规范生成word,excel(pdf其他方法)
这个涉及到的东西比较多 HTTP MIME types $contract_data = '<html xmlns:o="urn:schemas-microsoft-com:offic ...
- c 语言 随机数选取6个数 一定范围内
种子来源 定时器/****************** 自动筛选种子 dat 目标种子 ************/ #define max 7 //随机生成最大的数为7 #define min 1 / ...
- SQL Server 索引自动组织维护
公司的一个产品中的数据库,几个热点表因为主键和索引设计不合理,造成索引碎片过大,影响性能. 我尝试新建了一个索引碎片整理的定时任务,用于维护索引锁片和统计信息. 具体的过程如下: 本文原创,转发请表明 ...
- rocketMQ安装部署详细解析
近来研究了Apache开源项目rocketMQ(原为阿里项目),并在两台linux服务器上完成了部署,现在整理下,供大家参考学习. 一.简介rocketMQRocektMQ是阿里巴巴在2012年开源的 ...