简介
- 参数模型 vs. 非参数模型
- 创新点
  - at the modeling level
  - at the training procedure
模型结构
- attention kernel
- Full Context Embeddings
训练策略
- 训练流程
参考资料

简介

参数模型 vs. 非参数模型

参数模型

training examples need to be slowly learnt by the model into its parameters.
非参数模型

allow novel examples to be rapidly assimilated, whilst not suffering from catastrophic forgetting.

创新点

at the modeling level

模型设计中, 借鉴了当下流行的注意力LSTM, 考虑了整个参考集合的贡献.

We propose Matching Nets (MN), a neural network which uses recent advances in attention and memory that enable rapid learning.

at the training procedure

训练过程中，尽量模拟测试流程，使用小样本构造minibatch

our training procedure is based on a simple machine learning principle: test and train conditions must match.

模型结构

给定一个参考集, $ S = \left \{ (x_{i}, y_{i}) \right \}_{i=1}^{k} $ , 定义一个映射 $ S \rightarrow C_{S}(x)=p(y|x) $ , 其中 $ P $ 由网络参数确定.

在预测阶段, 给定未知的样本 $ {x}' $ 和参考集 $ {S}' $ , 预测的标签为 $ argmax_{y} P(y|{x}', {S}') $

最简单的形式y为: $ y = \sum_{i=1}^{k}a(x, x_{i})y_{i} $ , 其中 $ a $ 是attention机制.

然而与通常的attention memory机制不同, 这里的本质上是非参数的. 当参考集变大时, memory也变大. 这种定义的分类器很灵活, 可以很容易适应新的参考集.

attention kernel

匹配函数, 相当于前述函数 $ a(x, x_{i}) $ , 即如何考察测试样本特征 $ x $ 和参考集样本特征 $ x_{i} $ 之间的匹配程度.

可以有以下选择:

cosine : $$ a(x, x_{i}) = c(x, x_{i}) $$
Softmax : $ a(x, x_{i}) = exp[c(x, x_{i})] / \sum_{j}exp[c(x, x_{j})] $
cosine(FCE) : $ a(x, x_{i}) = c(f(x), g(x_{i})) $
Softmax(FCE) : $ a(x, x_{i}) = exp[c(f(x), g(x_{i}))] / \sum_{j}exp[c(f(x), g(x_{j}))] $

其中c表示余弦距离, FCE表示Full Conditional Embedding.

Full Context Embeddings

在通常的image或者是sentence的表示的基础上(如CNN的表示, embedding的表示等), 可以进一步加上 FCE, 使得到的 representation 依赖于support set.

$ g(x_{i}) $ 应该依赖于参考集 $ S $ , 另外 $ S $ 也应该影响 $ y(x) $ .

$ g(x_{i}, S) $

使用 bilstm, 在 $ S $ 的上下文中(将其视为一个序列)编码 $ x_{i} $

\vec{h}_{i}, \vec{c}_{i} = LSTM ({g_{i}}', \vec{h}_{i-1}, \vec{c}_{i-1})

\bar{h}_{i}, \bar{c}_{i} = LSTM ({g_{i}}', \bar{h}_{i+1}, \bar{c}_{i+1})

g(x_{i}, S) = \vec{h}_{i} + \bar{h}_{i} + {g}'(x_{i})

其中 $ {g}'(x) $ 是一个神经网络, 比如图像任务中的CNN, 和自然语言任务中的word embedding.

$ f(x, S) $

f(x, S) = attLSTM({f}'(x), g(S), K)

其中 $ {f}'(x) $ 是一个神经网络, 比如图像任务中的CNN, 和自然语言任务中的word embedding.

这里和之前类似, 注意力函数也是softmax形式, 用其他所有参考集样本归一化.

换言之, 除了以测试样本作为输入, 在每一个步骤中, 还要根据LSTM状态h, 决定把注意力放在哪一些参考集样本上.

训练策略

训练策略是本文的闪光之处, 再一次验证了机器学习实战中这条颠扑不破的真理: 怎么用, 怎么训.

训练流程

训练过程中，迭代一次的流程如下：

选择少数几个类别（例如5类），在每个类别中选择少量样本（例如每类5个）；
将选出的集合划分：参考集，测试集；
利用本次迭代的参考集，计算测试集的误差；
计算梯度，更新参数

这样的一个流程文中称为episode。

在测试过程中，同样遵守此流程：

选择少数几个类别，在每个类别中选择少量样本；
将选出的集合划分：参考集，测试集；
利用本次迭代的参考集，计算测试集的误差；

注意，在完成训练之后，所有训练中用过的类别，都不再出现在后续真正测试中。换言之，训练集和测试集的类别互不包含。

参考资料

论文 Matching Networks for One Shot Learning

平价数据 One Shot Learning

博客 Matching Networks for One Shot Learning

Tensorflow实现: 这里的实现似乎没有对f, g分开处理, 对FCE的处理方式也和文章说的不太一样.

Markdown 尝试的更多相关文章

Markdown语法及SublimeText下使用技巧
Markdown语法及SublimeText下使用技巧 0.缘起最近因为一直在学习Sublime Text,所以也就顺便试用了一下ST对Markdown的支持.正好CSDN正在大力宣传新上线的Mar ...
markdown_TestOne
这个是我写的一个markdown尝试 1.2 dafsdfeasdfaefasdfase afsdfasdfefasdfeadfasdfe
尝试一下markdown
尝试一下markdown 简单介绍以下几个宏: __VA_ARGS__是一个可变参数的宏,这个可变参数的宏是新的C99规范中新增的,目前似乎只有gcc支持(VC6.0的编译器不支持).宏前面加上##的 ...
尝试 Markdown 写测试用例
我的原帖https://testerhome.com/topics/9412 大家都知道我们社区的帖子提倡用Markdown格式编写,正好项目进入稳定期,尝试用Markdown写下测试用例.有几个目的 ...
尝试一下用MARKDOWN嵌入代码
public void test(){ // }
第二章作业-第3题（markdown格式）-万世想
第3题题目是: 完成小组的"四则运算"项目的需求文档(使用Markdown写文档),尝试同组成员在各自PC上修改同一文档后,如何使用Git命令完成GitHub上的文档的更新,而不产 ...
Markdown 新手指南
Markdown 新手指南「简书」作为一款「写作软件」在诞生之初就支持了 Markdown,Markdown 是一种「电子邮件」风格的「标记语言」,我们强烈推荐所有写作者学习和掌握该语言.为什么 ...
推荐一款Mac上好用的Markdown编辑器
[TOC] 推荐一款Mac上好用的Markdown编辑器正文我算是一位Evernote的重度用户吧.之前也尝试过为知笔记,有道云笔记,微软的onenote,最后还是觉的Evernote.因为我喜欢 ...
【三】用Markdown写blog的常用操作
本系列有五篇:分别是 [一]Ubuntu14.04+Jekyll+Github Pages搭建静态博客:主要是安装方面 [二]jekyll 的使用 :主要是jekyll的配置 [三]Markdown+ ...

随机推荐

C语言程序实现，统计字符串里面各个字符的个数在总字符个数中的比例，并打印输出。
#include<stdio.h> int main() { char *ppp= "aaassadddeeds"; ] = {};//存放字符 uint32 ccnt ...
C# Func与Action
Func与Action是C#的内置委托,在使用委托时,可不必再定义. (1)Func:有返回类型的委托. Func类型的委托,肯定有一个返回类型,如果Func只有一个参数,那么它就是代表没有参数但是有 ...
Java虚拟机对象存活标记及垃圾收集算法解析
一.对象存活标记 1. 引用计数算法给对象中添加一个引用计数器,每当有一个地方引用它时,计数器就加1:当引用失效时,计数器就减1:任何时刻计数器都为0的对象就是不可能再被使用的. 引用计数算法(Re ...
java学习--自定义类的实例的大小比较和排序
我们知道Object类有一个equals方法,用于比较两个对象是否相等我们只要在自定义类中重写了equals方法(若不重写就是比较两个实例的地址,相当于==)就可以用来比较该类的两个实例是否相等问 ...
手动卸载的vs2010
手动卸载的vs2010: 环境:Win7 卸载工具:IobitUninstaller(绿色版)//个人推荐,比较强大好用按照以下顺序:1.Microsoft .NET Framework 4 框架 ...
neo4j配置（转）
我的neo4j配置 # 修改第9行,去掉#,修改数据库名 dbms.active_database=wkq_graph.db # 修改第12行,去掉#.修改路径,改成绝对路径 dbms.directo ...
keil5一点project就闪退
进注册表“HKEY_CURRENT_USER——SOFTWARE——Keil——矿ision5——Recent Projects”里面,保留一个默认的(我是保留了,估计删掉也可以),其余 ...
GitLab管理之 - Gitlab 用户管理
1. 移除用户 (1) 使用管理员登陆Gitlab服务器 (2) 点击管理区域 (3) 点击Users. (4)点击[Block User] 2. 添加用户(1)用root 管理员登陆.(2)点击[管 ...
jquery cdn bootstrap静态资源库问题
使用微软静态资源库 <script src="http://ajax.aspnetcdn.com/ajax/jquery/jquery-1.9.0.min.js">&l ...
python爬虫的scrapy安装+pymongo的安装
我的:python2.7版本 32位注意scrapy只支持2.7及以上的版本. 1.安装python 2.安装pip 安装pip就不赘述了,网上很多教学 pip安装时要注意更新,如果pip版本 ...

Markdown 尝试

简介