Few-Shot/One-Shot Learning

AWwH 2024-10-22 16:02:38 原文

Few-Shot/One-Shot Learning指的是小样本学习，目的是克服机器学习中训练模型需要海量数据的问题，期望通过少量数据即可获得足够的知识。

Matching Networks for One Shot Learning

论文将普通神经网络学习慢的问题归结为模型是由参数组成的，模型通过样本的训练转化为参数上的改进是一个特别“昂贵”的过程，因此需要大量样本。作者由此提到不涉及参数的模型(non-parametric model)，例如kNN等模型(这里我将这两个的区别理解为 是否需要多次迭代优化参数)。最后，他们使用的是带参数的网络和不带参数的结合，目的是快速从样本中获取知识。论文中面向的问题是n-way k-shot 这样一种任务，support set中k个example一共有n个lebel，全都是训练时候未见过的。(这里我将support set理解为：初次用比较多的数据训练之后得到一个模型，之后再提供很少的数据，让已有的模型快速学习。论文的实验中support set中的label都是训练时候没见过的)。

模型组成

模型是一个set-to-set的框架，或者说是一个end-to-end的方式。预测的公式为

\[\hat{y} = \sum_{i=0}^K{a(\hat{x},x_i)y_i}\]

输出的 \(\hat{y}\) 表示的是测试数据属于每种label的概率，\(y_i\)是一个独热向量。
a是一个矩阵，代表的是 \(\hat{x}\) 和支撑集中每个 \(x_i\) 的相似程度。论文中使用的计算相似度的方式是 softmax over the cosine distance

\[a(\hat{x},x_i) = e^{c(f(\hat{x},g(x_i)))} / \sum_{j=1}^k{e^{(c(f(\hat{x}),g(x_i)))}}\]

上面的f和g函数称为embedding function，目的是将数据转化为向量，相当于一个信息提取的过程。但是作者考虑到这种方式（f和g关注的只是一条数据）并没有综合考虑整个支持集的信息，但是分类时候利用的是整个支持集的信息。认为每个\(x_i\)单独地被f和g进行嵌入存在短视的缺点。因此，提出Full Context Embeddings，嵌入函数变为\(f(\hat{x},S)\)，\(g(x_i,S)\)，使用的是LSTM，将支持集看作序列在整个支持集的上下文环境下对\(x_i\)和\(\hat{x}\)进行编码。

水平有限，更深层次的内容现在还并不能从论文中得出，推荐两篇论文笔记：
中文博客
 英文博客

Few-Shot/One-Shot Learning的更多相关文章

（转）Paper list of Meta Learning/ Learning to Learn/ One Shot Learning/ Lifelong Learning
Meta Learning/ Learning to Learn/ One Shot Learning/ Lifelong Learning 2018-08-03 19:16:56 本文转自:http ...
Multi-attention Network for One Shot Learning
Multi-attention Network for One Shot Learning 2018-05-15 22:35:50 本文的贡献点在于: 1. 表明类别标签信息对 one shot l ...
Matching Networks for One Shot Learning
1. Introduction In this work, inspired by metric learning based on deep neural features and memory a ...
零样本学习 - （Zero shot learning，ZSL）
https://zhuanlan.zhihu.com/p/41846072 https://zhuanlan.zhihu.com/p/38418698 https://zhuanlan.zhihu.c ...
Dribbble for windows phone 8
正如你看到文章的标题所示.这是一个Dribbble 基于windows phone 8的客户端.[开源项目] 对于大部分的开发人员来说很少关注Dribbble[不妨打开看看或是注册一个player账号 ...
越狱Season 1-Episode 13: End of the Tunnel
Season 1, Episode 13: End of the Tunnel -Fernando: The name is John Abruzzi. 名字是John Abruzzi A b r u ...
越狱Season 1-Episode 8: The Old Head
Season 1, Episode 8: The Old Head -Michael: 17 days from now they strap my brother to an electric ch ...
H TML5 之（7）俄罗斯方块效果
下载是模拟的俄罗斯方法的效果,在下落的情况下,能 <!DOCTYPE HTML> <html> <head> <title>Shot</title ...
H TML5 之（6）下雨效果
在对HTML5进行研究之后,有了一点想法,思考出游戏其实感觉就是四个步骤 1.创建一个你需要的对象,赋予属性(一些影响方法的属性),方法(运动,叫....) 2.实例化这个对象,让它成为一个或者多个个 ...
转自知乎，亲民好酒推荐分类： fool_tree的笔记本 2014-11-08 17:37 652人阅读评论(0) 收藏
这里尽量为大家推荐一些符合大众喜好.业内公认好评."即使你不喜欢,你也会承认它不错"的酒款.而且介绍到的酒款还会有一个共同的特征,就是能让你方便的在网上买到. 大概会分为烈酒,利口 ...

随机推荐

20155229 《信息安全系统设计基础》 week10 课上测试ch06
1( 单选题 | 1 分) 下面代码中,对数组x填充后,采用直接映射高速缓存,所有对x和y引用的命中率为() A . 1 B . 1/4 C . 1/2 D . 3/4 正确答案: D 解析:填充消除 ...
《Java 程序设计》课堂实践项目汇总链接
1.<Java 程序设计>课堂实践项目-命令行参数 2.<Java 程序设计>课堂实践项目-mini dc 3.<Java 程序设计>课堂实践项目-Arrays和S ...
JavaWeb总结（二）
Web服务器的缺陷 Web服务器是被设计用来向客户端提供HTTP服务的,它只能向客户端提供静态网页内容.静态页面是原封不动的待在Web服务器目录中,服务器找到静态网页,并把它原样传回到客户端.每个客户 ...
Python_sklearn机器学习库学习笔记（六） dimensionality-reduction-with-pca
# 用PCA降维 #计算协方差矩阵 import numpy as np X=[[2,0,-1.4], [2.2,0.2,-1.5], [2.4,0.1,-1], [1.9,0,-1.2]] np.c ...
10min 手写一个内存监控系统
本文的目的在于,尽可能用简单的代码,让大家了解内存监控的原理,及思想.更容易去理解Nagios.Zabbix.Ganglia监控原理,文章最后还有视频教程链接哦,从零敲出来的全过程思路分为下面几块: ...
js.ajax优缺点，工作流程
1.ajax的优点 Ajax的给我们带来的好处大家基本上都深有体会,在这里我只简单的讲几点: 1.最大的一点是页面无刷新,在页面内与服务器通信,给用户的体验非常好. 2.使用异步方式与服务器通信,不 ...
WHO ARE YOU?--writeup
TIPS:广东强网杯线上题总结知识点:BASE64,ROT13 0x00 Base64 什么是Base64? Base64编码原理其用途什么是Base64? Base64是一种基于64个可打印字 ...
node的 node-sass@^4.11.0 出现：npm: no such file or directory, scandir '.../node_modules/node-sass/vendor'
解决办法: 查看node_modules文件夹,发现,并无vender 文件夹.如下图: 2. 在 node_modules/node-sass 下创建 vendor 文件夹 3. 最后运行: n ...
Linux入门基础(二):Linux磁盘及文件管理系统
磁盘管理 fdisk分区工具只支持MBR分区 fdisk命令只有root用户能用 fdisk -l 列出所有安装磁盘及分区信息 fdisk /dev/sda (操作磁盘,按m可列出帮助界面,常用的操 ...
GsonFormat插件主要用于使用Gson库将JSONObject格式的String 解析成实体，该插件可以加快开发进度，使用非常方便，效率高。
GsonFormat插件主要用于使用Gson库将JSONObject格式的String 解析成实体,该插件可以加快开发进度,使用非常方便,效率高. 插件地址:https://plugins.jetbr ...