Key

Gradient Descent+TRPO+policy Gradient

训练模型的初始参数，模型在新任务上只需参数通过一个或多个用新任务的少量数据计算的梯度步骤更新后，就可以最大的性能。而不是通过大量的新任务重新学习，而是调整学习。

解决的主要问题

想要让系统能够快速学习，尽快适应新任务

文章内容

Introduction

人工智能需要快速学习，才更像人类的智力。之前元学习方法：学习更新功能或学习规则；本文提出的算法不会扩展学习参数的数量，也不会对模型架构施加约束(通过要求循环模型或Siamese网络）

两种理解方式：
- 特征学习角度：通过梯度训练参数，其实是在构建一个广泛适用于许多任务的内部表示。如果内部表示适合许多任务，简单地微调参数(例如，主要修改前馈模型的顶层权重)可以产生良好的结果。
- 动态系统角度：本文的学习过程可以被视为最大化新任务的损失函数相对于参数的灵敏度:当灵敏度很高时，对参数的小的局部变化可以导致任务损失的大幅度改善
Model-Agnostic Meta-Learning
- set-up
  
  aim：model f（观测x到输出a的映射）
  
  每个任务由四部分表示（由损失函数，初始观测分布，过渡分布，和episode长度）
  - 训练：从任务分布中采样task，交互k次，计算task下的loss梯度，更新当前task的参数。batch tasks分别计算和更新完后，即完成了第一次梯度更新。
    
    最后根据累计loss的梯度来更新model参数。注意：此处是根据第一次梯度更新得到的参数来计算each task的loss，从而计算第二次梯度更新。
    
    文章中解释为：采样任务上的测试误差充当元学习过程的训练误差。即第二次梯度计算利用的loss为每个task的test error，并利用该损失进一步更新参数θ
    
    理解：即θ'为task更新后的参数，想要测试该θ'的效果，需要测试，即在new task上用θ'的loss来作为测试误差。
    
    注意：训练objective：使得采样tasks的累计loss的梯度minimize
  - 测试:从任务分布中采样新任务，在K个样本中学习后的model表现来衡量模型的性能
- MAML Algorithm
Species of MAML

分别讲述了小样本学习和强化学习。

这里主要讲述RL：

f为状态xt在each t对应的at概率分布，设置each task的loss：

注意：由于政策梯度是一种on-policy算法，在fθ适应过程中，每一个额外的梯度步骤都需要来自当前政策fθi'的新样本。
Experimental evaluation
- problem：
  
  是否能够快速学习适应新任务
  
  是否适用于不同的领域domains
  
  用MAML学习的模型可以通过额外的梯度更新和/或示例继续改进吗
- 文章实验分别在回归、分类、RL领域进行了实验。
  
  RL：
  - 在2D Navigation和Locomotion环境中进行实验，利用vanilla策略梯度(REINFORCE)进行梯度更新的计算；使用信任区域策略优化(TRPO)作为元优化器
  - 为了避免TRPO三次导数，使用有限差分计算TRPO的Hessian-vector
  - 对于learning和meta-learning更新，使用标准线性特征基线，在批次中每个采样任务的每个迭代中分别拟合。并且与三个基线进行比较（pretraining one policy，andomly initialized weights，oracle policy）
Discussion and Future Work

使大容量可伸缩模型(如深度神经网络)能够通过小数据集快速训练的关键因素是重用来自过去任务的知识。

未来：进行使多任务初始化成为深度学习和强化学习的标准成分

文章方法的优缺点

优点
- 加速了使用神经网络策略的策略梯度强化学习的微调
- 只需最小的修改，就可以轻松地处理不同的架构和不同的问题设置，包括分类、回归和策略梯度强化学习。
- 没有引入任何学习参数，不会扩展学习参数的数量，也不会对模型架构施加约束
缺点
- 在MAML用于RL中，由于PG是on-policy，每次task训练需要根据更新前后的参数分别进行两次样本采样。
- 需要知道任务分布，才能进行采样。

Summary

该文章不再像之前基于RNN的meta-RL思想，按照该文章的理解，那是在给模型架构施加约束条件。然而，此次的方法不需要任何架构和参数的改变，只是调整了参数更新的方式。

通过利用采样到的每个task根据loss更新到的单个task的参数，来再次计算新参数下的task loss。最后根据累计的新参数loss总和进行model参数的更新。

我理解是最后使得model参数让每个任务的loss最小，这样就能快速适应新任务。因为任务分布内的task是相近的，即有共同特点，model参数是融合了tasks相似的特点。利用训练模型的参数，在适应新任务的时候，就可以只需要少量的梯度更新。

论文链接

 版权归原作者 Lee_ing 所有

未经原作者允许不得转载本文内容，否则将视为侵权

ICML 2017-Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks的更多相关文章

深度学习课程笔记（十七）Meta-learning (Model Agnostic Meta Learning)
深度学习课程笔记(十七)Meta-learning (Model Agnostic Meta Learning) 2018-08-09 12:21:33 The video tutorial can ...
论文笔记：Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks
Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks ICML 2017 Paper:https://arxiv.org/ ...
Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks(用于深度网络快速适应的元学习)
摘要:我们提出了一种不依赖模型的元学习算法,它与任何梯度下降训练的模型兼容,适用于各种不同的学习问题,包括分类.回归和强化学习.元学习的目标是在各种学习任务上训练一个模型,这样它只需要少量的训练样本就 ...
深度学习材料：从感知机到深度网络A Deep Learning Tutorial: From Perceptrons to Deep Networks
In recent years, there’s been a resurgence in the field of Artificial Intelligence. It’s spread beyo ...
（转）Paper list of Meta Learning/ Learning to Learn/ One Shot Learning/ Lifelong Learning
Meta Learning/ Learning to Learn/ One Shot Learning/ Lifelong Learning 2018-08-03 19:16:56 本文转自:http ...
什么是 Meta Learning / Learning to Learn ?
Learning to Learn Chelsea Finn Jul 18, 2017 A key aspect of intelligence is versatility – the cap ...
The Rise of Meta Learning
The Rise of Meta Learning 2019-10-18 06:48:37 This blog is from: https://towardsdatascience.com/the- ...
论文笔记：Visual Question Answering as a Meta Learning Task
Visual Question Answering as a Meta Learning Task ECCV 2018 2018-09-13 19:58:08 Paper: http://openac ...
【MetaPruning】2019-ICCV-MetaPruning Meta Learning for Automatic Neural Network Channel Pruning-论文阅读
MetaPruning 2019-ICCV-MetaPruning Meta Learning for Automatic Neural Network Channel Pruning Zechun ...
[转载]Meta Learning单排小教学
原文链接:Meta Learning单排小教学虽然Meta Learning现在已经非常火了,但是还有很多小伙伴对于Meta Learning不是特别理解.考虑到我的这个AI游乐场将充斥着Meta ...

随机推荐

Python内置函数：index
index用于返回指定值在序列的第一个位置序列.index(值,开始索引,结束索引) 开始索引默认为0,可不传结束索引默认为序列长度,可不传 >>> str = 'abc' &g ...
GO语言学习笔记-并发篇 Study for Go ! Chapter seven - Concurrency
持续更新 Go 语言学习进度中 ...... GO语言学习笔记-类型篇 Study for Go! Chapter one - Type - slowlydance2me - 博客园 (cnblogs ...
Github账户的注册
注册步骤首先进入github官网界面(注意,只能用Chrome或者Firefox浏览器.这样保险性更强一些) 官网地址:https://github.com/ 映入眼帘的界面是这样的: 点击右上角的 ...
每次SSH执行完都会关闭通道，返回目录，如果想一次执行多步操作，需要多条命令才能达到目的时，用；分割操作指令，一并导入执行
每次SSH执行完都会关闭通道,返回目录,如果想一次执行多步操作,需要多条命令才能达到目的时,用:分割操作指令,一并导入执行: 例如: self.execmd='cd ../tmp/log/;pwd;t ...
基于 Web SDK 实现视频通话场景 | 声网 SDK 教程
声网视频 SDK 被广泛应用于多种实时互动场景中,例如视频会议.视频通话.音视频社交.在线教育等.为了让刚刚接触声网 SDK 的开发者,可以更顺畅地实现基础的视频通话功能,我们基于声网 Web SDK ...
RunnerGo可视化场景管理，还原真实场景
在进行性能测试时,测试场景的正确配置非常关键.首先,需要根据业务场景和需求,设计出合理的测试场景,再利用相应的工具进行配置,实现自动化的性能测试. 在JMeter中,用户需要自己组织测试场景,或是在同 ...
MySQL与Java常用数据类型的对应关系
一.字符串数据类型: MySQL类型名大小用途对应Java类名 char 0-255 bytes 定长字符串 (姓名.性别.学号) String varchar 0-65535 bytes 变长 ...
驱动开发：探索DRIVER_OBJECT驱动对象
本章将探索驱动程序开发的基础部分,了解驱动对象DRIVER_OBJECT结构体的定义,一般来说驱动程序DriverEntry入口处都会存在这样一个驱动对象,该对象内所包含的就是当前所加载驱动自身的一些 ...
[Windows]解决：windows连接远程桌面-出现身份验证错误，要求的函数不受支持（ CredSSP加密数据库修正）[转载]
文由需要在本地Windows系统电脑通过远程桌面(mstsc)另一台Windows服务器,将其内的数据拷贝过来.但却发生了这样的异常解决方案 step1 Win+R step2 打开注册表: gp ...
Java设计模式 —— 装饰模式
12 装饰模式 12.1 装饰模式概述 Decorator Pattern: 动态地给一个对象增加一些额外的职责.提供一种比使用子类更加灵活的方案来扩展功能. 装饰模式是一种用于替代继承的技术,通过一 ...

ICML 2017-Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks

Key

解决的主要问题

文章内容

Introduction

Model-Agnostic Meta-Learning

Species of MAML

Experimental evaluation

Discussion and Future Work

文章方法的优缺点

Summary

ICML 2017-Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks的更多相关文章

随机推荐

热门专题