论文: Multi-Fidelity Automatic Hyper-Parameter Tuning via Transfer Series Expansion

我们都知道实现AutoML的基本思路是不断选取不同的超参数组成一个网络结构,然后使用这个网络结构在整个数据集上进行评估 (假设评估值为\(f_H(X)=\mathcal{L}(δ,D^{train},D^{valid})\),X表示某一组超参数) ,最后选择出评估性能最好的网络参数。

但是基于full dataset进行评估cost太大,所以很自然地想到基于一部分数据集进行评估,假设此时的评估结果是\(f_L(X)=\mathcal{L}(δ,D^{sub}_{r_L},D^{valid})\),其中\(D^{sub}_{rL}\)表示从训练集中以\(r_L\)的比例抽取数据。但是这样又存在另外一个问题,那就是基于一部分数据集进行评估得到的结果往往是不准确的,那怎么办呢?下面进行一波分析:

令\(R(X)=f_H(X)-f_L(X)\),用来衡量\(f_H\)与\(f_L\)之间的残差(residual)。所以如果我们能够得到\(R(X)\),那么我们就能够用\(R(X)+f_L(X)\)来代替需要花费大量算力的\(f_H(X)\),那么怎么得到\(R(X)\)呢?

本文为了求得\(R(X)\)提出了Transfer Series Expansion (TSE),该方法就是通过学习一系列的基预测器,并将他们线性组合得到了最终的预测器,预测结果即为\(R(X)\)。公式如下:
\[\Psi(x)=\sum_{i=1}^kw_i\psi_i(x)+b \tag{1}\]

由公式(1)可以知道我们需要构造出\(k\)个基预测器,换句话说我们需要k个不同的数据集,数据集可以表示为\(D^{predictor}=\{(x_1,y_1),...,(x_m,y_m)\}\),其中\(y_i=R(x_i)\)。很显然为了得到\(y_i\)还是得花费不少代价。所以作者提出了一个折中的办法就是令\(y_i=R(x_i)=f_M(x_i)-f_L(x_i)\),其中\(f_M\)表示介于\(f_L\)和\(f_H\)之间的评估,也就是说以\(r_M(0<r_L<r_M<<1)\)的比例从训练集中抽取出数据进行模型的评估。(文中并没有详细介绍如何构造基预测器,只是说使用Random Forest Regressor,所以这里不再对基预测器如何构造进行说明。)。

所以用来构建k个基预测器的数据集对即为\(\{(D^{sub1}_{r_L},D^{sub1}_{r_M}),...,(D^{subk}_{r_L},D^{subk}_{r_M})\}\),注意\((D^{sub1}_{r_L},D^{sub1}_{r_M})\)转变成一组用于生成基预测器的数据集\(D^{predictor}\)。除此以外其实还需要构造\(\{(D^{sub}_{r_L},D^{train})\}\)用于最后的回归问题。所以实际上随机初始化\(k\)个\(D^{sub}_{r_M}\)和\(k+1\)个\(D^{sub}_{r_L}\)。

好了现在假设基预测器都构建好了,那么就可以进入正式的TSE算法步骤了,算法如下:

未完待续...

MARSGGBO♥原创







2018-8-5

论文笔记系列-Multi-Fidelity Automatic Hyper-Parameter Tuning via Transfer Series Expansion的更多相关文章

  1. 论文笔记系列-Speeding Up Automatic Hyperparameter Optimization of Deep Neural Networks by Extrapolation of Learning Curves

    I. 背景介绍 1. 学习曲线(Learning Curve) 我们都知道在手工调试模型的参数的时候,我们并不会每次都等到模型迭代完后再修改超参数,而是待模型训练了一定的epoch次数后,通过观察学习 ...

  2. 【论文笔记系列】AutoML:A Survey of State-of-the-art (下)

    [论文笔记系列]AutoML:A Survey of State-of-the-art (上) 上一篇文章介绍了Data preparation,Feature Engineering,Model S ...

  3. 论文笔记系列-Neural Network Search :A Survey

    论文笔记系列-Neural Network Search :A Survey 论文 笔记 NAS automl survey review reinforcement learning Bayesia ...

  4. 论文笔记系列-Auto-DeepLab:Hierarchical Neural Architecture Search for Semantic Image Segmentation

    Pytorch实现代码:https://github.com/MenghaoGuo/AutoDeeplab 创新点 cell-level and network-level search 以往的NAS ...

  5. 论文笔记系列-Well Begun Is Half Done:Generating High-Quality Seeds for Automatic Image Dataset Construction from Web

    ​ ​ ​ MARSGGBO♥原创 2019-3-2

  6. 论文笔记系列-Efficient Neural Architecture Search via Parameter Sharing

    Summary 本文提出超越神经架构搜索(NAS)的高效神经架构搜索(ENAS),这是一种经济的自动化模型设计方法,通过强制所有子模型共享权重从而提升了NAS的效率,克服了NAS算力成本巨大且耗时的缺 ...

  7. 论文笔记系列-Neural Architecture Search With Reinforcement Learning

    摘要 神经网络在多个领域都取得了不错的成绩,但是神经网络的合理设计却是比较困难的.在本篇论文中,作者使用 递归网络去省城神经网络的模型描述,并且使用 增强学习训练RNN,以使得生成得到的模型在验证集上 ...

  8. 论文笔记系列-AutoFPN

    原论文:Auto-FPN: Automatic Network Architecture Adaptation for Object Detection Beyond Classification 之前 ...

  9. 论文笔记系列-iCaRL: Incremental Classifier and Representation Learning

    导言 传统的神经网络都是基于固定的数据集进行训练学习的,一旦有新的,不同分布的数据进来,一般而言需要重新训练整个网络,这样费时费力,而且在实际应用场景中也不适用,所以增量学习应运而生. 增量学习主要旨 ...

随机推荐

  1. WPF界面+halcon生成的C#文件

    1.新建WPF应用程序完成后,解决方案资源管理器——引用处右键,添加引用如下两个dll 工具箱,空白处右键,选择项(只添加halcondotnet.dll,位置同上).这样halcon平台的控件就添加 ...

  2. Java流程控制语句和数组整理

    7.1选择结构switch switch (表达式){ case 目标值1: 执行语句1 break; case 目标值2: 执行语句2 break; ...... case 目标值n: 执行语句n ...

  3. Javascript鼠标键盘事件

    鼠标事件click:单击dblclick:双击mousedown:鼠标按下mouseup:鼠标抬起mouseover:鼠标悬浮mouseout:鼠标离开mousemove:鼠标移动mouseenter ...

  4. consul介绍

    consul 是一个支持多数据中心分布式高可用,用于服务发现和配置共享的工具. consul与其它工具的不同,官方介绍如下: https://www.consul.io/intro/vs/index. ...

  5. 【SQL】SqlServer中Group By后,字符串合并

    参考: 1.SQL查询语句 group by后, 字符串合并 2.sql for xml path用法 #需求: 合并列值 表结构,数据如下: id value ----- ------ aa bb ...

  6. 面向对象【day08】:动态导入模块(八)

    本节内容 1.概述 2.知识回顾 3.动态导入模块 一.概述 我们之前导入模块都是用import,或者from ... import ....这种模式去导入模块,那如果我们如何实现只用字符串就可以导入 ...

  7. SQL优化笔记一:索引和explain

    目录 为什么需要优化SQL SQL优化的重点 索引 索引的结构 索引的优缺点总结: 索引的分类 索引操作 B树 实战 问题 数据库方面,我会使用MySQL来讲解 为什么需要优化SQL 性能低,执行时间 ...

  8. Java面试题全集(下)转载

    Java面试题全集(下)   这部分主要是开源Java EE框架方面的内容,包括hibernate.MyBatis.spring.Spring MVC等,由于Struts 2已经是明日黄花,在这里就不 ...

  9. linux部署Web项目总结

    本文用的是CentOS7系统,不是虚拟机. 1.什么是Xshell? xshell连接上linux之后,就等同于linux本身的终端命令窗口. xshell不是必需品,但是它能更好的辅助我们学习lin ...

  10. HDU 1041(01展开 大数)

    题意是将 1 展开成 01 ,将 0 展开成 10 ,问这样展开 n 次后序列中有多少对 0. 手写发现:0,1,1,3,5,11 ... 即 a[ i ] = a[ i -1 ] + a[ i - ...