论文笔记：ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware

ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware

2019-03-19 16:13:18

Paper：https://openreview.net/forum?id=HylVB3AqYm

Code：https://github.com/MIT-HAN-LAB/ProxylessNAS

1. Background and Motivation:

先来看看算法的名字：ProxylessNAS，将其拆分之后是这么个意思： Proxy（代理）Less（扣除）NAS（神经结构搜索），难么很自然的就可以读懂了：不用代理的神经网络搜索。那么问题来了，什么是代理呢？这就要提到本文的动机：NAS 可以自动设计有效的网络结构，但是由于前期所提出算法计算量太大，难以在大型任务上执行搜索。于是，出现了可微分的NAS，大大的降低了 GPU 的运算时间，但是也有一个需要较大 GPU memory 消耗的问题（grow linearly w.r.t. candidate set size）。所以，这些算法就只能在 proxy task 上，例如在较小的数据集上训练，或者仅用几个 blocks 进行学习，或者仅仅训练几个 epoch。这就可能引出如下的问题，算法在小数据上的搜索出来的模型，可能在 target task 上并不是最优的。所以，本文就提出 ProxylessNAS 来直接在 large-scale target tasks 或者目标硬件平台上进行结构的学习。

本文作者将 NAS 看做是 path-level pruning process，特别的，我们直接训练一个 over-parameterized network，其包含所有的候选路径（如图 2 所示）。在训练过程中，我们显示的引入结构化参数来学习哪条路径是冗余的，这些冗余的分支在训练的最后，都被移除，以得到一个紧凑的优化结构。通过这种方式，在结构搜索过程中，我们仅仅需要训练一条网络，而不需要任何其他的 meta-controller （or hypernetwork）。

但是简单的将所有的候选路径都包含进来，又会引起 GPU 显存的爆炸，因为显存的消耗是和选择的个数，呈现线性增长的关系。所以，GPU memory-wise，我们将结构参数进行二值化（1 或者 0），并且强制仅仅有一条路径，在运行时，可以被激活。这样就将显存需求将为了与训练一个紧凑的模型相当的级别。我们提出一种基于 BinaryConnect 的基于梯度的方法来训练二值化参数。此外，为了处理不可微分的硬件目标，如 latency，在特定的硬件上，来学习特定的网络结构。我们将 network latency 建模成连续的函数，并且将其作为正则化损失来进行优化。另外，我们也提出 REINFORCE-based algorithm 作为另外一种策略来处理硬件度量。

2. Method:

作者首先描述了 over-parameterized network 的构建，然后引入如何利用 binarized architecture parameters 来降低显存消耗。然后提出一种基于梯度的方法，来训练这些 binarized architecture parameters。最终，提出两种基础来处理不可微分的目标（e.g. latency），使其可以在特定的硬件上处理特定的神经网络。

2.1 Construction of Over-Parameterized Network:

论文笔记：ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware的更多相关文章

论文笔记：Fast Neural Architecture Search of Compact Semantic Segmentation Models via Auxiliary Cells
Fast Neural Architecture Search of Compact Semantic Segmentation Models via Auxiliary Cells 2019-04- ...
论文笔记：Progressive Neural Architecture Search
Progressive Neural Architecture Search 2019-03-18 20:28:13 Paper:http://openaccess.thecvf.com/conten ...
论文笔记系列-Efficient Neural Architecture Search via Parameter Sharing
Summary 本文提出超越神经架构搜索(NAS)的高效神经架构搜索(ENAS),这是一种经济的自动化模型设计方法,通过强制所有子模型共享权重从而提升了NAS的效率,克服了NAS算力成本巨大且耗时的缺 ...
论文笔记：DARTS: Differentiable Architecture Search
DARTS: Differentiable Architecture Search 2019-03-19 10:04:26accepted by ICLR 2019 Paper:https://arx ...
论文笔记系列-DARTS: Differentiable Architecture Search
Summary 我的理解就是原本节点和节点之间操作是离散的,因为就是从若干个操作中选择某一个,而作者试图使用softmax和relaxation(松弛化)将操作连续化,所以模型结构搜索的任务就转变成了 ...
论文笔记：Progressive Differentiable Architecture Search:Bridging the Depth Gap between Search and Evaluation
Progressive Differentiable Architecture Search:Bridging the Depth Gap between Search and Evaluation ...
论文笔记系列-Auto-DeepLab:Hierarchical Neural Architecture Search for Semantic Image Segmentation
Pytorch实现代码:https://github.com/MenghaoGuo/AutoDeeplab 创新点 cell-level and network-level search 以往的NAS ...
（转）Illustrated: Efficient Neural Architecture Search ---Guide on macro and micro search strategies in ENAS
Illustrated: Efficient Neural Architecture Search --- Guide on macro and micro search strategies in ...
论文笔记系列-Neural Architecture Search With Reinforcement Learning
摘要神经网络在多个领域都取得了不错的成绩,但是神经网络的合理设计却是比较困难的.在本篇论文中,作者使用递归网络去省城神经网络的模型描述,并且使用增强学习训练RNN,以使得生成得到的模型在验证集上 ...

随机推荐

mysql数据类型和基础语句
阅读目录转载 https://www.cnblogs.com/Eva-J/articles/9683316.html 数值类型日期时间类型字符串类型 ENUM和SET类型返回顶部数值类型 M ...
Redis的持久化之RDB方式
RDB方式 Redis是默认支持的优势:只有一个文件,时间间隔的数据,可以归档为一个文件,方便压缩转移(就一个文件) 劣势:如果宕机,数据损失比较大,因为它是没一个时间段进行持久化操作的.也就是积攒 ...
matlab工作空间数据导入simulink
使用的是其中一种方式: 第一步在工作命令区 ,写命令: 第二步:保证导入simulink区,及from worker设置: 其中注意设置你的采样时间, 第三步设置scop : 采样时承接数据线上 ...
Socket断开不报错(Java)
网上看了很多关于Socket的Demo,用起来挺好用也简单,不过都在断开连接时,都没有做好相关处理,导致每次主动断开时,会报错如: java.net.SocketException: Socket ...
位运算符 & | ~ ^ << >>
# ### 位运算符 & | ~ ^ << >> var1 = 19 var2 = 15 # & 按位与 """ res = va ...
python split 的应用
# 1. 有字符串 "k:1|k1:2|k2:3|k3:4" 处理成字典 {"k":1, "k1":2,...}a1 = "k:1 ...
vs code中文扩展包
vs code 中文拓展安装失败时,可以手动下载安装,下载对版本的中文包. https://marketplace.visualstudio.com/_apis/public/gallery/publ ...
Java-接口(interface)
1.1接口的定义 java中接口是一系列方法的声明,是一些方法特征的集合,一个接口只有方法的特征没有方法的实现,因此这些方法可以在不同的地方被不同的类实现,而这些实现可以具有不同的行为(功能). 接口 ...
python点点滴滴
python点点滴滴 1 self 使用python编程实现邮箱登录时,遇到使用self的情况,在此做简要记录. 参考链接: https://sjolzy.cn/Why-should-self-Pyt ...
virtual dom 简单了解
管理应用程序状态和用户界面的同步一直是前端UI开发复杂性的主要来源.目前出现了不同的方式来处理这个问题.本文简单讨论其中一种方式virtual dom. 文章概要: virtual dom 基本概念, ...

论文笔记：ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware

ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware

论文笔记：ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware的更多相关文章

随机推荐

热门专题