SMASH方法使用辅助网络生成次优权重来支持网络的快速测试，从结果来看，生成的权重与正常训练的权重在准确率上存在关联性，整体搜索速度很快，仅需要单卡进行搜索，提供了一个很好的新思路。

来源：晓飞的算法工程笔记公众号

论文: SMASH: One-Shot Model Architecture Search through HyperNetworks

Introduction

常规的网络设计需要耗费大量的时间进行验证，为了节约验证时间，论文提出训练一个辅助网络HyperNet，用于动态生成不同结构模型的权重。尽管使用这些生成权重的性能不如常规学习到的权重，但在训练初期，使用生成权重的不同网络的相对性能可以在一定程度上映射出其最优状态时的相对性能。因此，论文提出one-shot模型结构搜索SMASH(one-Shot Model Architecture Search through Hypernetworks)，结合辅助网络生成的权重，可以仅使用一轮训练来对大量的结构进行排序。

One-Shot Model Architecture Search through HyperNetworks

SMASH的逻辑如算法1，核心是通过辅助网络HyperNet根据不同的网络结构生成对应的权重，然后根据验证集表现进行排序：

首先训练辅助网络HyperNet，在每个训练阶段，随机采样一个网络，然后使用HyperNet生成权重，end-to-end地对其进行完整的反向训练。
在训练好HyperNet后，随机采样大量的网络结构，使用HyperNet生成的权重，然后在测试集上验证性能。
选择性能最好的结构进行最终的训练测试。

SMASH包含两个核心部分：

如何生成网络结构。论文采用基于存储体(memory bank)的前向网络，能够生成复杂且多分支的拓扑结构，并且能够使用二进制向量进行编码。
如何根据网络结构生成权重。训练一个辅助网络HyperNet，直接学习二进制结构编码到权重空间的映射。

论文认为，只要HyperNet学习到如何生成有效的权重，那么在验证集上，使用生成权重的网络的准确率会和正常训练的网络的准确率产生关联，此时，网络的结构将会变成影响验证集准确率的主要因子。

Defining Variable Network Configurations

为了能够生成多种的网络结构并且方便编码输入HyperNet，论文采用存储体(memory-bank)的方式进行网络表示，将网络视为一系列初始为0的存储体，每层的操作视为对存储体的读写。对于单分支网络，网络包含一个大的存储体，每次操作都覆盖存储体的内容(对ResNet是相加)，对于DenseNet的多分枝网络，则读取所有前面的存储体，然后将结果写入空的存储体，而对于FractalNet，则构造更为复杂。

SMASH的基础模型包含多个block，如图2(b)，每个block包含多个特定分辨率的存储体，前后block间的存储体分辨率为1/2倍，通过\(1\times 1\)卷积加平均池化进行下采样，\(1\times 1\)卷积和全连接输出层的权重是学习来的，不是生成的。

在采样网络时，每个block中的存储体个数以及每个存储体的channel数都是随机的，而block中的层则随机选择读写模式以及处理数据的op操作。当读入多个存储体时，在channel维度对存储体的tensor进行concat，而写入时则将结果与每个存储体中的tensor相加。在实验中，层仅允许读取所属的block的存储体。

op操作包含用于降维\(1\times 1\)卷积、多个常规卷积和非线性激活，如图2(a)，每次随机选择4个卷积中一个激活，包括其卷积核大小，输出channel等超参也是随机的，\(1\times 1\)卷积的输出channel数与op的输出channel数成一定比例，比例也是随机选取的，特别说明：

\(1\times 1\)卷积的权重由HyperNet生成，其它卷积则通过正常训练获得(算法1的first loop)。
为了保证可变的深度，每个block仅学习4个卷积，并且在block的op操作中共享其权值。限制最大卷积核大小以及最大输出channel数，假设选择的op操作的参数小于最大值，则将权重裁剪至目标大小。
下采样卷积和输出层同样基于输入的channel数对权重进行裁剪。

在设计时，为了让网络更多地采用HyperNet产生的权重，仅在下采样层中以及输出层之前使用BatchNorm，主要由于很难通过生成的方式产生这种运行时统计的结果。为了弥补这一举措，使用WeightNorm的改进版，将生成的\(1\times 1\)卷积核除以其欧几里得范数进行正则化(不是单独正则化各channel)，这对SMASH十分有效，仅带来些许的性能下降。

Learning to map architectures to weights

Hypernet采用全卷积网络，这样输出的\(W\)可以根据输入\(c\)的大小改变而改变，输入\(c\)为4维tensor(BCHW)，batch size为1，这样输出就不会存在完全独立性。输出\(W\)的每个channel都对应\(c\)的一个子集，而权重\(W\)对应op操作的信息都embedding在\(c\)的channel中。

假设op读取1,2,4存储体然后写入2,4存储体，则输入\(c\)的1、2和4 channel会填入1，代表输入的存储体，而6、8 channel也会填入1，代表输出的存储体，剩余的channel用于描述op的其它超参数，比如膨胀值(dilation)，输入\(c\)的width方向是对op操作的输出channel数的编码。

基于以上的Hypernet结构，naïve的实现要求输入\(c\)的大小和\(W\)的大小一致或者使用上采样来产生更多的输出，但这样效果不好。论文使用channel-based的权重压缩方法，不仅能够减小\(c\)的大小，还能保持HyperNet的表达能力。简单讲就是将输入\(c\)的分辨率设定为\(W\)的大小进行\(1/k\)，HyperNet的输出channel设定为\(k\)，最后将结果reshape成\(W\)的大小，具体可以看看论文的附录B。

Experiments

Testing the SMASH correlation

对比SMASH生成权重的网络与正常训练的网络的准确率，证明SMASH生成的权重可以快速地比较相对准确率。

Benchmarking

CONCLUSION

SMASH方法使用辅助网络生成次优权重来支持网络的快速测试，从结果来看，生成的权重与正常训练的权重在准确率上存在关联性，整体搜索速度很快，仅需要单卡进行搜索，提供了一个很好的新思路。

如果本文对你有帮助，麻烦点个赞或在看呗～

更多内容请关注微信公众号【晓飞的算法工程笔记】

SMASH：经典One-Shot神经网络搜索，仅需单卡 | ICLR 2018的更多相关文章

CARS: 华为提出基于进化算法和权值共享的神经网络结构搜索，CIFAR-10上仅需单卡半天 | CVPR 2020
为了优化进化算法在神经网络结构搜索时候选网络训练过长的问题,参考ENAS和NSGA-III,论文提出连续进化结构搜索方法(continuous evolution architecture searc ...
NASH：基于丰富网络态射和爬山算法的神经网络架构搜索 | ICLR 2018
论文提出NASH方法来进行神经网络结构搜索,核心思想与之前的EAS方法类似,使用网络态射来生成一系列效果一致且继承权重的复杂子网,本文的网络态射更丰富,而且仅需要简单的爬山算法辅助就可以完成搜索,耗时 ...
[转].NET程序破解仅需三步
近期开发公司商城,为了简化开发用了V5Shop网店程序.本来预计一个月完工,哪知道出现一堆问题大大增加了我的工作量(早知道还不如全部自己写了). 破V5Shop真不地道,说是免费的,结果程序一大堆问题 ...
仅需60秒，使用k3s创建一个多节点K8S集群！
作者: Dawid Ziolkowski丨Container Solution云原生工程师最近,我一直在Kubernetes上进行各种测试和部署.因此,我不得不一次又一次创建和销毁Kubernete ...
【专题教程第8期】基于emWin模拟器的USB BULK上位机开发，仅需C即可，简单易实现
说明:1.如果你会emWin话的,就可以轻松制作上位机.做些通信和控制类上位机,比使用C#之类的方便程度一点不差,而且你仅会C语言就可以.2.并且成功将emWin人性化,可以做些Windows系统上的 ...
[Android] Robotium手机自动化测试（仅需apk安装包版）——环境搭建【转】
Robotium的手机自动化测试,很多都是利用app源代码里的Id定义来开发自动化脚本.而在我开始要为项目中的app写自动化测试脚本的时候,开发的环境还很不稳定,app也还处于开发的状态中,而且,在 ...
学会使用DNSPod，仅需三步
学会使用DNSPod,仅需三步第一步:在DNSPod添加记录 1.访问 https://www.dnspod.cn网站,在DNSPod官网首页的右上角,有[注册],如下图所示,点击[注册]按钮 ...
tomcat部署应用仅需ip和port访问
一.使用ip和port访问应用项目: 打开tomcat安装根目录,打开conf目录下server.xml,找到<Host>节点,并且在该节点下新增: <Context docBa ...
仅需几行代码轻松实现ETH代币空投
仅需几行代码轻松实现ETH代币空投批量发送以太坊,部署下面的合约,然后往下面的合约打币,就可以分发 ragma solidity ^0.4.21; contract batchTransfer { ...
《转载》仅需3分钟，你就能明白Kafka的工作原理
仅需3分钟,你就能明白Kafka的工作原理周末无聊刷着手机,某宝网 App 突然蹦出来一条消息“为了回馈老客户,女朋友买一送一,活动仅限今天!”. 买一送一还有这种好事,那我可不能错过!忍不住立马点 ...

随机推荐

dp题单——区间dp
一.基本概念 1.链式区间dp for(int len = 2; len <= n; len++){ //枚举区间长度 for(int i = 1; i + len - 1 <= n; i ...
cf思维题
1.B. Paranoid String 题意:操作一:01可以变成1,操作二:10可以变成0.给定一个串,判断字串经过若干次操作,能否长度变成1,统计数量. 思路:对01来说,1可以吃掉0,然后前边 ...
SpringBoot整合EasyExcel实现Excel表格的导出功能
前言大家好!我是sum墨,一个一线的底层码农,平时喜欢研究和思考一些技术相关的问题并整理成文,限于本人水平,如果文章和代码有表述不当之处,还请不吝赐教. 在后端管理系统的开发中,经常有导出当前表格数 ...
kubernetes(k8s)大白学习01-kubernetes是什么？有什么用？
kubernetes(k8s)大白基础学习-kubernetes是什么? 一.认识 Docker Docker 是什么先来看看 Docker 的图标: 一条鲸鱼背上驮着四方形块的物品,就像一条海运船 ...
在RecyclerView.Adapter中使用 ViewBinding 的一个注意点
使用 viewpager2 时遇到如下错误, 使用 recyclerview 也有可能会遇到 : 2022-02-10 14:15:43.510 12151-12151/com.sharpcj.dem ...
Golang 常用工具记录
Golang 常用工具记录 1 golang 类 1.1 日常使用的 copier 复制结构体到另外一个结构体等等类似的功能 asynq Go中简单.可靠.高效的分布式任务队列,使用 redis 做 ...
【Azure 应用服务】更新镜像后并重启应用服务，部署日志始终没有出现加载新镜像成功的日志
问题描述在App Service中部署镜像文件,发现镜像一直没有部署,重启App Service服务也无效果. DockerFile如下: FROM crunchgeek/php-fpm:7.0 # ...
从全球顶级数据库大会 SIGMOD 看数据库发展趋势
本文来自 NebulaGraph 的软件工程师文豪在美国费城参加 2022 年 SIGMOD 大会时的见闻.SIGMOD 是数据库领域的顶级会议之一,是 CCF 数据库 / 数据挖掘 / 内容检索领域 ...
xml中xsd、xsi、xmlns的含义
XML是可扩展标记语言,它定义了按格式编码文件的一系列规则[3],编码的文件是机器可读和人可读的.XML文件对于机器可读是基于XSD(XML Schema Definition)[1]的.XSD是受W ...
青少年CTF训练平台-web部分随笔
文章管理系统首先打开环境(>ω<｡人)ZZz♪♪ 既然要做题,就要做全面了,图上说了,既然有假flag我就先找出来: 假flag: 打开vmware,使用sqlmap进行处理: sqlm ...

SMASH：经典One-Shot神经网络搜索，仅需单卡 | ICLR 2018