论文内容

G. Hinton, O. Vinyals, and J. Dean, “Distilling the Knowledge in a Neural Network.” 2015.

如何将一堆模型或一个超大模型的知识压缩到一个小模型中，从而更容易进行部署？

训练超大模型是因为它更容易提取出数据的结构信息（为什么？）
知识应该理解为从输入到输出的映射，而不是学习到的参数信息
模型的泛化性来源于错误答案的相对概率大小（一辆宝马被误判为卡车的概率大于被误判为萝卜的概率），而泛化性是学习的终极目标
基本构架：学习高温Softmax之后的值

超大数据集下如何训练？

论文给出的方法：用专家模型独立训练容易混淆的数据，在准确率略微提高的基础上，将训练时间从许多周缩短为几天
模型集合是一个针对所有数据的generalist model和许多针对相近数据的专家模型。训练专家模型时，用generalist model的参数进行初始化（这样可以防止过拟合），训练数据一半是相近数据的集合，一半是随机选取的其他数据

（correct for the biased training set by incrementing the logit of the dustbin class by the log of the proportion by which the specialist class is oversampled 应该如何理解？）
分配不同种类到专家模型：将容易混淆的预测进行聚类，从而分配到专家模型
最后对包含专家模型的一组神经网络进行知识蒸馏，提炼成一个同样大小的单一神经网络，方便部署

实际效果

泛化性的检验：在MNIST数据集中，仅靠知识蒸馏，能识别出缺失的某张图片吗？

金句启发

把dropout和分布式学习相结合？

Dropout can be viewed as a way of training an exponentially large ensemble of models that share weights.
FL的特点在于数据不能共享，所以不能在服务器端做模型融合。能不能做一个分布式的知识蒸馏，用专家模型解决异构数据的难点？

【论文考古】知识蒸馏 Distilling the Knowledge in a Neural Network的更多相关文章

【DKNN】Distilling the Knowledge in a Neural Network 第一次提出神经网络的知识蒸馏概念
原文链接小样本学习与智能前沿 . 在这个公众号后台回复"DKNN",即可获得课件电子资源. 文章已经表明,对于将知识从整体模型或高度正则化的大型模型转换为较小的蒸馏模型,蒸馏非常 ...
Distilling the Knowledge in a Neural Network
url: https://arxiv.org/abs/1503.02531 year: NIPS 2014 简介将大模型的泛化能力转移到小模型的一种显而易见的方法是使用由大模型产生的类概率作 ...
1503.02531-Distilling the Knowledge in a Neural Network.md
原来交叉熵还有一个tempature,这个tempature有如下的定义: \[ q_i=\frac{e^{z_i/T}}{\sum_j{e^{z_j/T}}} \] 其中T就是tempature,一 ...
论文阅读笔记十八：ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation(CVPR2016)
论文源址:https://arxiv.org/abs/1606.02147 tensorflow github: https://github.com/kwotsin/TensorFlow-ENet ...
论文阅读笔记六十四: Architectures for deep neural network based acoustic models defined over windowed speech waveforms(INTERSPEECH 2015)
论文原址:https://pdfs.semanticscholar.org/eeb7/c037e6685923c76cafc0a14c5e4b00bcf475.pdf 摘要本文研究了利用深度神经网络 ...
论文翻译：2020_Acoustic Echo Cancellation Based on Recurrent Neural Network
论文地址:https://ieeexplore.ieee.org/abstract/document/9306224 基于RNN的回声消除摘要本文提出了一种基于深度学习的语音分离技术的回声消除方法 ...
论文笔记：Person Re-identification with Deep Similarity-Guided Graph Neural Network
Person Re-identification with Deep Similarity-Guided Graph Neural Network 2018-07-27 17:41:45 Paper: ...
Deeplearning知识蒸馏
Deeplearning知识蒸馏 merge paddleslim.dist.merge(teacher_program, student_program, data_name_map, place, ...
论文解读（GCC）《GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training》
论文信息论文标题:GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training论文作者:Jiezhong Qiu, Qibi ...

随机推荐

Flowable实战（一）启动第一个完整流程
一.前言: 发现网上关于Flowable的资料基本都是浅尝辄止,对如何构建一个企业级的流程应用说明很少,所以写个实战系列,希望对大家和自己,都有所帮助. 二.认识Flowable Flowab ...
vscode搜索高亮个性化设置
"workbench.colorCustomizations": { "editor.selectionHighlightBorder": "#1ED ...
python中的rpc库
基于xml的rpc调用 rpcserver.py from xmlrpc.server import SimpleXMLRPCServer # python中类的命名方式遵循驼峰命名法 # 1. 没有 ...
golang中的标准库IO操作
参考链接输入输出的底层原理终端其实是一个文件,相关实例如下: os.Stdin:标准输入的文件实例,类型为*File os.Stdout:标准输出的文件实例,类型为*File os.Stderr: ...
Spring中的单例模式
Spring中的单例模式单例模式的介绍 1.1 简介保证整个应用中某个实例有且只有一个 1.2作用保证一个类仅有一个实例,并且提供一个访问它的全局访问点. 单例模式的优点和缺点单例模式的优 ...
手把手教你用Strace诊断问题
手把手教你用Strace诊断问题发表于2015-10-16 早些年,如果你知道有个 strace 命令,就很牛了,而现在大家基本都知道 strace 了,如果你遇到性能问题求助别人,十有八九会建议你 ...
STM32定时器触发ADC多通道连续采样，DMA缓存结果
STM32的ADC使用非常灵活,采样触发方面:既支持软件触发,定时器或其他硬件电路自动触发,也支持转换完成后自动触发下一通道/轮转换.转换结果存储方面:既支持软件读取和转存,也支持DMA自动存储转换结 ...
Vue2和Vue3技术整理1 - 入门篇 - 更新完毕
Vue2 0.前言首先说明:要直接上手简单得很,看官网熟悉大概有哪些东西.怎么用的,然后简单练一下就可以做出程序来了,最多两天,无论Vue2还是Vue3,就都完全可以了,Vue3就是比Vue2多了一 ...
Flink源码学习笔记(3)了解Flink HA功能的实现
使用Flink HA功能维护JobManager中组件的生命周期,可以有效的避免因为JobManager 进程失败导致任务无法恢复的情况. 接下来分享下 Flink HA功能的实现大纲基于Zook ...
Flink源码学习笔记(2) 基于Yarn的自动伸缩容实现
1.背景介绍随着实时计算技术在之家内部的逐步推广,Flink 任务数及计算量都在持续增长,集群规模的也在逐步增大,本着降本提效的理念,我们研发了 Flink 任务伸缩容功能: 提供自动伸缩容功能,可 ...

【论文考古】知识蒸馏 Distilling the Knowledge in a Neural Network

论文内容

如何将一堆模型或一个超大模型的知识压缩到一个小模型中，从而更容易进行部署？

超大数据集下如何训练？

实际效果

泛化性的检验：在MNIST数据集中，仅靠知识蒸馏，能识别出缺失的某张图片吗？

金句启发

【论文考古】知识蒸馏 Distilling the Knowledge in a Neural Network的更多相关文章

随机推荐

热门专题