论文内容

G. Hinton, O. Vinyals, and J. Dean, “Distilling the Knowledge in a Neural Network.” 2015.

如何将一堆模型或一个超大模型的知识压缩到一个小模型中，从而更容易进行部署？

训练超大模型是因为它更容易提取出数据的结构信息（为什么？）
知识应该理解为从输入到输出的映射，而不是学习到的参数信息
模型的泛化性来源于错误答案的相对概率大小（一辆宝马被误判为卡车的概率大于被误判为萝卜的概率），而泛化性是学习的终极目标
基本构架：学习高温Softmax之后的值

超大数据集下如何训练？

论文给出的方法：用专家模型独立训练容易混淆的数据，在准确率略微提高的基础上，将训练时间从许多周缩短为几天
模型集合是一个针对所有数据的generalist model和许多针对相近数据的专家模型。训练专家模型时，用generalist model的参数进行初始化（这样可以防止过拟合），训练数据一半是相近数据的集合，一半是随机选取的其他数据

（correct for the biased training set by incrementing the logit of the dustbin class by the log of the proportion by which the specialist class is oversampled 应该如何理解？）
分配不同种类到专家模型：将容易混淆的预测进行聚类，从而分配到专家模型
最后对包含专家模型的一组神经网络进行知识蒸馏，提炼成一个同样大小的单一神经网络，方便部署

实际效果

泛化性的检验：在MNIST数据集中，仅靠知识蒸馏，能识别出缺失的某张图片吗？

金句启发

把dropout和分布式学习相结合？

Dropout can be viewed as a way of training an exponentially large ensemble of models that share weights.
FL的特点在于数据不能共享，所以不能在服务器端做模型融合。能不能做一个分布式的知识蒸馏，用专家模型解决异构数据的难点？

【论文考古】知识蒸馏 Distilling the Knowledge in a Neural Network的更多相关文章

【DKNN】Distilling the Knowledge in a Neural Network 第一次提出神经网络的知识蒸馏概念
原文链接小样本学习与智能前沿 . 在这个公众号后台回复"DKNN",即可获得课件电子资源. 文章已经表明,对于将知识从整体模型或高度正则化的大型模型转换为较小的蒸馏模型,蒸馏非常 ...
Distilling the Knowledge in a Neural Network
url: https://arxiv.org/abs/1503.02531 year: NIPS 2014 简介将大模型的泛化能力转移到小模型的一种显而易见的方法是使用由大模型产生的类概率作 ...
1503.02531-Distilling the Knowledge in a Neural Network.md
原来交叉熵还有一个tempature,这个tempature有如下的定义: \[ q_i=\frac{e^{z_i/T}}{\sum_j{e^{z_j/T}}} \] 其中T就是tempature,一 ...
论文阅读笔记十八：ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation(CVPR2016)
论文源址:https://arxiv.org/abs/1606.02147 tensorflow github: https://github.com/kwotsin/TensorFlow-ENet ...
论文阅读笔记六十四: Architectures for deep neural network based acoustic models defined over windowed speech waveforms(INTERSPEECH 2015)
论文原址:https://pdfs.semanticscholar.org/eeb7/c037e6685923c76cafc0a14c5e4b00bcf475.pdf 摘要本文研究了利用深度神经网络 ...
论文翻译：2020_Acoustic Echo Cancellation Based on Recurrent Neural Network
论文地址:https://ieeexplore.ieee.org/abstract/document/9306224 基于RNN的回声消除摘要本文提出了一种基于深度学习的语音分离技术的回声消除方法 ...
论文笔记：Person Re-identification with Deep Similarity-Guided Graph Neural Network
Person Re-identification with Deep Similarity-Guided Graph Neural Network 2018-07-27 17:41:45 Paper: ...
Deeplearning知识蒸馏
Deeplearning知识蒸馏 merge paddleslim.dist.merge(teacher_program, student_program, data_name_map, place, ...
论文解读（GCC）《GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training》
论文信息论文标题:GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training论文作者:Jiezhong Qiu, Qibi ...

随机推荐

css处理工具PostCss
在 Web 应用开发中,CSS 代码的编写是重要的一部分.CSS 规范从最初的 CSS1 到现在的 CSS3,再到 CSS 规范的下一步版本,规范本身一直在不断的发展演化之中.这给开发人员带来了效率上 ...
zip压缩，解压
//引用 System.IO.Compression.FileSystem.dll var basePath = AppDomain.CurrentDomain.BaseDirectory; Syst ...
申请Namecheap的.me 顶级域名以及申请ssl认证--github教育礼包之namecheap
关于教育礼包的取得见另一篇随笔,在那里笔者申请了digital ocean的vps(虚拟专用主机),跟阿里云差不多,不过个人感觉比阿里云便宜好用一点. 有了自己的主机ip,就想到申请域名,方便好记,也 ...
QT之鼠标事件
Widget.h: #ifndef WIDGET_H #define WIDGET_H #include<QWidget> #include<QMouseEvent> clas ...
StringBuilder类练习
1 package cn.itcast.p2.stringbuffer.demo; 2 3 public class StringBuilderTest { 4 public static void ...
Kubernetes：故障排查(Trouble Shooting)方法总结
Blog:博客园个人本文部分内容源自网络,侵删. 概述为了跟踪和发现在Kubernetes集群中运行的容器应用出现的问题,我们常用如下排查方法: 查看Kubernetes对象的当前运行时信息,特 ...
Excel与MySQL数据库的导入与导出
应用场景在许多时候,我们希望数据能够很好地在各个系统之间转移,同时便于非专业人员阅读,如果程序员一点点打字导出的话,不知道要打到什么时候,于是我们便采用日常工作中常用的Excel表格来作为媒介,将数 ...
socket编程(struct报头)网络编程
目录一:socket编程 1.简介 2.参数说明: 3.socket套接字方法 4.socket编程思路: 二:socket套接字编程 1.socket简易版编程 2.通信循环三:通信循环及代码优 ...
vs2012 error: package 'visual c++ package' failed to load
某天打开Visual Studio突然出现了"error: package 'visual c++ package' failed to load",解决方案如下: 1. 依此顺序 ...
HTML 基础1
HTML 超文本标记语言文件后缀html,htm 标签成对出现:开始标签--结束标签元素内容位于开始标签--结束标签之间(可以有空内容) 空元素<a/> 大小写不敏感元素,属性 &l ...

【论文考古】知识蒸馏 Distilling the Knowledge in a Neural Network

论文内容

如何将一堆模型或一个超大模型的知识压缩到一个小模型中，从而更容易进行部署？

超大数据集下如何训练？

实际效果

泛化性的检验：在MNIST数据集中，仅靠知识蒸馏，能识别出缺失的某张图片吗？

金句启发

【论文考古】知识蒸馏 Distilling the Knowledge in a Neural Network的更多相关文章

随机推荐

热门专题