导言

传统的神经网络都是基于固定的数据集进行训练学习的，一旦有新的，不同分布的数据进来，一般而言需要重新训练整个网络，这样费时费力，而且在实际应用场景中也不适用，所以增量学习应运而生。

增量学习主要旨在解决灾难性遗忘(Catastrophic-forgetting) 问题,本文将要介绍的《iCaRL： Incremental Classifier and Representation Learning》一文中对增量学习算法提出了如下三个要求：

a) 当新的类别在不同时间出现，它都是可训练的

b) 任何时间都在已经学习过的所有类别中有很好的分类效果

c) 计算能力与内存应该随着类别数的增加固定或者缓慢增长

有条件的可以去油管听听原作者对这篇论文的讲座：Christoph Lampert: iCaRL- incremental Classifier and Representation Learning

简要概括

本文提出的方法只需使用一部分旧数据而非全部旧数据就能同时训练得到分类器和数据特征从而实现增量学习。

大致流程如下：

1.使用特征提取器\(φ(·)\)对新旧数据(旧数据只取一部分)提取特征向量，并计算出各自的平均特征向量
2.通过最近均值分类算法(Nearest-Mean-of-Examplars) 计算出新旧数据的预测值
3.在上面得到的预测值代入如下loss函数进行优化，最终得到模型。

本文的重点在上面三个步骤中用黑体标出，下面对这三个进行具体介绍

1.平均特征向量

这个其实很好理解，就是把某一类的图像的特征向量都计算出来，然后求均值，注意本文对于旧数据，只需要计算一部分的数据的特征向量。

什么意思呢？

假设我们现在已经训练了\(s-1\)个类别的数据了，记为\(X^1,...,X^{s-1}\)，因为通常内存资源有限，所以假设从每个旧数据类中选出一定数量的数据组成examplar sets，记为\(P^1,...,P^{s-1}\)。

然后现在又得到了\(t-s\)个新数据，记为\(X^s,...,X^t\)。同理我们也需要提取出一部分数据，记为\(P^s,...,P^t\)

如何选取数据可参见文末算法示意图。

有了新旧数据后，我们可以先将它们合并，记为\(P=\{P^1,...,P^t\}\)，然后就可以使用特征提取器\(φ(·)\)计算每个类别的平均特征向量了。

2.最近均值分类算法(Nearest-Mean-of-Examplars classification)

算法第七行在文首给出的讲座中，使用的是\(\|φ(x)-μ_y\|^2\)。 emm... anyway，这不是重点，pass。

3.优化loss函数

机器学习归根到底其实就是优化，那么loss函数如何设定才能解决灾难性遗忘的问题呢？

本文的损失函数定义如下，由新数据分类loss和旧数据蒸馏loss组成。下面公式中的\(g_y(x_i)\)表示分类器，即\(g_y(x)=\frac{1}{1+e^{-{w_y^Tφ(x)}}}\)。

其实该想法其实是基于LWF这篇论文，LWF的loss函数如下：

结果

本文最终结果如下图示，将iCaRL,fixed representation(feature extraction), fine-tuning和LWF进行了比较，可以看到iCaRL表现最好。

讨论

需要说明的是iCaRL和LWF最大的不同点有如下：

iCaRL在训练新数据时仍然需要使用到旧数据，而LWF完全不用。所以这也就是为什么LWF表现没有iCaRL好的原因，因为随着新数据的不断加入，LWF逐渐忘记了之前的数据特征。
iCaRL提取特征的部分是固定的，只需要修改最后分类器的权重矩阵。而LWF是训练整个网络(下图给出了LWF和fine-tuning以及feature extraction的示意图)。

选取数据算法示意图

论文笔记系列-iCaRL： Incremental Classifier and Representation Learning的更多相关文章

论文笔记系列-Neural Architecture Search With Reinforcement Learning
摘要神经网络在多个领域都取得了不错的成绩,但是神经网络的合理设计却是比较困难的.在本篇论文中,作者使用递归网络去省城神经网络的模型描述,并且使用增强学习训练RNN,以使得生成得到的模型在验证集上 ...
论文笔记系列-Neural Network Search ：A Survey
论文笔记系列-Neural Network Search :A Survey 论文笔记 NAS automl survey review reinforcement learning Bayesia ...
论文笔记系列-Auto-DeepLab:Hierarchical Neural Architecture Search for Semantic Image Segmentation
Pytorch实现代码:https://github.com/MenghaoGuo/AutoDeeplab 创新点 cell-level and network-level search 以往的NAS ...
【论文笔记系列】AutoML：A Survey of State-of-the-art （下）
[论文笔记系列]AutoML:A Survey of State-of-the-art (上) 上一篇文章介绍了Data preparation,Feature Engineering,Model S ...
论文解读（ N2N）《Node Representation Learning in Graph via Node-to-Neighbourhood Mutual Information Maximization》
论文信息论文标题:Node Representation Learning in Graph via Node-to-Neighbourhood Mutual Information Maximiz ...
论文解读（GMI）《Graph Representation Learning via Graphical Mutual Information Maximization》2
Paper Information 论文作者:Zhen Peng.Wenbing Huang.Minnan Luo.Q. Zheng.Yu Rong.Tingyang Xu.Junzhou Huang ...
论文解读（GMI）《Graph Representation Learning via Graphical Mutual Information Maximization》
Paper Information 论文作者:Zhen Peng.Wenbing Huang.Minnan Luo.Q. Zheng.Yu Rong.Tingyang Xu.Junzhou Huang ...
论文解读（MVGRL）Contrastive Multi-View Representation Learning on Graphs
Paper Information 论文标题:Contrastive Multi-View Representation Learning on Graphs论文作者:Kaveh Hassani .A ...
论文解读（GRCCA）《 Graph Representation Learning via Contrasting Cluster Assignments》
论文信息论文标题:Graph Representation Learning via Contrasting Cluster Assignments论文作者:Chun-Yang Zhang, Hon ...

随机推荐

HTTP协议相关原理
HTTP 的全称是 Hyper Text Transfer Protocol,中文名叫做超文本传输协议 HTTP协议是用于从网络传输超文本数据到本地浏览器的传送协议,它能保证传送高效而准确地传送超文本 ...
mysql如何从全备文件中恢复单个库或者单个表
mysql如何从全备文件中恢复单个库或者单个表在mysql dba的日常实际工作中,一个实例下有多个库,而我们常见的备份就是全库备份.那么问题就来了,如果需要恢复单个库或者单个表,怎么办了,网上有很 ...
bzoj4034 线段树+dfs序
https://www.lydsy.com/JudgeOnline/problem.php?id=4034 有一棵点数为 N 的树,以点 1 为根,且树点有边权.然后有 M 个操作,分为三种: 操作 ...
16.Linux-LCD驱动(详解)
在上一节LCD层次分析中,得出写个LCD驱动入口函数,需要以下4步: 1) 分配一个fb_info结构体: framebuffer_alloc(); 2) 设置fb_info 3) 设置硬件相关的操作 ...
Centos 6\7下yum安装rstudio-server\shiny-server
rstudio-server安装 #wget https://download2.rstudio.org/rstudio-server-rhel-1.1.463-x86_64.rpm #yum ins ...
Hadoop记录-hive merge小文件
1. Map输入合并小文件对应参数:set mapred.max.split.size=256000000; #每个Map最大输入大小set mapred.min.split.size.per.no ...
Linux记录-sysctl.conf优化方案
Sysctl是一个允许您改变正在运行中的Linux系统的接口.它包含一些 TCP/IP 堆栈和虚拟内存系统的高级选项, 这可以让有经验的管理员提高引人注目的系统性能.用sysctl可以读取设置超过五百 ...
阅读：重新介绍 JavaScript（JS教程）
这篇文章是记录自己阅读重新介绍 JavaScript(JS 教程)的记录和个人体会在线调试代码工具:https://codepen.io/pen 引言分歧根源:名字Javascript和Java有 ...
介绍3款Markdown编辑器
为什么写此篇自从CSDN的博客有了Markdown后,慢慢的了解并学会了用Markdown语法写博客.但CSDN博客是在浏览器中使用,于是一直寻找离线的Markdown编辑器. 网上先是找到了M ...
使用JAVA数组实现顺序栈
1,首先总结一下线性表(分为顺序表和链接表,[即顺序存储结构和链式存储结构的区别])和栈(顺序栈和链接栈)还有队列(顺序队列和链接队列)的JAVA类库中的实现: java.util.ArrayList ...

论文笔记系列-iCaRL： Incremental Classifier and Representation Learning

导言