motivation

Active Learning 存在的重要问题：现实数据极度不平衡，有许多类别很少见（rare），又有很多类别是冗余的（redundancy），又有些数据是 OOD 的（out-of-distribution）。

1. 不同的次模函数

提出三种次模函数的变体：

次模条件增长（Submodular Conditional Gain, SCG），越大说明差异越大：

$$f(\mathcal{A}|\mathcal{P})=f(\mathcal{A}\cup\mathcal{P})-f(\mathcal{P})$$

次模交互信息（Submodular Mutual Information, SMI），越大说明相似性越大：

$$I_f(\mathcal{A};\;\mathcal{Q})=f(\mathcal{A})+f(\mathcal{Q})-f(\mathcal{A}\cup\mathcal{Q})$$

次模条件交互信息（Submodular Conditional Mutual Information, SCMI），上面二者的结合：

$$I_f(\mathcal{A};\;\mathcal{Q}|\mathcal{P})=f(\mathcal{A}\cup\mathcal{P})+f(\mathcal{Q}\cup\mathcal{P})-f(\mathcal{A}\cup\mathcal{Q}\cup\mathcal{P})-f(\mathcal{P})$$

其中 SCMI 可以通过设置不同的 $\mathcal{Q}$ 和 $\mathcal{P}$ 得到另外两种次模函数（算上标准次模函数的话就是三种），对应关系和适用场景如下：

图 1 各种SIM 函数

2. 次模函数的实例化问题

次模信息度量（submodular information measures, SIM）,一般有三种实例化的问题：

设施选址问题（Facility Location）
图切问题（Graph Cut）
对数行列式问题（Log Determinant）

Analysis

1. 标准 Active Learning

见图 1 的第一行，此时问题退化：AL 的检索样本过程只考虑多样性（不考虑检索的数据是否冗余、OOD，也不偏向 rare 的样本）。

2. 样本不平衡

主要指某些类别出现很少的情况，例如医疗影像病灶判断，真正 positive 的数据是很少的，因此可以使用 SMI 次模函数（图 1 第二行），在保证多样性的基础上，使得 AL 检索的样本与 $\mathcal{Q}$（有病灶的影像）尽可能接近。

3. 样本冗余

虽然次模函数本身保证了多样性，但是在 batch active learning 中，多样性的保证指存在与一个 batch 中。因此可以使用 SCG 次模函数（图 1 第三行），提供额外的多样性正则信息。

4. OOD 数据

未标注的数据容易出现 OOD 的数据，例如在手写数字识别的任务中，未标注的数据集中出现了手写字母的图片（不是任务目标也无法提供有效信息），是应当避免的。因此可以使用 SCMI 次模函数（图 1 第四行），使得 AL 检索的样本与 in-domin 的数据尽可能相似，与 out-of-domin 的数据尽可能远离，同时保证多样性。

5. 混合场景

当未标注数据出现了多种情景时也可以进行组合（例如即出现了冗余的数据，也出现了 OOD 的数据）：

图 2 混合场景

同时，类似于在线学习（online learning），未标注的数据集有可能是在不断产生中的，因此一开始数据集未出现上述场景的时候可以使用标准次模函数，出现了上述场景之后（例如某次数据收集之后出现了大量 OOD 样本）了可以再改用 SIM 的变体。

论文笔记 - SIMILAR: Submodular Information Measures Based Active Learning In Realistic Scenarios的更多相关文章

论文笔记 - PRISM: A Rich Class of Parameterized Submodular Information Measures for Guided Subset Selection
Motivation 与 Active Learning 类似,Target Learning 致力于挑选外卖更"感兴趣"的数据,即人为为更重要的数据添加 bias.例如我们当前 ...
论文笔记：Visual Object Tracking based on Adaptive Siamese and Motion Estimation Network
Visual Object Tracking based on Adaptive Siamese and Motion Estimation 本文提出一种利用上一帧目标位置坐标,在本帧中找出目标可能出 ...
论文笔记 - GRAD-MATCH: A Gradient Matching Based Data Subset Selection For Efficient Learning
Analysis Coreset 是带有权重的数据子集,目的是在某个方面模拟完整数据的表现(例如损失函数的梯度,既可以是在训练数据上的损失,也可以是在验证数据上的损失): 给出优化目标的定义: $w^ ...
论文笔记之：Large Scale Distributed Semi-Supervised Learning Using Streaming Approximation
Large Scale Distributed Semi-Supervised Learning Using Streaming Approximation Google 2016.10.06 官方 ...
论文笔记系列-Neural Architecture Search With Reinforcement Learning
摘要神经网络在多个领域都取得了不错的成绩,但是神经网络的合理设计却是比较困难的.在本篇论文中,作者使用递归网络去省城神经网络的模型描述,并且使用增强学习训练RNN,以使得生成得到的模型在验证集上 ...
论文笔记：Deep Attentive Tracking via Reciprocative Learning
Deep Attentive Tracking via Reciprocative Learning NIPS18_tracking Type:Tracking-By-Detection 本篇论文地主 ...
论文笔记：（CVPR2017）PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation
目录一. 存在的问题二. 解决的方案 1.点云特征 2.解决方法三. 网络结构四. 理论证明五.实验效果 1.应用 (1)分类: ModelNet40数据集 (2)部件分割:ShapeNet ...
论文笔记（6）：Weakly-and Semi-Supervised Learning of a Deep Convolutional Network for Semantic Image Segmentation
这篇文章的主要贡献点在于: 1.实验证明仅仅利用图像整体的弱标签很难训练出很好的分割模型: 2.可以利用bounding box来进行训练,并且得到了较好的结果,这样可以代替用pixel-level训 ...
论文笔记：Learning how to Active Learn: A Deep Reinforcement Learning Approach
Learning how to Active Learn: A Deep Reinforcement Learning Approach 2018-03-11 12:56:04 1. Introduc ...

随机推荐

Mac设置外网访问本地项目
> 官网地址:https://ngrok.com/download 步骤(官网基本已经说明了步骤,但还不完善,以下为亲测步骤): 下载并注册账号打开终端,进入ngrok.zip所在文件夹(方法 ...
k8s-Pod调度
Deployment全自动调度 NodeSelector定向调度 NodeAffinity亲和性 PodAffinity-Pod亲和性与互斥性污点和容忍度 DaemonSet Job CronJob ...
第八十四篇：Vue购物车(五) 商品数量的增减
好家伙, 1.商品数量的增减我们把商品的数量增减独立出来,写成一个独立的组件Counter <template> <div class="number-container ...
losf命令详解
一.概念:lsof全名list opened files,也就是列举系统中已经被打开的文件,进程打开的端口(TCP.UDP).linux环境中,任何事物都是文件,设备是文件,目录是文件,甚至socke ...
Django 之路由层
一.Django 请求周期生命流程图首先,用户在浏览器中输入URL,发送一个GET 或 POST 方法的request 请求. Django 中封装了socket 的WSGI 服务器,监听端口接受这 ...
如何调试 Docker
开启 Debug 模式在 dockerd 配置文件 daemon.json(默认位于 /etc/docker/)中添加 { "debug": true } 重启守护进程. $ s ...
容器监控：cAdvisor
CAdvisor是Google开源的一款用于展示和分析容器运行状态的可视化工具.通过在主机上运行CAdvisor用户可以轻松的获取到当前主机上容器的运行统计信息,并以图表的形式向用户展示. 在本地运行 ...
Alertmanager结合Slack使用
Slack作为一款即时通讯工具,协作沟通主要通过Channel(平台)来完成,用户可以在企业中根据用途添加多个Channel,并且通过Channel来集成各种第三方工具. 例如,我们可以为监控建立一个 ...
C# 使用原生 System.IO.Compression 实现 zip 的压缩与解压
zip 是一个非常常见的压缩包格式,本文主要用于说明如何使用代码文件或文件夹压缩为 zip压缩包及其解压操作, 我们采用的是微软官方的实现,所以也不需要安装第三方的组件包. 使用的时候记得 usi ...
RabbitMQ原理和架构图解(附6大工作模式)
为什么要使用RabbitMQ? 1.解耦系统A在代码中直接调用系统B和系统C的代码,如果将来D系统接入,系统A还需要修改代码,过于麻烦. 2.异步将消息写入消息队列,非必要的业务逻辑以异步的方式运 ...

论文笔记 - SIMILAR: Submodular Information Measures Based Active Learning In Realistic Scenarios