[主动学习--查询策略] 01 Core-set

wuliytTaotao 2024-08-29 03:55:34 原文

符号定义

主动学习每一次迭代选择的样本数量为一个 budget
训练集中初始无标签数据集记为 unlabeled data，\(\bm{u}^0\)
训练集中初始有标签数据集记为 initial labeled data，\(\bm{s}^0\)

查询策略：Core-set

k-Center-Greedy

主动学习每一轮将选择 budget 个样本，core-set 方法将这个过程视为寻找一个当前最佳集合的问题，顺序从 unlabeled data 中选出 budget 个样本加入集合 \(\bm{s}\)，新加入的点 \(u\) 需要满足与集合 \(\bm{s}\) 的距离最大。

一个无标记样本点 \(u\) 与集合 \(\bm{s}\) 的距离为：该点 \(u\) 与集合 \(\bm{s}\) 各个点距离的最小值，论文中距离采用 L2-norm。

注意：同一次迭代选出的无标记样本点有先后之分，计算点 \(u\) 与集合 \(\bm{s}\) 的距离时，同一次迭代已经选出的无标记样本点都看作加入了集合 \(\bm{s}\)，参与距离计算。

Robust k-Center

在 k-Center-Greedy 的基础上，进行修改。通过 k-Center-Greedy，得到无标记数据集中距离 \(s^g\) 最远的距离，设为 \(\delta_{2-OPT}\)，此时所有的样本点都会在包括在这个半径 \(\delta_{2-OPT}\) 内。

计算 Feasible 函数，去找到一组符合 Feasible 函数的解（可以理解是 \(u_i, \omega_{i, j}, \xi_{i, j}\) 这些值），使得 Feasible 内所有约束条件都满足，如果找到了，那么说明此时的半径 \(\delta\) 不会使 outlier 的数量超过自己定的界限 \(\Xi\)，半径 \(\delta\) 可以缩小，即缩小上界 \(ub\)；如果没有找到，那么说明此时的半径 \(\delta\) 会使得 outlier 数量超过界限 \(\Xi\)，需要扩大半径，即扩大下界 \(lb\)。（outlier 为不能被 \(s^0 \cup s^1\) 中元素在半径 \(\delta\) 内覆盖到的样本）

直到最后，\(ub - lb\) 相等或者相差不大，算法停止。

算法详情

Algorithm 2 用 Gurobi 进行 MIP（mixed integer program）优化，运行较慢。Algorithm 1 比 Algorithm 2 简单，速度很快，但论文中效果稍微不如后者。

实现代码

GitHub - ozansener/active_learning_coreset (Source code)
GitHub - google/active-learning/sampling_methods/kcenter_greedy.py
GitHub - dsgissin/DiscriminativeActiveLearning/query_methods.py

提出论文：

Sener, O., & Savarese, S. (2018). Active Learning for Convolutional Neural Networks: A Core-Set Approach. In ICLR (pp. 1–13). Retrieved from http://arxiv.org/abs/1708.00489

被引论文：

[1] Yoo, D., & Kweon, I. S. (2019). Learning Loss for Active Learning. CVPR, 93–102. Retrieved from http://arxiv.org/abs/1905.03677
[2] Sinha, S., Ebrahimi, S., & Darrell, T. (2019). Variational Adversarial Active Learning. ICCV. Retrieved from http://arxiv.org/abs/1904.00370

[主动学习--查询策略] 01 Core-set的更多相关文章

Active Learning主动学习
Active Learning主动学习我们使用一些传统的监督学习方法做分类的时候,往往是训练样本规模越大,分类的效果就越好.但是在现实生活的很多场景中,标记样本的获取是比较困难的,这需要领域内的专家 ...
[Active Learning] 01 A Brief Introduction to Active Learning 主动学习简介
目录什么是主动学习? 主动学习 vs. 被动学习为什么需要主动学习? 主动学习与监督学习.弱监督学习.半监督学习.无监督学习之间的关系主动学习的种类主动学习的一个例子主动学习工具包 ALiP ...
zz2019年主动学习有哪些进展？答案在这三篇论文里
2019年主动学习有哪些进展?答案在这三篇论文里目前推广应用的机器学习方法或模型主要解决分类问题,即给定一组数据(文本.图像.视频等),判断数据类别或将同类数据归类等,训练过程依赖于已标注类别的训练 ...
Cookies 初识 Dotnetspider EF 6.x、EF Core实现dynamic动态查询和EF Core注入多个上下文实例池你知道有什么问题？ EntityFramework Core 运行dotnet ef命令迁移背后本质是什么？（EF Core迁移原理）
Cookies 1.创建HttpCookies Cookie=new HttpCookies("CookieName");2.添加内容Cookie.Values.Add(&qu ...
【主动学习】Variational Adversarial Active Learning
本文记录了博主阅读ICCV2019一篇关于主动学习论文的笔记,第一篇博客,以后持续更新哈哈论文题目:<Variational AdVersarial Active Learning> 原 ...
简要介绍Active Learning(主动学习)思想框架，以及从IF（isolation forest）衍生出来的算法：FBIF（Feedback-Guided Anomaly Discovery）
1. 引言本文所讨论的内容为笔者对外文文献的翻译,并加入了笔者自己的理解和总结,文中涉及到的原始外文论文和相关学习链接我会放在reference里,另外,推荐读者朋友购买 Stephen Boyd的 ...
主动学习——active learning
阅读目录 1. 写在前面 2. 什么是active learning? 3. active learning的基本思想 4. active learning与半监督学习的不同 5. 参考文献 1. ...
调用weka模拟实现 “主动学习“ 算法
主动学习: 主动学习的过程:需要分类器与标记专家进行交互.一个典型的过程: (1)基于少量已标记样本构建模型 (2)从未标记样本中选出信息量最大的样本,交给专家进行标记 (3)将这些样本与之前样本进行 ...
MySQL学习——查询表里的数据
MySQL学习——查询表里的数据摘要:本文主要学习了使用DQL语句查询表里数据的方法. 数据查询语法 select [distinct] 列1 [as '别名1'], ..., 列n [as '别 ...

随机推荐

最小生成树唯一性判断-UESTC1959天才钱vs学霸周
天才钱vs学霸周 Time Limit: 1000 MS Memory Limit: 256 MB Submit Status 有一天,天才钱和学霸周闲的无聊玩起了游戏,游戏内容是这样的,现在 ...
WPF 画一个3D矩形并旋转
具体的代码还是线性代数. 主要是旋转和平移. 这个例子的中模型是在世界原点建立.所以旋转会以自身轴心旋转. 如果不在世界原点建立模型,还想以自身为旋转轴旋转. 则是需要以下步骤: 模型的中心点为V1( ...
Python3 面向对象小练习
定义MySQL类对象有id.host.port三个属性定义工具create_id,在实例化时为每个对象随机生成id,保证id唯一提供两种实例化方式,方式一:用户传入host和port 方式二:从 ...
Happy Birthday! 今天我 1 周岁生日啦！
2018.09.28,我第 1 天分享文章. 2019.09.28,我连续分享的第 365 天. 今天我 1 周岁啦! 生日意味着一个新的开端, 意味着重新把握生活的机会. 新的一岁,从新头像开始愿 ...
Linux---centos7.0安装、配置
参考:https://blog.csdn.net/qq_37057095/article/details/81240450
Vue中slot插槽的使用
一线大厂面试官最喜欢问的15道Java多线程面试题
前言在任何Java面试当中多线程和并发方面的问题都是必不可少的一部分.如果你想获得更多职位,那么你应该准备很多关于多线程的问题. 他们会问面试者很多令人混淆的Java线程问题.面试官只是想确信面试者 ...
常见面试题之*args
这个地方理解即可,只是面试的时候会被问到,单独做了一下知识点的整理,不推荐使用. def self_max(a,b,c,d,e,f,g,h,k,x=1,y=3,z=4): #默认参数 print(a, ...
ubifs开销测试
问题在板子上观察到56M的ubi卷,挂载上ubifs之后,df -h显示可用空间约为50M. 如此计算开销超过了10%,那么这个开销随容量如何变化呢,是固定为10%吗还是有其他规律? 理论计算简单 ...
aspnet boilerplate 随笔二
项目框架介绍: 1:Application: 在service里面事件具体业务,Dto相当于viewmodel实现了验证 2:Core:实现了数据层Model 3:EntityFrameworkC ...