Active Learning 主动学习

2015年09月30日 14:49:29 qrlhl 阅读数 21374 文章标签：算法机器学习更多

本文链接：https://blog.csdn.net/qrlhl/article/details/48828589

最近读了一篇paper，题目是An MRF Model-Based Active Learning Framework for the Spectral-Spatial Classification of Hyperspectral Imagery。（题目这么长我也不想的......）这篇文章主要说了马尔科夫随机场还有active learning (AL)结合的问题。刚开始让给我学习AL的时候我是拒绝的，因为网上根本很少资料好吗？！居然还有一大堆关于如何教育孩子的相关结果......所以我就决定为我们机器学习领域的AL正名，它可不是教育孩子的方法哦~~

PS:如果你把机器学习算法看作自己的孩子，上面那句话当我没说....另外，请收下我的膝盖...

絮絮叨叨一大堆，让我们进入正题吧~~关于AL的定义，似乎一直没有很确切的定论，那么首先让我们看看维基百科是怎么说的：

主动学习是半监督机器学习的一个特例，在主动学习中，一个学习算法可以交互式的询问用户（或其他信息源）来获得在新的数据点所期望的输出。

Active learning is a special case of semi-supervised machine learning in which a learning algorithm is able to interactively query the user (or some other information source) to obtain the desired outputs at new data points.

不知道大家感觉怎么样，反正我感觉这个解释很差强人意。根据维基百科的描述，主动学习算法的一部分训练样本的标签是在算法运行的过程中主动询问用户才得到的。那么我认为这并不算是一种半监督的学习方法。众所周知，半监督学习方法是在不需要人工干预的条件下由算法自行完成对无标记数据的利用，这明显与上面的说明相悖。

鉴于维基百科上给出的定义让我很不满意（画外音：卧槽，你以为你是谁啊！！！），所以我根据论文中对主动学习的描述以及自身的理解从AL适用范围的角度做出下面的定义：

在某些情况下，没有类标签的数据相当丰富而有类标签的数据相当稀少，并且人工对数据进行标记的成本又相当高昂。在这种情况下，我们可以让学习算法主动地提出要对哪些数据进行标注，之后我们要将这些数据送到砖家那里让他们进行标注，再将这些数据加入到训练样本集中对算法进行训练。这一过程叫做主动学习。

简直通俗易懂有木有~~从我给出的定义上我们可以看出来，主动学习最重要的部分就是选择策略，即选择哪些数据提出标注请求。当然，通常我们对这种策略的要求是迭代次数尽量少并且结果尽量更加精确。

另外，由于是学习算法自己对样本提出要求，那么用来训练的样本数量一般是远远低于普通的学习方法的。这个道理很好理解啊，因为只有算法自己最了解自己吗~~就像女人最了解女人一样，所以女生的心思不要去猜，猜也猜不到，说不定还会付出比她真正需要的多很多倍的努力，结果却不一定很完美，这真是个悲伤的故事~~跑题了，跑题了....sorry!!!

下面我们就来建立以下主动学习（AL）的模型吧~~

首先当然是notation啦~我们定义为最开始的训练样本集，当然，这里面的数据都是有标记的。定义为未被标记的候选集，简称备胎。OK,就这两个数据集就可以说明问题了。

我们不妨形象的比喻一下，从前有个白富美叫做学习算法，她的目标就是经历众多的男人从而完善自身。在她出生时，她的父亲算法工程师给她安排了一个男人列表，也就是。可惜，在睡遍，哦不，是经历遍里面的男人后，她还是觉得自己不够完美，用数据量化一下就是她的全局精确度（OA）不够高。既然这样，学习算法小姐就开始在备胎里也就是里寻找下一个男人。一旦有男人满足了学习算法小姐的某种需求（也就是我们后面要讲到的选择策略），那么这个男人就会被挑出来，送往专家那里打上诸如“高富帅”，“欧巴”等等的标签中的一种，然后被收入后宫中。然后这个循环就会这样继续下去，直到学习算法小姐的全局精确度（OA）达到了要求，她就变成了女神喽~~（说起来真是个悲伤的故事...）

从上面的故事可以看出，主动学习这个过程最重要的就是两点：一、由学习算法主动提出对未标记的样本的标记需求；二、选择策略相当重要。另外，我从论文中的数据看出，主动学习过程的收敛也是很快的。

下面我想说说选择策略的问题，论文中提到了三种策略，分别是RS，LC和BT。为了一般化，我在这里只对多分类（也就是有很多种类标签）的情况进行说明。

RS：

即random selected，随机选择。顾名思义，这种方法是在中随机选择未标记的数据。

LC：

，策略公式如上所示。其中y为类标签，m为一实数，是标签的种类。这个式子的意思是寻找中，最难判别类别的数据，也就是说，对于这个，现有的分类器没有足够的自信心。这样的数据应该被人工标注，因为它的信息量很大。

BT：

，策略公式如上所示。其中m+指的是使式子前半部分取最大值的m，后半部分取最大值时，要去除掉这个m。我们不妨设使前半部分最优的m值为m1，后半部分为m2。如果要达到最优化的目标，那这式子前后两部分的结果应该十分相近，也就说明了这个样点很难区分到底是m1和m2哪一类的。这样的数据应该被人工标注，因为它的信息量很大。

选择策略也说完了，关于选择策略可能有些地方说的不清楚，如果大家不满意的话，可以直接去看我最开始提到的那篇论文，说得更加明白。

Active Learning 主动学习的更多相关文章

Active Learning主动学习
Active Learning主动学习我们使用一些传统的监督学习方法做分类的时候,往往是训练样本规模越大,分类的效果就越好.但是在现实生活的很多场景中,标记样本的获取是比较困难的,这需要领域内的专家 ...
[Active Learning] 01 A Brief Introduction to Active Learning 主动学习简介
目录什么是主动学习? 主动学习 vs. 被动学习为什么需要主动学习? 主动学习与监督学习.弱监督学习.半监督学习.无监督学习之间的关系主动学习的种类主动学习的一个例子主动学习工具包 ALiP ...
简要介绍Active Learning(主动学习)思想框架，以及从IF（isolation forest）衍生出来的算法：FBIF（Feedback-Guided Anomaly Discovery）
1. 引言本文所讨论的内容为笔者对外文文献的翻译,并加入了笔者自己的理解和总结,文中涉及到的原始外文论文和相关学习链接我会放在reference里,另外,推荐读者朋友购买 Stephen Boyd的 ...
Active Learning
怎么办?进行Active Learning主动学习 Active Learning是最近又流行起来了的概念,是一种半监督学习方法. 一种典型的例子是:在没有太多数据的情况下,算法通过不断给出在决策边界 ...
主动学习——active learning
阅读目录 1. 写在前面 2. 什么是active learning? 3. active learning的基本思想 4. active learning与半监督学习的不同 5. 参考文献 1. ...
【主动学习】Variational Adversarial Active Learning
本文记录了博主阅读ICCV2019一篇关于主动学习论文的笔记,第一篇博客,以后持续更新哈哈论文题目:<Variational AdVersarial Active Learning> 原 ...
主动学习(Active Learning)
主动学习简介在某些情况下,没有类标签的数据相当丰富而有类标签的数据相当稀少,并且人工对数据进行标记的成本又相当高昂.在这种情况下,我们可以让学习算法主动地提出要对哪些数据进行标注,之后我们要将这些数 ...
Recorder︱深度学习小数据集表现、优化（Active Learning）、标注集网络获取
一.深度学习在小数据集的表现深度学习在小数据集情况下获得好效果,可以从两个角度去解决: 1.降低偏差,图像平移等操作 2.降低方差,dropout.随机梯度下降先来看看深度学习在小数据集上表现的具 ...
[Machine Learning] Active Learning
1. 写在前面在机器学习(Machine learning)领域,监督学习(Supervised learning).非监督学习(Unsupervised learning)以及半监督学习(Semi ...

随机推荐

Mac 下python3 [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed 解决方法
原文:http://blog.yuccn.net/archives/625.html python3.6下使用urllib 的request进行url 请求时候,如果请求的是https,请求可以会出现 ...
mysql5.7 彻底解决sql_mode=only_full_group_by
ONLY_FULL_GROUP_BY是mysql默认的一种sql模式,其作用是约束sql语句:要求select中的所有字段,除复合函数外,全部要出现在group by中. 默认这种模式是有原因的,因为 ...
layer.js错误Uncaught TypeError: i is not a function
最初是要写一个管理后台来着,项目中需要用到弹出层,但是没有前端配合,我一个小PHP需要去写这玩意,怎么办呢?查了一些资料,发现layer对我来说还行,文档写的也比较完全,学习成本不高,就下决心用这个了 ...
You don't have permission to access / on this server. wampserver3.1.0配置外网访问的问题
参考各种wamp教程后外网仍然不能访问服务器,很是头疼网上好多wampserver配置都比较久远,最新版本3.1.0的很少,首先打开httpd.conf文件(这部分较简略,详细可以参考其他wamp配 ...
JS中的map()方法
map定义和方法 map()方法返回一个新数组,数组中的元素为原始数组元素调用函数处理的后值. map()方法按照原始数组元素顺序依次处理元素. 注意: map不会对空数组进行检测 map不会改变原始 ...
linux系统中的一些典型问题汇总
一.文件系统破坏导致系统无法启动:Checking root filesystem/dev/sda6 contains a file system with errors,check forcedAn ...
rally task配置文件
rally task配置文件 Rally本身提供了一些task配置文件,用于提供测试用例中所需的信息包括场景测试中所传入的参数.运行方式是并行还是串行,context等信息.Rally本身提供的tas ...
Python3+RobotFramewok 用户自定义库的开发（四）
在介绍这个之前,可以先看下python的目录Python\Lib\site-packages下面的文件夹,你会发现这个目录下面有DatabaseLibrary.RequestsLibrary.Sele ...
iOS tableHeaderView有默认高度？
在给tableView设置tableHeaderView的时候发现,如果设置tableView.tableHeaderView = [UIView new] , 这里未设置tableView的高度,但 ...
UNITY3D 添加预制的方法
预制文件(Prefabs)的做法我这里需要的图片在hierarchy 视图下新建一个2D object->sprite 然后设置这个sprite的背景为需要的图片新建一个prefabs目录 ...

Active Learning 主动学习

Active Learning 主动学习

Active Learning 主动学习的更多相关文章

随机推荐

热门专题