1.强化学习

1.强化学习
- 1.1 强化学习原理
- 1.2 强化学习与监督学习
2.无监督学习
3.半监督学习
4.对抗学习

强化学习（英语：Reinforcement Learning，简称RL）是机器学习中的一个领域，是除了监督学习和非监督学习之外的第三种基本的机器学习方法。 强调如何基于环境而行动，以取得最大化的预期利益[1]。

与监督学习不同的是，强化学习不需要带标签的输入输出对，同时也无需对非最优解的精确地纠正。

1.1 强化学习原理

强化学习是从动物学习、参数扰动自适应控制等理论发展而来，其基本原理是：

如果模型的某个行为策略导致环境正的奖赏(强化信号)，那么模型以后产生这个行为策略的趋势便会加强。模型的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。

强化学习把学习看作试探评价过程，模型选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号(奖或惩)反馈给模型，模型根据强化信号和环境当前状态再选择下一个动作，选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值，而且影响环境下一时刻的状态及最终的强化值。

1.2 强化学习与监督学习

强化学习不同于连接主义学习中的监督学习，主要表现在强化信号上，强化学习中由环境提供的强化信号是模型对所产生动作的好坏作一种评价(通常为标量信号)，而不是告诉模型如何去产生正确的动作。

由于外部环境提供了很少的信息，模型必须靠自身的经历进行学习。通过这种方式，模型在行动一一评价的环境中获得知识，改进行动方案以适应环境。

强化学习系统学习的目标是动态地调整参数，以达到强化信号最大。因此，在强化学习系统中，需要某种随机单元，使用这种随机单元，模型在可能动作空间中进行搜索并发现正确的动作。

2.无监督学习

无监督学习（英语：Unsupervised Learning，简称UL），是机器学习的一种方法，没有给定事先标记过的训练示例，自动对输入的资料进行分类或分群。无监督学习的主要运用包含：聚类分析（cluster analysis）、关系规则（association rule）、维度缩减（dimensionality reduce）。它是监督式学习和强化学习等策略之外的一种选择。

当然,无监督也有其他的蕴涵, 比如在BERT中,会随机mask掉一些单词,让模型去猜测, 这个单词和替换的mask单词并不是人为添加的标签,所以也是无监督学习

一个常见的无监督学习是数据聚类。

3.半监督学习

半监督学习(英语：Semi-Supervised Learning，简称SSL)是模式识别和机器学习领域研究的重点问题，是监督学习与无监督学习相结合的一种学习方法。

半监督学习只使用少量标注的数据用以训练模型,然后用训练好的模型去预测未标记的数据, 然后又把预测过的数据当作训练集数据,以此类推

当使用半监督学习时，将会要求尽量少的人员来从事工作，同时，又能够带来比较高的准确性，因此，半监督学习正越来越受到人们的重视。

4.对抗学习

生成对抗网络（英语：Generative Adversarial Network，简称GAN）是非监督式学习的一种方法，透过两个神经网络相互博弈的方式进行学习,可以增强模型的鲁棒性,避免输入值小的波动造成输出值大的波动。

生成对抗网络由一个生成网络与一个判别网络组成。

生成网络从潜在空间中随机取样作为输入，其输出结果需要尽量模仿训练集中的真实样本。
判别网络的输入则为真实样本或生成网络的输出，其目的是将生成网络的输出从真实样本中尽可能分辨出来。

而生成网络则要尽可能地欺骗判别网络。两个网络相互对抗、不断调整参数，最终目的是使判别网络无法判断生成网络的输出结果是否真实。

生成对抗网络常用于生成以假乱真的图片。此外，该方法还被用于生成视频、三维物体模型等。

生成对抗网络虽然最开始提出是为了无监督学习，但经证明对半监督学习、完全监督学习、强化学习也有效。

AI之强化学习、无监督学习、半监督学习和对抗学习的更多相关文章

基于PU-Learning的恶意URL检测——半监督学习的思路来进行正例和无标记样本学习
PU learning问题描述给定一个正例文档集合P和一个无标注文档集U(混合文档集),在无标注文档集中同时含有正例文档和反例文档.通过使用P和U建立一个分类器能够辨别U或测试集中的正例文档 [即想 ...
Pytorch_第五篇_深度学习 (DeepLearning) 基础 [1]---监督学习与无监督学习
深度学习 (DeepLearning) 基础 [1]---监督学习与无监督学习 Introduce 学习了Pytorch基础之后,在利用Pytorch搭建各种神经网络模型解决问题之前,我们需要了解深度 ...
【转载】 “强化学习之父”萨顿：预测学习马上要火，AI将帮我们理解人类意识
原文地址: https://yq.aliyun.com/articles/400366 本文来自AI新媒体量子位(QbitAI) ------------------------------- ...
虚拟对抗训练（VAT）：一种用于监督学习和半监督学习的正则化方法
正则化虚拟对抗训练是一种正则化方法,正则化在深度学习中是防止过拟合的一种方法.通常训练样本是有限的,而对于深度学习来说,搭设的深度网络是可以最大限度地拟合训练样本的分布的,从而导致模型与训练样本分布 ...
【论文解读】【半监督学习】【Google教你水论文】A Simple Semi-Supervised Learning Framework for Object Detection
题记:最近在做LLL(Life Long Learning),接触到了SSL(Semi-Supervised Learning)正好读到了谷歌今年的论文,也是比较有点开创性的,浅显易懂,对比实验丰富, ...
利用DP-SSL对少量的标记样本进行有效的半监督学习
作者 | Doreen 01 介绍深度学习之所以能在图像分类.自然语言处理等方面取得巨大成功的原因在于大量的训练数据得到了高质量的标注. 然而在一些极其复杂的场景(例如:无人驾驶)中会产生海量的数据 ...
sklearn半监督学习
标签: 半监督学习作者:炼己者欢迎大家访问我的简书以及我的博客本博客所有内容以学习.研究和分享为主,如需转载,请联系本人,标明作者和出处,并且是非商业用途,谢谢! --- 摘要:半监督学习 ...
python大战机器学习——半监督学习
半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数.它是一类可以自动地利用未标记的数据来提升学习性能的算法 1.生成式半监督学习优点:方法简单,容易实现.通常在有标记数据极少时, ...
【半监督学习】MixMatch、UDA、ReMixMatch、FixMatch
半监督学习(Semi-Supervised Learning,SSL)的 SOTA 一次次被 Google 刷新,从 MixMatch 开始,到同期的 UDA.ReMixMatch,再到 2020 年 ...

随机推荐

PerfView专题 (第四篇)：如何寻找 C# 中程序集泄漏
一:背景前两篇我们都聊到了非托管内存泄漏,一个是 HeapAlloc ,一个是 VirtualAlloc,除了这两种泄漏之外还存在其他渠道的内存泄漏,比如程序集泄漏,这一篇我们就来聊一聊. 二: 程 ...
[游记]CSP 2021 J/S
这一次,也许是我的OI生涯的转折点了--能过,学习OI的时间就不会减少:但不能过,就会减少学习OI的时间-- 上午(S组) 6:00起床.去吃早餐,结果因为边喝粥边喝牛奶导致肚子疼.(我在这里劝大家, ...
【NOI P模拟赛】奶油蛋糕塔（状压 DP）
题面数据范围 1 ≤ n ≤ 5 × 1 0 5 1\leq n\leq5\times10^5 1≤n≤5×105 . 题解 n ≤ 20 n\leq 20 n≤20 的状压应该都会吧,状态记录已经 ...
[HNOI2016]最小公倍数（可回退并查集，回滚莫队）
题面题目链接题目描述给定一张 N N N 个顶点 M M M 条边的无向图(顶点编号为 1 , 2 , - , n 1,2,\ldots,n 1,2,-,n),每条边上带有权值.所有权值都可以分 ...
[CISCN2019 华北赛区 Day1 Web2]ikun-1|python反序列化
考点:JWT身份伪造.python pickle反序列化.逻辑漏洞 1.打开之后首页界面直接看到了提示信息,信息如下: 2.那就随便注册一个账号进行登录,然后购买lv6,但是未发现lv6,那就查看下一 ...
Docker问题："docker build" requires exactly 1 argument.
今天在搭建Docker私有仓库的时候.提示错误:"docker build" requires exactly 1 argument. 原因是因为(少了一个 '.' , '.' 代 ...
解决前端开发报错（SyntaxError: missing : after property id）的问题
当使用对象初始化语法创建对象的时候,需要使用半角冒号 (:) 将属性键与属性值隔开. 1 var obj = { propertyKey: 'value' }; 冒号与等号下面的代码会运行失败,原因 ...
Windows 10 Technical Preview 屏幕亮度
下载了 Windows 10 Technical Preview 安装好之后都挺正常的,就是显卡驱动没有, 联上网络, 自动找到驱动,看起来一切都挺好的. 但是重启之后,屏幕就变得特别暗了, 亮 ...
SpringBoot源码学习1——SpringBoot自动装配源码解析+Spring如何处理配置类的
系列文章目录和关于我一丶什么是SpringBoot自动装配 SpringBoot通过SPI的机制,在我们程序员引入一些starter之后,扫描外部引用 jar 包中的META-INF/spring. ...
【C++】GoogleTest入门指南
参考: GoogleTest官网基本概念要使用GoogleTest,需要包含header gtest/gtest.h 断言Assertions 断言是检查条件是否为真的语句,其结果可能是成功或失败 ...

AI之强化学习、无监督学习、半监督学习和对抗学习