Sparse Reward

推荐资料

强化学习算法在被引入深度神经网络后，对大量样本的需求更加明显。如果智能体在与环境的交互过程中没有获得奖励，那么该样本在基于值函数和基于策略梯度的损失中的贡献会很小。

针对解决稀疏奖励问题的研究主要包括：¹

Reward Shaping：奖励设计与学习
经验回放机制
探索与利用
多目标学习和辅助任务

1. Reward Shaping

人为设计的 “密集”奖励。

例如，在机械臂“开门”的任务中，原始的稀疏奖励设定为：若机械臂把门打开，则给予“＋１”奖励，其余情况下均给予“０”奖励。然而，由于任务的复杂性，机械臂从随机策略开始，很难通过自身探索获得奖励。为了简化训练过程，可以使用人为设计的奖励：１)在机械臂未碰到门把手时，将机械臂与门把手距离的倒数作为奖励；２)当机械臂接触门把手时，给予“＋0.１”奖励；３)当机械臂转动门把手时，给予“＋０.５”奖励；４)当机械臂完成开门时，给予“＋１”奖励。这样，通过人为设计的密集奖励，可以引导机械臂完成开门的操作，简化训练过程。

2. 逆向强化学习

针对人为设计奖励中存在的问题，Ng等²提出了从最优交互序列中学习奖励函数的思路，此类方法称为”逆强化学习”。

3. 探索与利用（好奇法）：

在序列决策中，智能体可能需要牺牲当前利益来选择非最优动作，期望能够获得更大的长期回报。

在 DRL领域中使用的探索与利用方法主要包括两类：基于计数的方法和基于内在激励的方法。其目的是构造虚拟奖励，用于和真实奖励函数共同学习。由于真实的奖励是稀疏的，使用虚拟奖励可以加快学习的进程。

ICM³（逆环境模型）—— 改进的基于内在激励的方法

Network 1：预测的状态S与实际状态S差别越大，回报r越大，鼓励冒险
Network 2：输入 $S_t$ 和 $S_{t+1}$ ，预测动作 $a_t$ ，与真实动作差别大时，表示无关紧要的状态。
ICM 通过学习可以在特征空间中去除与预测动作无关的状态特征，在特征空间中构建环境模型可以去除环境噪声。

4. 多目标学习——层次强化学习

智能体可以从已经到达的位置来获得奖励。在训练中使用虚拟目标替代原始目标，使智能体即使在训练初期也能很快获得奖励，极大地加速了学习过程。
将一个单一目标，拆解为多个阶段的多层级的目标。

5. 辅助任务

在稀疏奖励情况下，当原始任务难以完成时，往往可以通过设置辅助任务的方法加速学习和训练。

Curriculum Learning，“课程式”强化学习：

当完成原始任务较为困难时，奖励的获取是困难的。此时，智能体可以先从简单的、相关的任务开始学习，然后不断增加任务的难度，逐步学习更加复杂的任务。

直接添加辅助任务：第二类方法是直接在原任务的基础上添加并行的辅助任务，原任务和辅助任务共同学习。

参考文献

[1] 杨惟轶,白辰甲,蔡超,赵英男,刘鹏.深度强化学习中稀疏奖励问题研究综述[J].计算机科学,2020,47(03):182-191.

深度强化学习中稀疏奖励问题Sparse Reward的更多相关文章

(转) 深度强化学习综述：从AlphaGo背后的力量到学习资源分享（附论文）
本文转自:http://mp.weixin.qq.com/s/aAHbybdbs_GtY8OyU6h5WA 专题 | 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文) 原创 201 ...
5G网络的深度强化学习：联合波束成形，功率控制和干扰协调
摘要:第五代无线通信(5G)支持大幅增加流量和数据速率,并提高语音呼叫的可靠性.在5G无线网络中共同优化波束成形,功率控制和干扰协调以增强最终用户的通信性能是一项重大挑战.在本文中,我们制定波束形成, ...
【资料总结】| Deep Reinforcement Learning 深度强化学习
在机器学习中,我们经常会分类为有监督学习和无监督学习,但是尝尝会忽略一个重要的分支,强化学习.有监督学习和无监督学习非常好去区分,学习的目标,有无标签等都是区分标准.如果说监督学习的目标是预测,那么强 ...
一文读懂深度强化学习算法 A3C （Actor-Critic Algorithm）
一文读懂深度强化学习算法 A3C (Actor-Critic Algorithm) 2017-12-25 16:29:19 对于 A3C 算法感觉自己总是一知半解,现将其梳理一下,记录在此,也 ...
深度强化学习资料（视频+PPT+PDF下载）
https://blog.csdn.net/Mbx8X9u/article/details/80780459 课程主页:http://rll.berkeley.edu/deeprlcourse/ 所有 ...
深度强化学习day01初探强化学习
深度强化学习基本概念强化学习强化学习(Reinforcement Learning)是机器学习的一个重要的分支,主要用来解决连续决策的问题.强化学习可以在复杂的.不确定的环境中学习如何实现我们设 ...
深度强化学习（DQN-Deep Q Network）之应用-Flappy Bird
深度强化学习(DQN-Deep Q Network)之应用-Flappy Bird 本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-fu ...
深度强化学习（Deep Reinforcement Learning）入门：RL base & DQN-DDPG-A3C introduction
转自https://zhuanlan.zhihu.com/p/25239682 过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题.子曰:温故而知新,在进一步深入研究和应 ...
深度强化学习（DRL）专栏（一）
目录: 1. 引言专栏知识结构从AlphaGo看深度强化学习 2. 强化学习基础知识强化学习问题马尔科夫决策过程最优价值函数和贝尔曼方程 3. 有模型的强化学习方法价值迭代策略迭代 4. ...

随机推荐

NOIP模拟测试17「入阵曲·将军令·星空」
入阵曲题解应用了一种美妙移项思想, 我们先考虑在一维上的做法维护前缀和$(sum[r]-sum[l-1])\%k==0$可以转化为 $sum[r]\% k==sum[l-1]\%k$开个桶维护一 ...
【odoo14】【开发侧】权限配置
欢迎转载,但需标注出处,谢谢! 说明: 本文面向开发人员,普通用户可参考[odoo14][用户侧]权限配置.文章结构与用户侧一致. 目录一. odoo中的对象二. 权限控制 2.1 实现原理 2. ...
在vue项目中使用scss，以及vscode适配scss语法（解决使用scss语法编辑器报错）
项目搭建好之后安装sass 依赖包 npm install --save-dev sass-loader //sass-loader依赖于node-sass npm install --save-d ...
Vue（9）购物车练习
购物车案例经过一系列的学习,我们这里来练习一个购物车的案例需求:使用vue写一个表单页面,页面上有购买的数量,点击按钮+或者-,可以增加或减少购物车的数量,数量最少不得少于0,点击移除按钮,会 ...
Java中对象调用方法的顺序
Java虚拟机会预先为加载到内存中的每个类维护一个方法表(Method Table),其中列出了所有类中所有方法的签名. 现在有2个类A和B,其中,B是A的子类,和一个B类型的对象x,当调用x.f(a ...
二、RabbitMQ 进阶特性及使用场景 [.NET]
前言经过上一篇的介绍,相信大家对RabbitMQ 的各种概念有了一定的了解,及如何使用RabbitMQ.Client 去发送和消费消息. 特性及使用场景 1. TTL 过期时间 TTL可以用来指定q ...
4、git和gitlab的配置(2)
4.10.使用 gitlib 模拟开发流程: 1.项目经理指定开发计划: project01 需求开发者完成日期 v1.0 首页 dev01 4.28 支付 dev02 4.30 2.rpm(项目 ...
42、mysql数据库（函数）
1.mysql中提供的内置函数: (1)数学函数: 1)ROUND(x,y): 返回参数x的四舍五入的有y位小数的值.x不可转换时返回0,x为null时返回null. 2)RAND(): 返回0到1内 ...
centos 8.3系统调优参数配置
临时设置最大虚拟内存 [root@Sonnarqube-dev ~]# sysctl -w vm.max_map_count=262144 执行结果 vm.max_map_count = 26214 ...
万字长文：SpringCloud gateway入门学习&实践
官方文档:https://cloud.spring.io/spring-cloud-static/spring-cloud-gateway/2.2.1.RELEASE/reference/html/# ...

深度强化学习中稀疏奖励问题Sparse Reward