强化学习 eligibility trace

2024-11-03

强化学习（八）：Eligibility Trace

Eligibility Traces Eligibility Traces是强化学习中很基本很重要的一个概念.几乎所有的TD算法可以结合eligibility traces获得更一般化的算法,并且通常会更有效率. Eligibility traces可以将TD和Monte Carlo算法统一起来.之前我们见过n-step方法将二者统一起来,eligibility traces 优于n-step的主要地方在于计算非常有效率,其只需要一个trace向量,而不需要储存n个特征向量.另外,eligibi

强化学习读书笔记 - 12 - 资格痕迹(Eligibility Traces)

强化学习读书笔记 - 12 - 资格痕迹(Eligibility Traces) 学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 参照 Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 强化学习

强化学习读书笔记 - 13 - 策略梯度方法(Policy Gradient Methods)

强化学习读书笔记 - 13 - 策略梯度方法(Policy Gradient Methods) 学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 参照 Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 20

adaptive heuristic critic 自适应启发评价强化学习

https://www.cs.cmu.edu/afs/cs/project/jair/pub/volume4/kaelbling96a-html/node24.html [旧知-新知强化学习:对新知.旧知的综合] The adaptive heuristic critic algorithm is an adaptive version of policy iteration [9] in which the value-function computation is no longer

【强化学习RL】model-free的prediction和control —— MC，TD(λ)，SARSA，Q-learning等

本系列强化学习内容来源自对David Silver课程的学习课程链接http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html 本文介绍了在model-free情况下(即不知道回报Rs和状态转移矩阵Pss'),如何进行prediction,即预测当前policy的state-value function v(s)从而得知此policy的好坏,和进行control,即找出最优policy(即求出q*(s, a),这样π*(a|s)就可以立刻

强化学习（五）用时序差分法（TD）求解

在强化学习(四)用蒙特卡罗法(MC)求解中,我们讲到了使用蒙特卡罗法来求解强化学习问题的方法,虽然蒙特卡罗法很灵活,不需要环境的状态转化概率模型,但是它需要所有的采样序列都是经历完整的状态序列.如果我们没有完整的状态序列,那么就无法使用蒙特卡罗法求解了.本文我们就来讨论可以不使用完整状态序列求解强化学习问题的方法:时序差分(Temporal-Difference, TD). 时序差分这一篇对应Sutton书的第六章部分和UCL强化学习课程的第四讲部分,第五讲部分. 1. 时序差分TD简介时序差

强化学习4-时序差分TD

之前讲到强化学习在不基于模型时可以用蒙特卡罗方法求解,但是蒙特卡罗方法需要在每次采样时生产完整序列,而在现实中,我们很可能无法生成完整序列,那么又该如何解决这类强化学习问题呢? 由贝尔曼方程 vπ(s)=Eπ(Rt+1+γRt+2+γ2Rt+3+...|St=s) 推导可得 vπ(s)=Eπ(Rt+1+γvπ(st+1)|st=s),由此给我们的启发是,可以拿下一个状态的价值函数来表示当前状态的价值函数,即t+1时刻表示t时刻,这就引入了时序差分. 这样只需要两个连续的状态,就可以尝试解决强化问

【转载】强化学习（五）用时序差分法（TD）求解

原文地址: https://www.cnblogs.com/pinard/p/9529828.html -------------------------------------------------------------------------------------------------- 在强化学习(四)用蒙特卡罗法(MC)求解中,我们讲到了使用蒙特卡罗法来求解强化学习问题的方法,虽然蒙特卡罗法很灵活,不需要环境的状态转化概率模型,但是它需要所有的采样序列都是经历完整的状态序列.如果

强化学习之四：基于策略的Agents (Policy-based Agents)

本文是对Arthur Juliani在Medium平台发布的强化学习系列教程的个人中文翻译,该翻译是基于个人分享知识的目的进行的,欢迎交流!(This article is my personal translation for the tutorial written and posted by Arthur Juliani on Medium.com. And my work is completely based on aim of sharing knowledges and welco

【整理】强化学习与MDP

[入门,来自wiki] 强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益.其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为.这个方法具有普适性,因此在其他许多领域都有研究,例如博弈论.控制论.运筹学.信息论.模拟优化方法.多主体系统学习.群体智能.统计学以及遗传算法.在运筹学和控制理论研究的语境下,强化学习被称作“近似动态规划”(approximate dynamic program

强化学习之免模型学习（model-free based learning）

强化学习之免模型学习(model-free based learning) ------ 蒙特卡罗强化学习与时序查分学习 ------ 部分节选自周志华老师的教材<机器学习> 由于现实世界当中,很难获得环境的转移概率,奖赏函数等等,甚至很难知道有多少个状态.倘若学习算法是不依赖于环境建模,则称为“免模型学习(model-free learning)”,这比有模型学习要难得多. 1. 蒙特卡罗强化学习: 在免模型学习的情况下,策略迭代算法会遇到几个问题: 首先,是策略无法评估,因为无法做全

(译) 强化学习第一部分：Q-Learning 以及相关探索

(译) 强化学习第一部分:Q-Learning 以及相关探索 Q-Learning review: Q-Learning 的基础要点是:有一个关于环境状态S的表达式,这些状态中可能的动作 a,然后你学习这些状态下他们action的值.直观的讲,这个值,Q,是状态-动作值(state-action value.) 所以,在Q-Leaning中,你设置初始状态-动作值为0,然后你去附近溜溜并且探索状态-动作空间.在你试了一个状态下的某一动作之后,你会评价将会转向哪一个状态.如果该动作将导致一

强化学习读书笔记 - 02 - 多臂老O虎O机问题

# 强化学习读书笔记 - 02 - 多臂老O虎O机问题学习笔记: [Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016](https://webdocs.cs.ualberta.ca/~sutton/book/) ## 数学符号的含义 * 通用 $a$ - 行动(action). $A_t$ - 第t次的行动(select action).通常指求解的

强化学习读书笔记 - 05 - 蒙特卡洛方法(Monte Carlo Methods)

强化学习读书笔记 - 05 - 蒙特卡洛方法(Monte Carlo Methods) 学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 数学符号看不懂的,先看看这里: 强化学习读书笔记 - 00 - 数学符号说明蒙特卡洛方法简话蒙特卡洛是一个赌城的名字.冯·诺依曼给这方法起了这个名字,增加其神秘性. 蒙特卡洛方法是一个计算方法,被广泛

强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference Learning)

强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference Learning) 学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 数学符号看不懂的,先看看这里: 强化学习读书笔记 - 00 - 术语和数学符号时序差分学习简话时序差分学习结合了动态规划和蒙特卡洛方法,是强化学习的核心思想. 时序差分这个词不

强化学习之Q-learning ^_^

许久没有更新重新拾起,献于小白这次介绍的是强化学习 Q-learning,Q-learning也是离线学习的一种关于Q-learning的算法详情看传送门下文中我们会用openai gym来做演示 q-learning的伪代码先看这部分,很重要简单的算法语言描述就是开始执行任务: 随机选择一个初始动作执行这些动作若未达到目标状态,则执行一下几步在当前状态s所有可能的行为中选择一个a 利用a得到下一个状态s_ 计算Q(s,a) (对当前的行为进行学习) 下一个状态等于当前状态开

强化学习 - Q-learning Sarsa 和 DQN 的理解

本文用于基本入门理解. 强化学习的基本理论 : R, S, A 这些就不说了. 先设想两个场景: 一. 1个 5x5 的格子图, 里面有一个目标点, 2个死亡点二. 一个迷宫, 一个出发点, 3处分叉点, 5个死角, 1条活路Q-learning 的概念其实就是一个算法, 数学的,或者软件程序的算法而已. 对于这种死的(固定的游戏), 我个人觉得其实就是个穷举算法而已. Q-learning 步骤:场景一:假设前提: 成功的路 A1, A2, ..... An

TensorLayer官方中文文档1.7.4：API – 强化学习

API - 强化学习¶ 强化学习(增强学习)相关函数. discount_episode_rewards([rewards, gamma, mode]) Take 1D float array of rewards and compute discounted rewards for an episode. cross_entropy_reward_loss(logits, actions, ...) Calculate the loss for Policy Gradient Network.

强化学习(十九) AlphaGo Zero强化学习原理

在强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)中,我们讨论了MCTS的原理和在棋类中的基本应用.这里我们在前一节MCTS的基础上,讨论下DeepMind的AlphaGo Zero强化学习原理. 本篇主要参考了AlphaGo Zero的论文, AlphaGo Zero综述和AlphaGo Zero Cheat Sheet. 1. AlphaGo Zero模型基础 AlphaGo Zero不需要学习人类的棋谱,通过自我对弈完成棋力提高.主要使用了两个模型,第一个就是我们上一节介绍MC

强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)

在强化学习(十七) 基于模型的强化学习与Dyna算法框架中,我们讨论基于模型的强化学习方法的基本思路,以及集合基于模型与不基于模型的强化学习框架Dyna.本文我们讨论另一种非常流行的集合基于模型与不基于模型的强化学习方法:基于模拟的搜索(Simulation Based Search). 本篇主要参考了UCL强化学习课程的第八讲,第九讲部分. 1. 基于模拟的搜索概述什么是基于模拟的搜索呢?当然主要是两个点:一个是模拟,一个是搜索.模拟我们在上一篇也讨论过,就是基于强化学习模型进行采样,得到样

强化学习 eligibility trace

热门专题