前面介绍了三种采样求均值的算法

——MC

——TD

——TD(lamda)

下面我们基于这几种方法来 迭代优化agent

传统的强化学习算法

已经知道完整MDP——使用价值函数V（s）

没有给出完整MDP——使用价值函数Q（s，a）

可见我们的目标就是确定下来最优策略和最优价值函数

　　|——有完整MDP && 用DP解决复杂度较低

　　| 　　　　　　　　　　　　　　　　　　　 ====》使用贝尔曼方程和贝尔曼最优方程求解

　　|——没有完整MDP(ENV未知) or 知道MDP但是硬解MDP问题复杂度太高

　　| 　　　　　　　　　　　　　　　　　　　 ====》 policy evaluation使用采样求均值的方法

　　| 　　　　　　　　　　　　　　　　　　　　　　　　　　|—— ON-POLICY MC

　　| 　　　　　　　　　　　　　　　　　　　　　　　　　|—— ON-POLICY TD

　　| 　　　　　　　　　　　　　　　　　　　　　　　　　　|____ OFF-POLICY TD

1 价值函数是V(s)还是Q(s,a)？

agent对外界好坏的认识是对什么的认识呢？是每一个状态s的好坏还是特定状态下采取特定行为(s,a)的好坏？

这取决于是什么样的问题背景。

有完整的MDP，知道从这个状态下采取某行为会有多大概率后继状态为某状态，那么我们的agent需要知道的是状态的好坏。如sutton书中的jack‘s car rental问题，方格问题等等，这些都是事先就明确知道状态行为转移概率矩阵的。丝毫没有“人工智能”的感觉。

没有完整的MDP，知道从这个状态下采取某行为会有多大概率后继状态为某状态，那么我们的agent需要知道的是状态行为对(s,a)的好坏。比如，围棋！我们下子之后，对手会把棋落哪是完全没法预测的，所以后继state是绝对不可预测，所以agent是不能用V(s)作为评价好坏的价值函数，所以agent应该在乎的是这个(s,a)好这个(s,a)不好，所以使用Q(s,a)作为价值函数。

2. ON-POLICY 和OFF-POLICY

on policy :基于策略A采样获取episode，并且被迭代优化的策略也是A

off policy :基于策略A采样获取episode，而被迭代优化的策略是B

3.为什么ε-greedy探索在on policyRL算法中行之有效？

<强化学习>基于采样迭代优化agent的更多相关文章

强化学习之七：Visualizing an Agent’s Thoughts and Actions
本文是对Arthur Juliani在Medium平台发布的强化学习系列教程的个人中文翻译,该翻译是基于个人分享知识的目的进行的,欢迎交流!(This article is my personal t ...
强化学习论文（Scalable agent alignment via reward modeling: a research direction）
原文地址: https://arxiv.org/pdf/1811.07871.pdf ======================================================== ...
深度学习-强化学习(RL)概述笔记
强化学习(Reinforcement Learning)简介强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益.其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予 ...
<强化学习>开门帖
(本系列只用作本人笔记,如果看官是以新手开始学习RL,不建议看我写的笔记昂) 今天是2020年2月7日,开始二刷david silver ulc课程.https://www.youtube.com/w ...
David Silver强化学习Lecture1：强化学习简介
课件:Lecture 1: Introduction to Reinforcement Learning 视频:David Silver深度强化学习第1课 - 简介 (中文字幕) 强化学习的特征作为 ...
【转载】准人工智能分享Deep Mind报告 ——AI“元强化学习”
原文地址: https://www.sohu.com/a/231895305_200424 ------------------------------------------------------ ...
DQN（Deep Q-learning）入门教程（一）之强化学习介绍
什么是强化学习? 强化学习(Reinforcement learning,简称RL)是和监督学习,非监督学习并列的第三种机器学习方法,如下图示: 首先让我们举一个小时候的例子: 你现在在家,有两个动作 ...
伯克利、OpenAI等提出基于模型的元策略优化强化学习
基于模型的强化学习方法数据效率高,前景可观.本文提出了一种基于模型的元策略强化学习方法,实践证明,该方法比以前基于模型的方法更能够应对模型缺陷,还能取得与无模型方法相近的性能. 引言强化学习领域近期 ...
基于Keras的OpenAI-gym强化学习的车杆/FlappyBird游戏
强化学习课程:Q-Learning强化学习(李宏毅).深度强化学习强化学习是一种允许你创造能从环境中交互学习的AI Agent的机器学习算法,其通过试错来学习.如上图所示,大脑代表AI Agent ...

随机推荐

1146. Snapshot Array
Implement a SnapshotArray that supports the following interface: SnapshotArray(int length) initializ ...
vue学习笔记：vue的认识与特点与获取
Vue了解 Vue:读作 view Vue是一个渐进式框架与其他重量级框架不同的是,Vue 采用自底向上增量开发的设计. Vue 的核心库只关注视图层,并且非常容易学习,非常容易与其它库或已有项目整 ...
spring demo
参考: https://www.tutorialspoint.com/spring/spring_applicationcontext_container.htm
xshell编码设置-----支持中文
1. 点击设置图标 2. 选择 UTF-8 3. 重启xshell即可
Python流程控制-2 条件判断
条件判断条件判断是通过一条或多条判断语句的执行结果(True或者False)来决定执行的代码块. 在Python语法中,使用if.elif和else三个关键字来进行条件判断. if语句的一般形式如下 ...
记录5-如何在UltraEdit中编译和运行Java
1点击“高级”,再点击“工具配置” 2点击“插入”,在“菜单项”名称上输入“编译java程序”,在“命令行”里输入“javac %n%e”,在工作目录上填“%p”. 3切换到“输出”项,选择“输出到列 ...
vue-cli 手脚架mock虚拟数据的运用，特别是坑！！！
1.现在基本的趋势就是前后分离,前后分离就意味着当后台接口还没完成之前,前端是没有接口可以拿来调用的 ,那么mock虚拟数据就很好的解决了这一问题,前端可以直接模拟真实的数据AJAX请求! 运用步骤 ...
Systemverilog for design 笔记（五）
转载请标明出处第一章 System Verilog过程块.任务和函数 1.1. verilog通用目的always过程块(procedural block)(可综合) always过程块的综合 ...
spark aggregateByKey 时 java.lang.OutOfMemoryError: GC overhead limit exceeded
最后发现有一个用户单日访问我们网站次数为 4千万,直接导致 aggregate 时内存不够.过滤掉该用户即可.
笔记||Pyhton3进阶之多线程原理
# 多线程 # 一个进程相当于一个或多个线程 # 当没有多线程编程时,一个进程也是一个主线程 # 但有多线程编程时,一个进程包含多个线程,包括主线程 # 使用线程可以实现程序的并发 # python ...

<强化学习>基于采样迭代优化agent

1 价值函数是V(s)还是Q(s,a)？

2. ON-POLICY 和OFF-POLICY

3.为什么ε-greedy探索在on policyRL算法中行之有效？

<强化学习>基于采样迭代优化agent的更多相关文章

随机推荐

热门专题