不基于模型的控制

选取动作的方法

贪婪法，每次控制都选择状态值最大的动作，容易局部收敛，找不到全局最优。
引入 epsilon-greedy，按 epsilon 的概率随机选择一个动作，按 1 - epsilon 的概率使用贪婪法，选择状态值最大的动作

在策略上的学习（on-policy）

代表方法：SARSA
每次按 epsilon-greedy 更新策略后，也按此方法更新后的策略选择下一步的动作。

不在策略上的学习（off-policy）

代表方法：Q-learning
更新策略和 SARSA 不同，每次直接按照贪婪法选择最大状态值来更新状态，但是选择动作时仍然使用 epsilon-greedy

参考

david siver 课程

https://home.cnblogs.com/u/pinard/

DQN(Deep Reiforcement Learning) 发展历程（四）的更多相关文章

DQN(Deep Reiforcement Learning) 发展历程（五）
目录值函数的近似 DQN Nature DQN DDQN Prioritized Replay DQN Dueling DQN 参考 DQN发展历程(一) DQN发展历程(二) DQN发展历程(三) ...
DQN(Deep Reiforcement Learning) 发展历程（三）
目录不基于模型(Model-free)的预测蒙特卡罗方法时序差分方法多步的时序差分方法参考 DQN发展历程(一) DQN发展历程(二) DQN发展历程(三) DQN发展历程(四) DQN发展 ...
DQN(Deep Reiforcement Learning) 发展历程（二）
目录动态规划使用条件分类求解方法参考 DQN发展历程(一) DQN发展历程(二) DQN发展历程(三) DQN发展历程(四) DQN发展历程(五) 动态规划动态规划给出了求解强化学习的一种 ...
DQN(Deep Reiforcement Learning) 发展历程(一)
目录马尔可夫理论马尔可夫性质马尔可夫过程(MP) 马尔可夫奖励过程(MRP) 值函数(value function) MRP求解马尔可夫决策过程(MDP) 效用函数优化的值函数贝尔曼等式 ...
[DQN] What is Deep Reinforcement Learning
已经成为DL中专门的一派,高大上的样子 Intro: MIT 6.S191 Lecture 6: Deep Reinforcement Learning Course: CS 294: Deep Re ...
Deep Reinforcement Learning 基础知识（DQN方面）
Introduction 深度增强学习Deep Reinforcement Learning是将深度学习与增强学习结合起来从而实现从Perception感知到Action动作的端对端学习的一种全新的算 ...
repost: Deep Reinforcement Learning
From: http://wanghaitao8118.blog.163.com/blog/static/13986977220153811210319/ accessed 2016-03-10 深度 ...
深度强化学习（Deep Reinforcement Learning）入门：RL base & DQN-DDPG-A3C introduction
转自https://zhuanlan.zhihu.com/p/25239682 过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题.子曰:温故而知新,在进一步深入研究和应 ...
论文笔记之：Dueling Network Architectures for Deep Reinforcement Learning
Dueling Network Architectures for Deep Reinforcement Learning ICML 2016 Best Paper 摘要:本文的贡献点主要是在 DQN ...

随机推荐

javax.net.ssl.SSLHandshakeException sun.security.validator.ValidatorException PK
javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path building f ...
js-ES6学习笔记-编程风格（2）
1.那些需要使用函数表达式的场合,尽量用箭头函数代替.因为这样更简洁,而且绑定了this. 2.所有配置项都应该集中在一个对象,放在最后一个参数,布尔值不可以直接作为参数. 3.不要在函数体内使用ar ...
如何在Vue中建立全局引用或者全局命令
1 一般在vue中,有很多vue组件,这些组件每个都是一个文件.都可能需要引用到相同模块(或者插件).我们不想每个文件都import 一次模块. 如果是基于vue.js编写的插件我们可以用 Vue.u ...
Android5.x Notification应用解析
Notification可以让我们在获得消息的时候,在状态栏,锁屏界面来显示相应的信息,很难想象如果没有Notification,那我们的qq和微信以及其他应用没法主动通知我们,我们就需要时时的看手机 ...
Android Vsync 原理浅析
Preface Android中,Client测量和计算布局,SurfaceFlienger(server)用来渲染绘制界面,client和server的是通过匿名共享内存(SharedClient) ...
linux centOS7 设置 redis 开机启动
1.为了让redis-server能在系统启动时自动运行,需要将redis服务作为守护进程(daemon)来运行,我们回/usr/local/cluster/7000/目录中找到一个redis.con ...
Azure 门户中基于角色的访问控制入门
面向安全的公司应侧重于向员工提供他们所需的确切权限. 权限过多,可能会向攻击者公开帐户. 权限太少意味着员工无法有效地完成其工作. Azure 基于角色的访问控制 (RBAC) 可通过为 Azure ...
extends CakeRequest,重写is方法
背景:Cakephp开发环境版本是2.3.8,服务器的cakephp版本是2.3.5,测试好的代码上传到服务器上后发现总爆如下的警告: Warning (2): strtolower() expect ...
EOFException异常详解
最近线上的系统被检测出有错误日志,领导让我检查下问题,我就顺便了解了下这个异常. 了解一个类,当然是先去看他的API,EOFException的API如下: 通过这个API,我们可以得出以下信息: 这 ...
Local policy - User rights assignment 对照表
"SeCreateTokenPrivilege" --> "Create a token object" "SeAssignPrimaryTo ...

DQN(Deep Reiforcement Learning) 发展历程（四）

不基于模型的控制

选取动作的方法

在策略上的学习（on-policy）

不在策略上的学习（off-policy）

参考

DQN(Deep Reiforcement Learning) 发展历程（四）的更多相关文章

随机推荐

热门专题