不基于模型的控制

选取动作的方法

贪婪法，每次控制都选择状态值最大的动作，容易局部收敛，找不到全局最优。
引入 epsilon-greedy，按 epsilon 的概率随机选择一个动作，按 1 - epsilon 的概率使用贪婪法，选择状态值最大的动作

在策略上的学习（on-policy）

代表方法：SARSA
每次按 epsilon-greedy 更新策略后，也按此方法更新后的策略选择下一步的动作。

不在策略上的学习（off-policy）

代表方法：Q-learning
更新策略和 SARSA 不同，每次直接按照贪婪法选择最大状态值来更新状态，但是选择动作时仍然使用 epsilon-greedy

参考

david siver 课程

https://home.cnblogs.com/u/pinard/

DQN(Deep Reiforcement Learning) 发展历程（四）的更多相关文章

DQN(Deep Reiforcement Learning) 发展历程（五）
目录值函数的近似 DQN Nature DQN DDQN Prioritized Replay DQN Dueling DQN 参考 DQN发展历程(一) DQN发展历程(二) DQN发展历程(三) ...
DQN(Deep Reiforcement Learning) 发展历程（三）
目录不基于模型(Model-free)的预测蒙特卡罗方法时序差分方法多步的时序差分方法参考 DQN发展历程(一) DQN发展历程(二) DQN发展历程(三) DQN发展历程(四) DQN发展 ...
DQN(Deep Reiforcement Learning) 发展历程（二）
目录动态规划使用条件分类求解方法参考 DQN发展历程(一) DQN发展历程(二) DQN发展历程(三) DQN发展历程(四) DQN发展历程(五) 动态规划动态规划给出了求解强化学习的一种 ...
DQN(Deep Reiforcement Learning) 发展历程(一)
目录马尔可夫理论马尔可夫性质马尔可夫过程(MP) 马尔可夫奖励过程(MRP) 值函数(value function) MRP求解马尔可夫决策过程(MDP) 效用函数优化的值函数贝尔曼等式 ...
[DQN] What is Deep Reinforcement Learning
已经成为DL中专门的一派,高大上的样子 Intro: MIT 6.S191 Lecture 6: Deep Reinforcement Learning Course: CS 294: Deep Re ...
Deep Reinforcement Learning 基础知识（DQN方面）
Introduction 深度增强学习Deep Reinforcement Learning是将深度学习与增强学习结合起来从而实现从Perception感知到Action动作的端对端学习的一种全新的算 ...
repost: Deep Reinforcement Learning
From: http://wanghaitao8118.blog.163.com/blog/static/13986977220153811210319/ accessed 2016-03-10 深度 ...
深度强化学习（Deep Reinforcement Learning）入门：RL base & DQN-DDPG-A3C introduction
转自https://zhuanlan.zhihu.com/p/25239682 过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题.子曰:温故而知新,在进一步深入研究和应 ...
论文笔记之：Dueling Network Architectures for Deep Reinforcement Learning
Dueling Network Architectures for Deep Reinforcement Learning ICML 2016 Best Paper 摘要:本文的贡献点主要是在 DQN ...

随机推荐

【 js 基础】【读书笔记】Javascript “继承”
是时候写一写 “继承”了,为什么加引号,因为当你阅读完这篇文章,你会知道,说是继承其实是不准确的. 一.类1.传统的面向类的语言中的类:类/继承描述了一种代码的组织结构形式.举个例子:“汽车”可 ...
使用ThinkPHP实现生成缩略图及显示
首先了解父类Image.class.php(ThinkPHP/Library/Think/Image.class.php)中的一些函数 1:open() 打开被处理的图片 2:thumb() 生成缩略 ...
python3获取一个网页特定内容
我们今天要爬取的网址为:https://www.zhiliti.com.cn/html/luoji/list7_1.html 一.目标:获取下图红色部分内容即获取所有的题目以及答案. 二.实现步骤. ...
前端hash路由基本原理,及代码的基本实现
路由就是指随着浏览器地址栏的变化,展示给用户的页面也不相同. 早期的路由都是后端实现的,直接根据 url 来 reload 页面,页面变得越来越复杂服务器端压力变大,随着 ajax 的出现,页面实现非 ...
JS---函数名和变量名重名
继续作用域的问题,今天上午看了一会,下午看又看到了一个类型的题,函数名和变量名相同的问题.之前还不会觉得函数名和变量名重名了会有什么冲突.也是没有去测试过..懒了.直接贴代码: 运行之后大家猜测结果是 ...
控制器隐藏了导航下页pop 导航位置看到黑条
控制器隐藏了导航下页pop 导航位置看到黑条解决: -(void)viewWillDisappear:(BOOL)animated{ [super viewWillDisappear ...
AutoCAD.net-错误消息大全
case Acad::eOk:lstrcpy(Glb_AcadErrorInfo,_T("正确"));break;case Acad::eNotImplementedYet:lst ...
Android Studio 编译: Program type already present: XXX 解决方案
3情况1:个例 build.gradle 中 dependencies { classpath 'com.android.tools.build:gradle:3.1.1' // } 改成 depen ...
Java语言的特点以及Java与C/C++的异同
Java语言的特点 1. Java为纯面向对象的语言,能够直接反应现实生活中的对象,容易理解,编程更容易. 2.跨平台,java是解释性语言,编译器会把java代码变成中间代码,然后在JVM上解释执行 ...
Python笔记（八）：web开发
#本文是在Windows环境下,Unix系统应该还要设置2个东西 (一) 采用MVC设计web应用遵循模型-视图-控制器(model-view-controlle) 模型:存储web应用 ...

DQN(Deep Reiforcement Learning) 发展历程（四）

不基于模型的控制

选取动作的方法

在策略上的学习（on-policy）

不在策略上的学习（off-policy）

参考

DQN(Deep Reiforcement Learning) 发展历程（四）的更多相关文章

随机推荐

热门专题