Learning from delayed reward (Q-Learning的提出) （Watkins博士毕业论文）（建立了现在的reinforcement Learning模型）

最近在在学习强化学习方面的东西，对于现有的很多文章中关于强化学习的知识很是不理解，很多都是一个公式套一个公式，也没有什么太多的解释，感觉像是在看天书一般，经过了较长时间的挣扎最后决定从一些基础的东西开始入手，于是便有了这篇论文的发现。

Learning from Delayed Reward

该论文的页面为： http://www.cs.rhul.ac.uk/~chrisw/thesis.html

下载地址为： http://www.cs.rhul.ac.uk/~chrisw/new_thesis.pdf

论文页面对这篇文章的描述：

The thesis introduces the notion of reinforcement learning as learning to control a Markov Decision Process by incremental dynamic programming,

and describes a range of algorithms for doing this, including Q-learning, for which a sketch of a proof of convergence is given.

这篇文章虽然在现有的很多文献中并不是很被提及，但是它却具有很大的意义。这篇文章（准确的说是作者在1987年发表的一篇会议论文，集成在了这篇学位论文中了）建立了现在意义上的强化学习模型，它第一次将trial-and-error 和 dynammic programming 和 temporal diffecrence 结合在了一起，并提出了Q-Learning算法。在某种意义上它可谓是“万恶之源”。

=====================================================

============================================================

文章目录：

Learning from delayed reward (Q-Learning的提出) （Watkins博士毕业论文）（建立了现在的reinforcement Learning模型）的更多相关文章

[DQN] What is Deep Reinforcement Learning
已经成为DL中专门的一派,高大上的样子 Intro: MIT 6.S191 Lecture 6: Deep Reinforcement Learning Course: CS 294: Deep Re ...
论文笔记之：Asynchronous Methods for Deep Reinforcement Learning
Asynchronous Methods for Deep Reinforcement Learning ICML 2016 深度强化学习最近被人发现貌似不太稳定,有人提出很多改善的方法,这些方法有很 ...
Awesome Reinforcement Learning
Awesome Reinforcement Learning A curated list of resources dedicated to reinforcement learning. We h ...
(转) Deep Reinforcement Learning: Pong from Pixels
Andrej Karpathy blog About Hacker's guide to Neural Networks Deep Reinforcement Learning: Pong from ...
论文笔记系列-Neural Architecture Search With Reinforcement Learning
摘要神经网络在多个领域都取得了不错的成绩,但是神经网络的合理设计却是比较困难的.在本篇论文中,作者使用递归网络去省城神经网络的模型描述,并且使用增强学习训练RNN,以使得生成得到的模型在验证集上 ...
(zhuan) Deep Reinforcement Learning Papers
Deep Reinforcement Learning Papers A list of recent papers regarding deep reinforcement learning. Th ...
【资料总结】| Deep Reinforcement Learning 深度强化学习
在机器学习中,我们经常会分类为有监督学习和无监督学习,但是尝尝会忽略一个重要的分支,强化学习.有监督学习和无监督学习非常好去区分,学习的目标,有无标签等都是区分标准.如果说监督学习的目标是预测,那么强 ...
(zhuan) Paper Collection of Multi-Agent Reinforcement Learning (MARL)
this blog from: https://github.com/LantaoYu/MARL-Papers Paper Collection of Multi-Agent Reinforcemen ...
Understanding dopamine and reinforcement learning: The dopamine reward prediction error hypothesis
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Abstract 在中脑多巴胺能神经元的研究中取得了许多最新进展.要了解这些进步以及它们之间的相互关系,需要对作为解释框架并指导正在进行的 ...

随机推荐

PHPStorm默认在新窗口打开
这个设置很实用.
django视图函数及快捷方式
视图函数,简称视图,本质上是一个简单的Python函数,它接受Web请求并且返回Web响应. 响应的内容可以是HTML网页.重定向.404错误,XML文档或图像等任何东西.但是,无论视图本身是个什么处 ...
Spring生态顶级项目说明
1.Spring IO platform 说明:用于系统部署,是可集成的,构建现代化应用的版本平台 2.Spring Boot 说明:旨在简化创建产品级的 Spring 应用和服务,简化了配置文件,使 ...
Lua中数组的学习
--数组的大小是不固定的 --一维数组的逻辑结构是线性表索引从1开始 array1 = {"Lua", "Tutorial"} , do print(array ...
SQL 基础学习(2) Joining 和function ，作业没有做，需要看百宝箱。NOsql的概念
SQL 基础学习(2) Joining 可以同时关联(joining)多张表进行复杂的查询. 相比于用Rails捞出数据再用Ruby进行过滤组合,使用SQL更加高效,节能. 以下是 users has ...
codeforces 993c//Careful Maneuvering// Codeforces Round #488 by NEAR (Div. 1)
题意:x轴-100和+100的有敌人飞船,纵坐标由输入数据给出,我方有2飞船在x轴0,y坐标待定.0时刻时敌人同时向我方2飞船发出光线,光线会穿透飞船打到敌人自己,问2飞船放在哪敌人损失最大? 假如- ...
Enduring Exodus CodeForces - 655C (二分)
链接大意: n个房间, 1为占用, 0为未占用, John要将k头奶牛和自己分进k+1个空房间, 求John距最远的奶牛距离的最小值这种简单题卡了20min.... 显然对于固定的k+1个房间, ...
Oracle性能诊断艺术-相关脚本说明
第二章 bind_variables.sql 展示怎样绑定变量及何时绑定变量会导致游标共享 bind_variables_peeking.sql 展示绑定变量窥测的优缺点 selectivi ...
spring的FactoryBean
(以下内容翻译自spring/docs/3.2.18.RELEASE) 为具有工厂属性的对象实现FactoryBean接口. FactoryBean接口是spring IoC 容器实例化逻辑的一点补充 ...
【转载】maven入门1
学习maven的使用,看到一篇很实用的入门教程(菜鸟级入门) 2007-08-28 14:01:04 标签:maven 职场休闲一.前言早就知道maven 在java 项目的管理 ...

Learning from delayed reward (Q-Learning的提出) （Watkins博士毕业论文）（建立了现在的reinforcement Learning模型）

Learning from delayed reward (Q-Learning的提出) （Watkins博士毕业论文）（建立了现在的reinforcement Learning模型）的更多相关文章

随机推荐

热门专题