temporal credit assignment in reinforcement learning 【强化学习 经典论文】
Sutton 出版论文的主页:
http://incompleteideas.net/publications.html
Phd 论文: temporal credit assignment in reinforcement learning
http://incompleteideas.net/publications.html#PhDthesis

最近在做强化学习方面的课题, 发现在强化学习方面被称作强化学习之父的 Sutton 确实很厉害, TD算法和策略梯度策略算法都是他所提出的, 虽然Reinforcement learning 的现在框架是从 Q-learning 开始确定的,但是强化学习做的最早的人之一,对强化学习中经典思想的贡献最多的人估计就是Sutton了,Sutton本硕都是在MIT读的心理学,博士阶段才读的计算机,看来确实是很强的。作为强化学习最经典的论文,也是Sutton的博士毕业论文,很是值得读一读的,寻找该篇论文许久,发现可能是由于该篇论文发表的时间过久,所以所有的数据库都没有收录,唯一收入的应该是Sutton的博士授予的大学 Massachusetts 马萨诸塞州大学,但是由于该文章只向本校学生开发,所以找了几天都没有找到,今天灵机一动,为什么不到作者的个人主页上找一找呢,这一弄还果然发现了它的存在,特此mark一下。

----------------------------------------------------------------------------------------------------------------
----------------------------------------------------------------------------------------------------------------
附:(Sutton主页 Publication部分内容)
Rich Sutton's Publications
First, a quick guide to the highlights, roughly in order of the work's popularity or potential current interest:
- The
2nd edition of Reinforcement Learning: An Introduction - Emphatic TD(λ); Yu's convergence proof
- Weighted importance sampling
version of LSTD(λ), linear-complexity algorithms - True online TD(λ)
- The predictive
approach to knowledge representation; PEAK; Horde; nexting - Fast gradient-based TD algorithms, nonlinear case, GQ(lambda),
control, Maei's thesis - RL book
- Temporal-difference learning; TD(lambda) details
- The
TD model of Pavlovian conditioning; earlier Sutton-Barto
model; more biological 1982
& 1986;
and instrumental
learning - Dyna; as an integrated
architecture; with
FA 1996, 2008 - The options paper; UAV example; precursor
not superseded; - Policy gradient methods; Incremental Natural
Actor-Critic Algorithms - PhD thesis, introduced actor-critic
architectures and "temporal credit assignment" - PSRs; the
predictive
representations hypothesis; TD networks;
with options - RL for RoboCup soccer keepaway
- RL with continuous state and action
spaces - Step-size
adaptation by meta-gradient descent; IDBD; improved; earliest pub; in classical conditioning; in human category
learning, in
tracking - Random representations; representation search; feature discovery; more
- Pole-balancing;
tracking nonstationarity - Exponentiated-gradient RL; fuller TR
- A study in alpha and lambda
- Two problems with backprop
Also, some RL pubs that aren't mine, available for researchers:
- Chris Watkins's thesis
- Boyan's LSTD(lambda),
1999 - Barto and Bradtke LSTD, 1996
- Williams, 1992
- Lin, 1992
- Ross, 1983, chapter 2
- Minsky, 1960, Steps to AI
- Good, 1965, Speculations
concerning the first ultraintelligent machine - Selfridge, 1958, Pandemonium
- Samuel, 1959
- Dayan, 1992
- Tesauro, 1992, TD-Gammon
- Watkins and Dayan, 1992
- Hamid Maei's PhD thesis,
2011 - Masoud Shahamiri's MSc
thesis, 2008 - Janey Yu's proof of
convergence of Emphatic TD(λ) - Adam
White's PhD thesis - David
Silver's PhD thesis - Brian Tanner's MSc thesis
- Kavosh Asadi's MSc thesis
- Travis Dick's MSc thesis
- Eddie Rafols MSc thesis
- Anna Koop's MSc thesis
- Leah Hackman's MSc thesis
- Mike Delp's MSc thesis
- MahdiehSadat Mirian HosseinAbadi's
MSc thesis - Gurvitz, Lin, and
Hanson, 1995 - Rupam Mahmood's PhD thesis, 2017
- An, Miller, and Parks
(1991) - Intro to Andreae (2017)
and Andreae (2017)
For any broken links, please send email to
rich@richsutton.com.
temporal credit assignment in reinforcement learning 【强化学习 经典论文】的更多相关文章
- [Reinforcement Learning] 强化学习介绍
随着AlphaGo和AlphaZero的出现,强化学习相关算法在这几年引起了学术界和工业界的重视.最近也翻了很多强化学习的资料,有时间了还是得自己动脑筋整理一下. 强化学习定义 先借用维基百科上对强化 ...
- Reinforcement Learning 强化学习入门
https://www.zhihu.com/question/277325426 https://github.com/jinglescode/reinforcement-learning-tic-t ...
- The categories of Reinforcement Learning 强化学习分类
RL分为三大类: (1)通过行为的价值来选取特定行为的方法,具体 包括使用表格学习的 q learning, sarsa, 使用神经网络学习的 deep q network: (2)直接输出行为的 p ...
- Deep Reinforcement Learning for Dialogue Generation 论文阅读
本文来自李纪为博士的论文 Deep Reinforcement Learning for Dialogue Generation. 1,概述 当前在闲聊机器人中的主要技术框架都是seq2seq模型.但 ...
- Fully Convolutional Networks for semantic Segmentation(深度学习经典论文翻译)
摘要 卷积网络在特征分层领域是非常强大的视觉模型.我们证明了经过端到端.像素到像素训练的卷积网络超过语义分割中最先进的技术.我们的核心观点是建立"全卷积"网络,输入任意尺寸,经过有 ...
- 【转载】 “强化学习之父”萨顿:预测学习马上要火,AI将帮我们理解人类意识
原文地址: https://yq.aliyun.com/articles/400366 本文来自AI新媒体量子位(QbitAI) ------------------------------- ...
- <Machine Learning - 李宏毅> 学习笔记
<Machine Learning - 李宏毅> 学习笔记 b站视频地址:李宏毅2019国语 第一章 机器学习介绍 Hand crafted rules Machine learning ...
- 【强化学习】MOVE37-Introduction(导论)/马尔科夫链/马尔科夫决策过程
写在前面的话:从今日起,我会边跟着硅谷大牛Siraj的MOVE 37系列课程学习Reinforcement Learning(强化学习算法),边更新这个系列.课程包含视频和文字,课堂笔记会按视频为单位 ...
- DQN(Deep Q-learning)入门教程(一)之强化学习介绍
什么是强化学习? 强化学习(Reinforcement learning,简称RL)是和监督学习,非监督学习并列的第三种机器学习方法,如下图示: 首先让我们举一个小时候的例子: 你现在在家,有两个动作 ...
随机推荐
- 【IDEA填坑】springboot整合ssm框架
遇到俩问题:一个是mybatis生疏 在EmpMapper.xml中定义resultMap <resultMap id="EmpWithDept" type="c ...
- 解决移动端真机不能下拉滚动bug
在近期的移动端开发中,发现浏览器中调试可以正常滚动,而在真机中却不能滚动了,这是为什么呢??? 总结了一下主要有一下两方面:css的设置和js的设置 1.之前有设置css的原因,下面分先说css的问题 ...
- Python3+Selenium获取session和token供Requests使用教程
一.背景说明 之前写了一款简单的api模糊测试工具,之前系统可以使用http Base认证现在改成session形式并加上了token. 最简单的改造方法,是自己先在浏览器手动登录,然后提取出sess ...
- zookeeper应用与原理学习总结
一.什么是zookeeper Zookeeper 分布式服务框架是Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务.状态同步服务.集群 ...
- test--3
<script type="text/javascript">// <![CDATA[$(function () { if (isLogined &&am ...
- 《程序设计入门——C语言》翁恺老师 第五周编程练习记录
1 素数和(5分) 题目内容: 我们认为2是第一个素数,3是第二个素数,5是第三个素数,依次类推. 现在,给定两个整数n和m,0<n<=m<=200,你的程序要计算第n个素数到第m个 ...
- windows版influxDB安装与配置
一.下载链接https://portal.influxdata.com/downloads,选windows版 二.解压到安装盘,目录如下 三.修改conf文件,代码如下,直接复制粘贴(1.4.2版本 ...
- 自动调参库hyperopt+lightgbm 调参demo
在此之前,调参要么网格调参,要么随机调参,要么肉眼调参.虽然调参到一定程度,进步有限,但仍然很耗精力. 自动调参库hyperopt可用tpe算法自动调参,实测强于随机调参. hyperopt 需要自己 ...
- .net正则匹配
char[] weixin = txtweixinhao.Text.Trim().ToCharArray(); for (int i = 0; i < weixin.Length; i++) i ...
- 命令提示符出现-bash-4.1$如何解决
故障原因:用户模式/etc/skel内容丢失 解决方法 复制etc/skel里内容到当前用户 [root@web01 ~]# su - test -bash-4.1$ cp /etc/skel/.ba ...