Reinforcement Learning: An Introduction读书笔记(1)--Introduction
> 目 录 <
- learning & intelligence 的基本思想
- RL的定义、特点、四要素
- 与其他learning methods、evolutionary methods的比较
- 例子(井字棋 tic-tac-toe)及早期发展史
> 笔 记 <
learning & intelligence 的基本思想:learning from interaction
RL的定义:
RL is learning what to do--how to map situations and actions--so as to maximize a numerical reward signal.
RL problems: a learning agent interacting over time with its environment to achieve a goal.
(sensation,action & goal三要素: agent需要能够感知环境的states,采取actions来影响state,有1个or多个与环境中的state相关的目标。)
2个特点:
1. trial-and-error search:不告诉learner该如何做,而是让他通过不断地尝试来发现该采取什么行为来获得更多的奖励。
2. delayed reward: 行为不仅仅影响immediate reward,还影响next situation,甚至是随后所有的subsequent rewards。
RL四要素:
1. policy: 定义了learning agent在特定时刻的行为表现。
2. reward signal: 定义了RL problem的目标,反映了what is good in an immediate sense
3. value function:定义了what is good in the long run。也就是说,某一state的value指的是,agent从现在开始一直到未来可以得到的累计回报的期望。
4. model of the environment (optional, only for model-based methods):它模仿了环境的行为,也就是说给出state和action,model可以预测next state和reward。
与其他learning methods比较:
1. RL不同于supervised learning,因为监督学习是learning for a training set of labelled examples provided by a knowledgeable external supervisor.
2. RL不同于unsupervised learning,因为非监督学习主要是finding structure hidden in collections of unlabeled data。虽然RL一定程度上可以看成是非监督学习 (∵不依赖examples of correct behavior),但实际上两者并不相同,因为RL的目的是maximize a reward signal而非trying to find hidden structure. 此外,RL和时间有很大的关系,而且反馈都是具有时间效应的。
3. RL其他特点:
(1) trade-off between exploration and exploitation是其独有的challenge;
(2) 关注的不是isolated subproblems,而是whole problem of a goal-directed agent interacting with an uncertain environment;
(3) 多学科交叉:数学、心理学、神经科学......
与evolutionary methods (e.g. 遗传算法)的比较:
在(1) 问题空间不大 or 有足够时间去搜索的情况下, (2)或者learning agent不能获知环境完整state的情况下,evolutionary methods比较有效。
但是,RL利用了每个个体与环境交互所得到的信息去学习,因此多数情况下RL更好。
具体例子—井字棋(tic-tac-toe):
分析了用不同的方法 (e.g. minimax、动态规划、进化方法、RL )来解决
RL早期发展史:
略
Reinforcement Learning: An Introduction读书笔记(1)--Introduction的更多相关文章
- Reinforcement Learning: An Introduction读书笔记(3)--finite MDPs
> 目 录 < Agent–Environment Interface Goals and Rewards Returns and Episodes Policies and Val ...
- Reinforcement Learning: An Introduction读书笔记(4)--动态规划
> 目 录 < Dynamic programming Policy Evaluation (Prediction) Policy Improvement Policy Iterat ...
- Reinforcement Learning: An Introduction读书笔记(2)--多臂机
> 目 录 < k-armed bandit problem Incremental Implementation Tracking a Nonstationary Problem ...
- 《Machine Learning Yearing》读书笔记
——深度学习的建模.调参思路整合. 写在前面 最近偶尔从师兄那里获取到了吴恩达教授的新书<Machine Learning Yearing>(手稿),该书主要分享了神经网络建模.训练.调节 ...
- Machine Learning for hackers读书笔记(六)正则化:文本回归
data<-'F:\\learning\\ML_for_Hackers\\ML_for_Hackers-master\\06-Regularization\\data\\' ranks < ...
- Machine Learning for hackers读书笔记(三)分类:垃圾邮件过滤
#定义函数,打开每一个文件,找到空行,将空行后的文本返回为一个字符串向量,该向量只有一个元素,就是空行之后的所有文本拼接之后的字符串 #很多邮件都包含了非ASCII字符,因此设为latin1就可以读取 ...
- Machine Learning for hackers读书笔记_一句很重要的话
为了培养一个机器学习领域专家那样的直觉,最好的办法就是,对你遇到的每一个机器学习问题,把所有的算法试个遍,直到有一天,你凭直觉就知道某些算法行不通.
- Machine Learning for hackers读书笔记(十二)模型比较
library('ggplot2')df <- read.csv('G:\\dataguru\\ML_for_Hackers\\ML_for_Hackers-master\\12-Model_C ...
- Machine Learning for hackers读书笔记(十)KNN:推荐系统
#一,自己写KNN df<-read.csv('G:\\dataguru\\ML_for_Hackers\\ML_for_Hackers-master\\10-Recommendations\\ ...
随机推荐
- QEMU KVM libvirt手册(4) – images
RAW raw是默认的格式,格式简单,容易转换为其他的格式.需要文件系统的支持才能支持sparse file 创建image # qemu-img create -f raw flat.img 10G ...
- 吴恩达机器学习笔记21-正则化线性回归(Regularized Linear Regression)
对于线性回归的求解,我们之前推导了两种学习算法:一种基于梯度下降,一种基于正规方程. 正则化线性回归的代价函数为: 如果我们要使用梯度下降法令这个代价函数最小化,因为我们未对theta0进行正则化,所 ...
- PHP调用百度天气接口API
//百度天气接口API $location = "北京"; //地区 $ak = "5slgyqGDENN7Sy7pw29IUvrZ"; //秘钥,需要申请,百 ...
- 《http权威指南》读书笔记6
概述 最近对http很感兴趣,于是开始看<http权威指南>.别人都说这本书有点老了,而且内容太多.我个人觉得这本书写的太好了,非常长知识,让你知道关于http的很多概念,不仅告诉你怎么做 ...
- Scala - 快速学习08 - 函数式编程:高阶函数
函数式编程的崛起 函数式编程中的“值不可变性”避免了对公共的可变状态进行同步访问控制的复杂问题,能够较好满足分布式并行编程的需求,适应大数据时代的到来. 函数是第一等公民 可以作为实参传递给另外一个函 ...
- virtualbox ubuntu 安装 openssh-server
最近为了学 DevOps,自己动手在 virtualbox 上安装 ubuntu 系统,安装完后发现好坑,没办法用 XShell 连接.在线安装 openssh-server 又发现没有配置软件源,手 ...
- c# json 序列化如何去掉null值
要将一个对象序列化,可是如果对象的属性为null的时候,我们想将属性为null的都去掉. 在这里我使用Newtonsoft.Json.dll 记录一下序列化以及反序列化 json字符串转对象 Mode ...
- jenkins 'cordova' command not recognised on Jenkins Windows slave
在jenkins里构建ionic项目.在构建Execute Windows bath command 执行 cordova 跟ionic 命令失败.但是运行cmd却能够执行成功. 惊不惊喜 意不意外, ...
- 纯JS实现加载更多(VUE框架)
<template> <div class = 'car_list' reft='scrollobx' @scroll='scrollready($event)'> </ ...
- 【Jquery系列】之Jquery 选择器
1 概述 本篇文章为穿插文章,ASP.NET MVC系列目前写了如下几篇: 详解google Chrome浏览器(理论篇) 详解Google Chrome浏览器(操作篇)(上) 详解Google ...