> 目  录 <  

   > 笔  记 

learning & intelligence 的基本思想:learning from interaction

RL的定义:

RL is learning what to do--how to map situations and actions--so as to maximize a  numerical reward signal.

RL problems: a learning agent interacting over time with its environment to achieve a goal.

(sensation,action & goal三要素: agent需要能够感知环境的states,采取actions来影响state,有1个or多个与环境中的state相关的目标。)

2个特点:

1. trial-and-error search:不告诉learner该如何做,而是让他通过不断地尝试来发现该采取什么行为来获得更多的奖励。

2. delayed reward: 行为不仅仅影响immediate reward,还影响next situation,甚至是随后所有的subsequent rewards。

RL四要素:

1. policy: 定义了learning agent在特定时刻的行为表现。

2. reward signal: 定义了RL problem的目标,反映了what is good in an immediate sense

3. value function:定义了what is good in the long run。也就是说,某一state的value指的是,agent从现在开始一直到未来可以得到的累计回报的期望。

4. model of the environment (optional, only for model-based methods):它模仿了环境的行为,也就是说给出state和action,model可以预测next state和reward。

与其他learning methods比较:

1. RL不同于supervised learning,因为监督学习是learning for a training set of labelled examples provided by a knowledgeable external supervisor.

2. RL不同于unsupervised learning,因为非监督学习主要是finding structure hidden in collections of unlabeled data。虽然RL一定程度上可以看成是非监督学习 (∵不依赖examples of correct behavior),但实际上两者并不相同,因为RL的目的是maximize a reward signal而非trying to find hidden structure. 此外,RL和时间有很大的关系,而且反馈都是具有时间效应的。

3. RL其他特点:

(1) trade-off between exploration and exploitation是其独有的challenge;

(2) 关注的不是isolated subproblems,而是whole problem of a goal-directed agent interacting with an uncertain environment;

(3) 多学科交叉:数学、心理学、神经科学......

与evolutionary methods (e.g. 遗传算法)的比较:

在(1) 问题空间不大 or 有足够时间去搜索的情况下, (2)或者learning agent不能获知环境完整state的情况下,evolutionary methods比较有效。

但是,RL利用了每个个体与环境交互所得到的信息去学习,因此多数情况下RL更好。

具体例子—井字棋(tic-tac-toe):

分析了用不同的方法 (e.g. minimax、动态规划、进化方法、RL )来解决

RL早期发展史:

Reinforcement Learning: An Introduction读书笔记(1)--Introduction的更多相关文章

  1. Reinforcement Learning: An Introduction读书笔记(3)--finite MDPs

     > 目  录 <  Agent–Environment Interface Goals and Rewards Returns and Episodes Policies and Val ...

  2. Reinforcement Learning: An Introduction读书笔记(4)--动态规划

     > 目  录 <  Dynamic programming Policy Evaluation (Prediction) Policy Improvement Policy Iterat ...

  3. Reinforcement Learning: An Introduction读书笔记(2)--多臂机

     > 目  录 <  k-armed bandit problem Incremental Implementation Tracking a Nonstationary Problem ...

  4. 《Machine Learning Yearing》读书笔记

    ——深度学习的建模.调参思路整合. 写在前面 最近偶尔从师兄那里获取到了吴恩达教授的新书<Machine Learning Yearing>(手稿),该书主要分享了神经网络建模.训练.调节 ...

  5. Machine Learning for hackers读书笔记(六)正则化:文本回归

    data<-'F:\\learning\\ML_for_Hackers\\ML_for_Hackers-master\\06-Regularization\\data\\' ranks < ...

  6. Machine Learning for hackers读书笔记(三)分类:垃圾邮件过滤

    #定义函数,打开每一个文件,找到空行,将空行后的文本返回为一个字符串向量,该向量只有一个元素,就是空行之后的所有文本拼接之后的字符串 #很多邮件都包含了非ASCII字符,因此设为latin1就可以读取 ...

  7. Machine Learning for hackers读书笔记_一句很重要的话

    为了培养一个机器学习领域专家那样的直觉,最好的办法就是,对你遇到的每一个机器学习问题,把所有的算法试个遍,直到有一天,你凭直觉就知道某些算法行不通.

  8. Machine Learning for hackers读书笔记(十二)模型比较

    library('ggplot2')df <- read.csv('G:\\dataguru\\ML_for_Hackers\\ML_for_Hackers-master\\12-Model_C ...

  9. Machine Learning for hackers读书笔记(十)KNN:推荐系统

    #一,自己写KNN df<-read.csv('G:\\dataguru\\ML_for_Hackers\\ML_for_Hackers-master\\10-Recommendations\\ ...

随机推荐

  1. Linux 比较判断运算(if else)

    200 ? "200px" : this.width)!important;} --> 介绍 本篇文章主要是列举在shell命令中常出现的一些用来做比较的运算符,这些运算符是 ...

  2. 背水一战 Windows 10 (99) - 关联启动: 关联指定的文件类型, 关联指定的协议

    [源码下载] 背水一战 Windows 10 (99) - 关联启动: 关联指定的文件类型, 关联指定的协议 作者:webabcd 介绍背水一战 Windows 10 之 关联启动 关联指定的文件类型 ...

  3. 看我是如何利用升级系统一键GetShell

    i春秋作家:小猪 原文来自:看我是如何利用升级系统一键GetShell 漏洞名称:看我是如何利用升级系统一键GetShell 程序下载地址:https://pan.baidu.com/s/1VdoPL ...

  4. 如何推翻JAVA的统治地位?

    “java越来越过份了.”php狠狠的说,他转头看着C:“C哥,您可是前辈,java最近砸了我不少场子,您老再不出来管管,我怕他眼里就没有您了啊.” C哥吸烟,慢慢的说:“年轻人不要着急,java的根 ...

  5. FTP服务器搭建

    FTP 服务器架设: 关闭防火墙 service iptables stop 关闭SELinux setenforce 0 安装所需依赖及编译工具 yum install -y gcc openssl ...

  6. Kali学习笔记5:被动信息收集工具集

    1.Shodan SHODAN搜索引擎不像百度谷歌等,它们爬取的是网页,而SHODAN搜索的是设备. 物联网使用过程中,通常容易出现安全问题,如果被黑客用SHODAN搜索到,后果不堪设想. 网站:ht ...

  7. Date相关

    处理时间是常见的需求,总结下Date类的相关知识 构建时间对象 Date 对象基于1970年1月1日(世界标准时间)起的毫秒数. 构建对象实例有多种方式: 不传入参数,默认以系统当前时间返回一个时间对 ...

  8. sleep( ) 和 wait( ) 的这 5 个区别,你知道几个?

    sleep(休眠) 和 wait(等待) 方法是 Java 多线程中常用的两个方法,它们有什么区别及一些该注意的地方有哪些呢?下面给大家一一分解. 区别1:使用限制 使用 sleep 方法可以让让当前 ...

  9. 分布式作业 Elastic Job 如何动态调整?

    前面分享了两篇分布式作业调度框架 Elastic Job 的介绍及应用实战. ElasticJob-分布式作业调度神器 分布式作业 Elastic Job 快速上手指南! Elastic Job 提供 ...

  10. Spring Cloud微服务中网关服务是如何实现的?(Zuul篇)

    导读 我们知道在基于Spring Cloud的微服务体系中,各个微服务除了在内部提供服务外,有些服务接口还需要直接提供给客户端,如Andirod.IOS.H5等等. 而一个很尴尬的境地是,如果直接将提 ...