> 目  录 <  

   > 笔  记 

learning & intelligence 的基本思想:learning from interaction

RL的定义:

RL is learning what to do--how to map situations and actions--so as to maximize a  numerical reward signal.

RL problems: a learning agent interacting over time with its environment to achieve a goal.

(sensation,action & goal三要素: agent需要能够感知环境的states,采取actions来影响state,有1个or多个与环境中的state相关的目标。)

2个特点:

1. trial-and-error search:不告诉learner该如何做,而是让他通过不断地尝试来发现该采取什么行为来获得更多的奖励。

2. delayed reward: 行为不仅仅影响immediate reward,还影响next situation,甚至是随后所有的subsequent rewards。

RL四要素:

1. policy: 定义了learning agent在特定时刻的行为表现。

2. reward signal: 定义了RL problem的目标,反映了what is good in an immediate sense

3. value function:定义了what is good in the long run。也就是说,某一state的value指的是,agent从现在开始一直到未来可以得到的累计回报的期望。

4. model of the environment (optional, only for model-based methods):它模仿了环境的行为,也就是说给出state和action,model可以预测next state和reward。

与其他learning methods比较:

1. RL不同于supervised learning,因为监督学习是learning for a training set of labelled examples provided by a knowledgeable external supervisor.

2. RL不同于unsupervised learning,因为非监督学习主要是finding structure hidden in collections of unlabeled data。虽然RL一定程度上可以看成是非监督学习 (∵不依赖examples of correct behavior),但实际上两者并不相同,因为RL的目的是maximize a reward signal而非trying to find hidden structure. 此外,RL和时间有很大的关系,而且反馈都是具有时间效应的。

3. RL其他特点:

(1) trade-off between exploration and exploitation是其独有的challenge;

(2) 关注的不是isolated subproblems,而是whole problem of a goal-directed agent interacting with an uncertain environment;

(3) 多学科交叉:数学、心理学、神经科学......

与evolutionary methods (e.g. 遗传算法)的比较:

在(1) 问题空间不大 or 有足够时间去搜索的情况下, (2)或者learning agent不能获知环境完整state的情况下,evolutionary methods比较有效。

但是,RL利用了每个个体与环境交互所得到的信息去学习,因此多数情况下RL更好。

具体例子—井字棋(tic-tac-toe):

分析了用不同的方法 (e.g. minimax、动态规划、进化方法、RL )来解决

RL早期发展史:

Reinforcement Learning: An Introduction读书笔记(1)--Introduction的更多相关文章

  1. Reinforcement Learning: An Introduction读书笔记(3)--finite MDPs

     > 目  录 <  Agent–Environment Interface Goals and Rewards Returns and Episodes Policies and Val ...

  2. Reinforcement Learning: An Introduction读书笔记(4)--动态规划

     > 目  录 <  Dynamic programming Policy Evaluation (Prediction) Policy Improvement Policy Iterat ...

  3. Reinforcement Learning: An Introduction读书笔记(2)--多臂机

     > 目  录 <  k-armed bandit problem Incremental Implementation Tracking a Nonstationary Problem ...

  4. 《Machine Learning Yearing》读书笔记

    ——深度学习的建模.调参思路整合. 写在前面 最近偶尔从师兄那里获取到了吴恩达教授的新书<Machine Learning Yearing>(手稿),该书主要分享了神经网络建模.训练.调节 ...

  5. Machine Learning for hackers读书笔记(六)正则化:文本回归

    data<-'F:\\learning\\ML_for_Hackers\\ML_for_Hackers-master\\06-Regularization\\data\\' ranks < ...

  6. Machine Learning for hackers读书笔记(三)分类:垃圾邮件过滤

    #定义函数,打开每一个文件,找到空行,将空行后的文本返回为一个字符串向量,该向量只有一个元素,就是空行之后的所有文本拼接之后的字符串 #很多邮件都包含了非ASCII字符,因此设为latin1就可以读取 ...

  7. Machine Learning for hackers读书笔记_一句很重要的话

    为了培养一个机器学习领域专家那样的直觉,最好的办法就是,对你遇到的每一个机器学习问题,把所有的算法试个遍,直到有一天,你凭直觉就知道某些算法行不通.

  8. Machine Learning for hackers读书笔记(十二)模型比较

    library('ggplot2')df <- read.csv('G:\\dataguru\\ML_for_Hackers\\ML_for_Hackers-master\\12-Model_C ...

  9. Machine Learning for hackers读书笔记(十)KNN:推荐系统

    #一,自己写KNN df<-read.csv('G:\\dataguru\\ML_for_Hackers\\ML_for_Hackers-master\\10-Recommendations\\ ...

随机推荐

  1. QEMU KVM libvirt手册(4) – images

    RAW raw是默认的格式,格式简单,容易转换为其他的格式.需要文件系统的支持才能支持sparse file 创建image # qemu-img create -f raw flat.img 10G ...

  2. 吴恩达机器学习笔记21-正则化线性回归(Regularized Linear Regression)

    对于线性回归的求解,我们之前推导了两种学习算法:一种基于梯度下降,一种基于正规方程. 正则化线性回归的代价函数为: 如果我们要使用梯度下降法令这个代价函数最小化,因为我们未对theta0进行正则化,所 ...

  3. PHP调用百度天气接口API

    //百度天气接口API $location = "北京"; //地区 $ak = "5slgyqGDENN7Sy7pw29IUvrZ"; //秘钥,需要申请,百 ...

  4. 《http权威指南》读书笔记6

    概述 最近对http很感兴趣,于是开始看<http权威指南>.别人都说这本书有点老了,而且内容太多.我个人觉得这本书写的太好了,非常长知识,让你知道关于http的很多概念,不仅告诉你怎么做 ...

  5. Scala - 快速学习08 - 函数式编程:高阶函数

    函数式编程的崛起 函数式编程中的“值不可变性”避免了对公共的可变状态进行同步访问控制的复杂问题,能够较好满足分布式并行编程的需求,适应大数据时代的到来. 函数是第一等公民 可以作为实参传递给另外一个函 ...

  6. virtualbox ubuntu 安装 openssh-server

    最近为了学 DevOps,自己动手在 virtualbox 上安装 ubuntu 系统,安装完后发现好坑,没办法用 XShell 连接.在线安装 openssh-server 又发现没有配置软件源,手 ...

  7. c# json 序列化如何去掉null值

    要将一个对象序列化,可是如果对象的属性为null的时候,我们想将属性为null的都去掉. 在这里我使用Newtonsoft.Json.dll 记录一下序列化以及反序列化 json字符串转对象 Mode ...

  8. jenkins 'cordova' command not recognised on Jenkins Windows slave

    在jenkins里构建ionic项目.在构建Execute Windows bath command 执行 cordova 跟ionic 命令失败.但是运行cmd却能够执行成功. 惊不惊喜 意不意外, ...

  9. 纯JS实现加载更多(VUE框架)

    <template> <div class = 'car_list' reft='scrollobx' @scroll='scrollready($event)'> </ ...

  10. 【Jquery系列】之Jquery 选择器

    1   概述 本篇文章为穿插文章,ASP.NET MVC系列目前写了如下几篇: 详解google Chrome浏览器(理论篇) 详解Google Chrome浏览器(操作篇)(上) 详解Google ...