Reinforcement Learning: An Introduction读书笔记(2)--多臂机

> 目录 <

k-armed bandit problem
Incremental Implementation
Tracking a Nonstationary Problem
Initial Values
(*) Upper-Confidence-Bound Action Selection(UCB)
(*) Gradient Bandit Algorithms
(*) Associative Search (Contextual Bandits)

> 笔记 <

k-armed bandit problem：

问题定义：重复地从k个options中选择一个，每次都能得到一个reward(每一个option的reward遵循一个稳定的概率)，目标是maximize the total reward。

一个形象的比喻: 医生为若干病人选择治疗方案。

假设我们已经提前知道每个option的expected or mean value，那么每次只需要选择highest value对应的那个action即可；然而一开始我们并不知道该信息or只知道estimated values，那么我们该怎么做呢？我们有两种选择：

choice 1—exploiting--选择greedy action(i.e. 选择具有最大估计值的action)；

choice 2—exploring---may produce the greater total reward in the long run。

为了平衡exploiting和exploring，我们可以采用near-greedy action selection rule 的$ \varepsilon $ -greedy 方法，即大部分情况下(概率为 1- $ \varepsilon $)采取choice 1，少部分情况下(概率为$ \varepsilon $)采用choice 2 。其好处是可以让agent通过探索来提升发现最佳action的可能性。

那么如何估计action values？可以采用sample-average method，即取多次reward的均值，公式如下：

${t}(a)\doteq \frac{ {\rm sum\,of\, rewards\, when\,} a\, {\rm take\, prior\, to\,} t}{{\rm number\, of\, times\,} a\, {\rm taken\, prior\, to\,} t}$

书中给出了一个 10-armed bandit的例子，总共进行2000次选择，下图给出了前1000次的对比：

得出结论：(1) greedy method在最开始提升的速度最快，但是后期的表现维持在一个较低的程度；(2) 虽然$ \varepsilon $=0.1比$ \varepsilon $=0.01更早找到optimal action，但最终表现不如$ \varepsilon $=0.01(图中没表现出来，因为还未收敛)。

需要说明的是，$ \varepsilon $-greedy和greedy算法的性能与问题本身密切相关。方差比较大时，前者的优势更明显，但当方差为0时，单纯的greedy算法更好，因为只需要试验一次就可以得到最优action。此外，对于本问题而言，它属于deterministic problem，因为reward和转移函数都是固定的。当问题进一步扩展到nonstationary范畴内，就更需要exploring来适应dynamic。

Incremental Implementation：

如何更有效地计算估计的action values呢？我们一直采用的方法是计算平均值的方式，但弊端是我们需要记录每次的reward (i.e. 下图方法1)，导致占用内存空间。为了解决这一问题，我们将公式变形，发现每次value可以通过递推的方式实现 (i.e. 下图方法2，constant memory & constant per-time-step computation)，这样就不需要多余的空间来存储历史reward了。

可以写成：

至此，可以给出多臂机的伪代码：

Tracking a Nonstationary Problem：

如果环境变得不再nonstationary (比如多臂机例子中reward probabilities可能会随着时间变化)，那么相对很早以前的rewards，我们通常会给recent rewards一个更大的权值来给出value的估计值 (i.e. Q value)，为此我们引入一个constant step-size parameter $\alpha$，得到

这种方法叫做exponential recency-weighted average。

Initial Values：

设定Initial action values最简单的方法是全部设成0。更好的一种方法是把initial value设置成一个比真实value大的值(比如文中设成5，实际值是一个满足normal 分布(均值=1)的值)，这样all action在开始的时候很快都会被尝试一遍。特别的，如果是stationary problem，我们可以只采用greedy 而不是$ \varepsilon $-greedy method就可以达成目标，但不适用于nonstationary problem，因为没有exploring。

(*) Upper-Confidence-Bound Action Selection(UCB):

$ \varepsilon $-greedy可以让我们实现exploit和explore之间的平衡，但是当我们在explore选择non-greedy action时是随机选取的，有没有更好的方式呢？我们可以在选择的时候重点考虑那些有更大概率是最佳action的集合。

$A_{t}\doteq \underset{a}{argmax}[Q_{t}(a)+c\sqrt{\frac{lnt}{N_{t}(a)}}]$

(*) Gradient Bandit Algorithms:

Gradient Bandit Algorithms通过学习每个action的numerical preference来选择action。preference的数值越大，表明该action被选中的几率越大。不同于基于评估的action values来选择action的方法，这里preference的值与reward并没有直接关系，它只是表达了对不同action的喜好。

下图是上述几种算法在不同参数下的performance对比图：

(*) Associative Search (Contextual Bandits)：

之前讨论的赌博机问题是很基本的，不存在states的概念，agent学习到的是在任何情况下的最优行动。实际上，完整的RL问题比多臂机问题更复杂，它包含环境状态，新状态取决于之前的行动，并且回报在时间上也可能存在延迟性。上下文赌博机(Contextual Bandits)比之前讨论的赌博机问题更贴近于RL，因为它引入了state的概念。Contextual Bandits中包含多台赌博机，每台机器的arms的回报概率都不同，state可以告诉我们正在操作哪一台机器。agent的学习目标不再是针对单一机器的最优行动，而是针对多台机器。很多个性化新闻/广告推荐系统都是基于Contextual Bandits的。

拓展阅读(Thompson Sampling，Gittins index)：https://www.sohu.com/a/221811077_775742

Reinforcement Learning: An Introduction读书笔记(2)--多臂机的更多相关文章

Reinforcement Learning: An Introduction读书笔记(3)--finite MDPs
> 目录 < Agent–Environment Interface Goals and Rewards Returns and Episodes Policies and Val ...
Reinforcement Learning: An Introduction读书笔记(1)--Introduction
> 目录 < learning & intelligence 的基本思想 RL的定义.特点.四要素与其他learning methods.evolutionary m ...
Reinforcement Learning: An Introduction读书笔记(4)--动态规划
> 目录 < Dynamic programming Policy Evaluation (Prediction) Policy Improvement Policy Iterat ...
强化学习读书笔记 - 02 - 多臂老O虎O机问题
# 强化学习读书笔记 - 02 - 多臂老O虎O机问题学习笔记: [Reinforcement Learning: An Introduction, Richard S. Sutton and An ...
《Machine Learning Yearing》读书笔记
——深度学习的建模.调参思路整合. 写在前面最近偶尔从师兄那里获取到了吴恩达教授的新书<Machine Learning Yearing>(手稿),该书主要分享了神经网络建模.训练.调节 ...
Machine Learning for hackers读书笔记(六)正则化：文本回归
data<-'F:\\learning\\ML_for_Hackers\\ML_for_Hackers-master\\06-Regularization\\data\\' ranks < ...
Machine Learning for hackers读书笔记(三)分类：垃圾邮件过滤
#定义函数,打开每一个文件,找到空行,将空行后的文本返回为一个字符串向量,该向量只有一个元素,就是空行之后的所有文本拼接之后的字符串 #很多邮件都包含了非ASCII字符,因此设为latin1就可以读取 ...
Machine Learning for hackers读书笔记_一句很重要的话
为了培养一个机器学习领域专家那样的直觉,最好的办法就是,对你遇到的每一个机器学习问题,把所有的算法试个遍,直到有一天,你凭直觉就知道某些算法行不通.
Machine Learning for hackers读书笔记(十二)模型比较
library('ggplot2')df <- read.csv('G:\\dataguru\\ML_for_Hackers\\ML_for_Hackers-master\\12-Model_C ...

随机推荐

利用Module模块把构建的神经网络跑起来
训练一个神经网络往往只需要简单的几步: 准备训练数据初始化模型的参数模型向往计算与向后计算更新模型参数设置相关的checkpoint 如果上述的每个步骤都需要我们写Python的代码去一步步实 ...
ElasticSearch写入数据的工作原理是什么？
面试题 es 写入数据的工作原理是什么啊?es 查询数据的工作原理是什么啊?底层的 lucene 介绍一下呗?倒排索引了解吗? 面试官心理分析问这个,其实面试官就是要看看你了解不了解 es 的一些基 ...
CSS3新增伪类--好用的:target
问:如果让你实现下图,点击跳转后,让内容1增加一个背景颜色,你会怎么做呢? 可能很多小伙伴第一反应是用JS,给跳转绑定点击事件,然后用DOM获取到内容1,在给其添加css样式. 如果我跟你说用cs ...
Ubuntu 16.04下GDB调试
在linux中还有一个更受大家欢迎的调试工具:GDB.GDB是一个由GNU开源组织发布的.UNIX/LINUX操作系统下的.基于命令行的.功能强大的程序调试工具.可以用来调试C,C++程序. GDB功 ...
项目中git版本控制及协作开发的常用操作（命令行，小乌龟，sourcetree）
一. git命令:https://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c8c017b000 小乌龟:htt ...
c++多继承多态
C++多继承多态的实现如果一个类中存在虚函数,在声明类的对象时,编译器就会给该对象生成一个虚函数指针,该虚函数指针指向该类对应的虚函数表. 多态的实现是因为使用了一种动态绑定的机制,在编译期间不确定 ...
[源码]Python简易http服务器(内网渗透大文件传输含下载命令)
Python简易http服务器源码 import SimpleHTTPServerimport SocketServerimport sysPORT = 80if len(sys.argv) != 2 ...
sql server 性能调优之资源等待内存瓶颈的三种等待类型
一.概述这篇介绍Stolen内存相关的主要三种等待类型以及对应的waittype编号,CMEMTHREAD(0x00B9),SOS_RESERVEDMEMBLOCKLIST(0x007B),RESO ...
[python]使用virtualenvWrapper
什么是virtualenv virtualenv是python的环境管理工具,用于隔离python的运行环境.也就是说,一个项目可以有一个属于这个项目的运行环境,从而避免了因为依赖不同的模块而产生的错 ...
编码（2）从字节理解Unicode（UTF8/UTF16)
https://www.cnblogs.com/zizifn/p/4716712.html 从字节理解Unicode(UTF8/UTF16) 如果你不知道或者不了解什么是Unicode/UTF8/UT ...

Reinforcement Learning: An Introduction读书笔记(2)--多臂机

Reinforcement Learning: An Introduction读书笔记(2)--多臂机的更多相关文章

随机推荐

热门专题