【RL系列】Multi-Armed Bandit笔记——UCB策略与Gradient策略

本篇主要是为了记录UCB策略与Gradient策略在解决Multi-Armed Bandit问题时的实现方法，涉及理论部分较少，所以请先阅读Reinforcement Learning: An Introduction (Drfit) 的2.7，2.8的内容。为了更深入一点了解UCB策略，可以随后阅读下面这篇文章：

【RL系列】Multi-Armed Bandit笔记补充（二）—— UCB策略

UCB策略需要进行初始化工作，也就是说通常都会在进入训练之前先将每个动作都测试一变，保证每个动作被选择的次数都不为0且都会有一个初始的收益均值和置信上限，一般不会进行冷启动（冷启动的话，需要在开始时有一定的随机动作，会降低动作选择的效率）。我们可以设初始化函数UCBinitial，将其表现为Matlab：

function [Q UCBq] = UCBInitial(Q, Reward, UCBq)

% CurrentR: Current Reward

% CurrentA: Current Action

% RandK: K-Armed Bandit

% Q: Step-size Average Reward

% UCBq: Q + Upper Confidence Bound

RandK = length(Reward);

for n = 1:RandK

    CurrentA = n;

    CurrentR = normrnd(Reward(CurrentA), 1);

    Q(CurrentA) = (CurrentR - Q(CurrentA))*0.1 + Q(CurrentA);

    UCBq(CurrentA) = Q(CurrentA) + c*(2*log(n))^0.5;

end

在训练中，UCB动作选择策略和置信上限值的更新策略可以写为：

% UCBq: Q + Upper Confidence Bound

% TotalCalls(Action): The Cumulative call times of Action

% c: Standard Deviation of reward in theorical analysis

[MAX CurrentA] = max(UCBq);

MAXq(CurrentA) = Q(CurrentA) + c*(2*log(n)/TotalCalls(CurrentA))^0.5;

注意公式里的c应为理论上收益的标准差，但因为收益分布是一个黑箱，所以这个参数只能从实际实验中测试推断出来。这里我们假设收益标准差为1，所以为了实验效果，设c=1

接下来，我们就看一看UCB策略的测试效果吧。这里我们将其与epsilon-greedy策略进行对比（epsilon = 0.1），首先是Average Reward的测试结果：

UCB算法在前1000次的学习中可以得到比epsilon-greedy更高的均值收益评价。那么这是否就代表了UCB策略可以更高概率的选取最优动作？下面我们看Optimal Action Rate的测试结果：

可以发现学习次数较少时，UCB策略可以比epsilon-greedy策略更快的获得较高概率的最优解，但最优动作选择率始终维持在60%左右，是低于epsilon-greedy策略在1000次学习时接近90%的数值的。这也直接的反映出UCB并不适合求解最优。那为什么最优动作选择率不高，但平均收益却较高呢？UCB大概率选择的优先动作通常是排名靠前的动作，也就是说动作选择并不一定是最优，但大概率是最佳的3个或2个动作中的一个，所以UCB也可用作二元分类策略，将表现较好的（大概率选择的动作）分为一类，表现较差的动作分为一类。

我们来看看UCB在分类中的表现，用80%分类准确度来进行评价。如果经过UCB策略学习后得到的估计收益均值中的前5位中有超过或等于4位与实际的收益均值相符的频率，以此近似为分类的准确度。也就是说，如果有10个bandit，我们将其分为两类，收益高的一类（前5个bandit）与收益低的一类（后5个bandit），80%分类准确度可以以此计算：估计的前5个bandit与实际的有超过4个相符的概率。用数学表述出来就是，如果有一个Reward集合R：

$\mathbb{R} = \{ R_1, R_2, ...,R_9, R_{10} \}$

将其分为两类，按数值大小排序，前五名为一类，归为集合G，G是R的子集。通过学习估计出的G，称为A_G 。那么80%分类准确度可以表示为：

$\mathbb{P}(Length(G\cap \bar{G})>3)$

那么我们直接看结论吧：

UCB的80%分类准确度始终在90%上下，而epsilon-greedy却只有50%左右。显然，UCB在这方面做的要好于epsilon-greedy。

【RL系列】Multi-Armed Bandit笔记——UCB策略与Gradient策略的更多相关文章

【RL系列】Multi-Armed Bandit笔记补充（一）
在此之前,请先阅读上一篇文章:[RL系列]Multi-Armed Bandit笔记本篇的主题就如标题所示,只是上一篇文章的补充,主要关注两道来自于Reinforcement Learning: An ...
【RL系列】Multi-Armed Bandit笔记补充（二）
本篇的主题是对Upper Conference Bound(UCB)策略进行一个理论上的解释补充,主要探讨UCB方法的由来与相关公式的推导. UCB是一种动作选择策略,主要用来解决epsilon-gr ...
【RL系列】Multi-Armed Bandit问题笔记
这是我学习Reinforcement Learning的一篇记录总结,参考了这本介绍RL比较经典的Reinforcement Learning: An Introduction (Drfit) .这本 ...
【RL系列】MDP与DP问题
推荐阅读顺序: Reinforcement Learning: An Introduction (Drfit) 有限马尔可夫决策过程动态编程笔记 Dynamic programming in Py ...
【RL系列】从蒙特卡罗方法步入真正的强化学习
蒙特卡罗方法给我的感觉是和Reinforcement Learning: An Introduction的第二章中Bandit问题的解法比较相似,两者皆是通过大量的实验然后估计每个状态动作的平均收益. ...
【RL系列】马尔可夫决策过程——状态价值评价与动作价值评价
请先阅读上两篇文章: [RL系列]马尔可夫决策过程中状态价值函数的一般形式 [RL系列]马尔可夫决策过程与动态编程状态价值函数,顾名思义,就是用于状态价值评价(SVE)的.典型的问题有“格子世界(G ...
(zhuan) 一些RL的文献（及笔记）
一些RL的文献(及笔记) copy from: https://zhuanlan.zhihu.com/p/25770890 Introductions Introduction to reinfor ...
【RL系列】马尔可夫决策过程中状态价值函数的一般形式
请先阅读上一篇文章:[RL系列]马尔可夫决策过程与动态编程在上一篇文章里,主要讨论了马尔可夫决策过程模型的来源和基本思想,并以MAB问题为例简单的介绍了动态编程的基本方法.虽然上一篇文章中的马尔可夫 ...
Hibernate学习笔记二：Hibernate缓存策略详解
一:为什么使用Hibernate缓存: Hibernate是一个持久层框架,经常访问物理数据库. 为了降低应用程序访问物理数据库的频次,从而提高应用程序的性能. 缓存内的数据是对物理数据源的复制,应用 ...

随机推荐

oracle使用DBMS_RANDOM包生成随机数据
(一)DBMS_RANDOM包信息 DBMS_RANDOM包包含3个存储过程,4个函数,1个类型,一共8个模块,如下. SQL> desc dbms_random Element Type -- ...
我的前端工具集（八）获得html元素在页面中的位置
我的前端工具集(八)获得html元素在页面中的位置 liuyuhang原创,未经允许禁止转载目录我的前端工具集有时候需要用点击等操作,来获取某元素在页面中的位置,然后在该位置添加某些操作如 ...
tomcat启动startup.bat一闪而过【亲测有效】
遇到很多次运行startup.bat后,一个窗口一闪而过的问题,但是从来没去纠正怎样修改配置才是正确的,现在从网上查阅的资料整理如下:tomcat在启动时,会读取环境变量的信息,需要一个CATALIN ...
ABAP术语-Technical Object
Technical Object 原文:http://www.cnblogs.com/qiangsheng/archive/2008/03/18/1111205.html Generic term f ...
消息队列MSMQ的使用
1.MSMQ安装控制面板-程序和功能-打开或关闭Windows功能-Microsoft Message Queue(MSMQ)服务器,选中所有,点击确定. 2.消息队列的应用场景(转载自http:/ ...
利用clear清除浮动的一些问题
下面这段代码是用来清除浮动带来的高度塌陷问题 .clearfix:before { content: "."; display: block; height: 0; clear: ...
百度地图定位JSP代码
附:百度地图API:http://lbsyun.baidu.com/cms/jsapi/reference/jsapi_reference.html#a1b0?qq-pf-to=pcqq.c2c &l ...
Thinkphp5 对接百度云对象存储 BOS （上传、删除）
首先下载SDK包可以在官网下载,或者在项目根目录使用composer . composer require baidubce/bce-sdk-php 压缩包里面有五个文件,实际运用到只有两个,然后放 ...
安装cronsun管理定时脚本
1. cronsun 是一个分布式任务系统,单个结点和 *nix 机器上的 crontab 近似.支持界面管理机器上的任务,支持任务失败邮件提醒,安装简单,使用方便,是替换 crontab 一个不错的 ...
网络文件系统nfs在ubuntu16.04的安装
1.搜索nfs-sudo apt-cache search nfs- 2.安装sudo apt-get install nfs-kernel-server 3.配置:/etc/exports /hom ...

【RL系列】Multi-Armed Bandit笔记——UCB策略与Gradient策略

【RL系列】Multi-Armed Bandit笔记——UCB策略与Gradient策略的更多相关文章

随机推荐

热门专题