【RL系列】Multi-Armed Bandit笔记补充（二）

本篇的主题是对Upper Conference Bound(UCB)策略进行一个理论上的解释补充，主要探讨UCB方法的由来与相关公式的推导。

UCB是一种动作选择策略，主要用来解决epsilon-greedy在选择时的低效率问题。对于解释UCB的使用机理上，我认为下面这篇文章写的还不错，深入浅出，只不过在公式推导上有一点点问题：

Multi-Armed Bandit: UCB (Upper Bound Confidence)

我们先来说一说epsilon-greedy策略在选择动作时有什么问题。如果epsilon值较小，例如epsilon = 0.1，那么每次实验都有10%的概率是随机选择动作，如果K值（选择较多）较大的话，这样的选择效率是较低的。为什么说这样的选择效率是较低的，因为在一定的实验次数内，epsilon-greedy只能大概率判断出最优动作，而对于其它动作的收益如何是没办法判断的。举个例子吧，如果说epsilon-greedy策略可以帮你找到最好吃的那家餐厅，那么UCB就可以帮你给餐厅的好吃程度排个序，但UCB的坏处也显而易见，这个排序并非是与真是期望情况严格相符的排序，只是估计而已，所以UCB常用于个性化推送而不适用于寻求最优。

为什么epsilon-greedy策略不能做出排序呢？实际上在实验次数不变的情况下，很有可能某些动作的实验次数不够多，这样很难保证我们由实验统计出的各个动作收益均值与实际的收益均值相吻合。其实在概率统计上，由均值产生的统计概率与真实期望总是会产生一定的差值，这个差值小于一个较小值delta的概率就可以称之为置信度。举个例子，如若置信度为95%时，我们就可以说，有大于95%的可能性，估计的均值与实际的期望之差小于delta，用数学语言描述出来就是，alpha为置信度：

$\mathbb{P}\left (\left|\frac{1}{n} \sum_{i=1}^{n} X_i - E(X)\right|<\delta \right) > \alpha \\$

我们将式子稍稍变换一下形式：

$\mathbb{P}\left( -\delta <\frac{\sum (X_i -E(X))}{n} < \delta \right) > \alpha$

依据中心极限定理，可知：

$\frac{1}{\sqrt{n}}\sum_{i = 1}^{n} (X_i - E(X)) \sim N(0, \sigma^2)$

所以有：

$\mathbb{P}\left( -\delta \sqrt{n} <\frac{1}{\sqrt{n}} \sum_{i = 1}^n (X_i - \mu) < \delta \sqrt{n}\right) = \int_{-\delta \sqrt{n}}^{\delta \sqrt{n}} \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{x^2}{2\sigma^2}} dx = \mathbb{erf} \left(\frac{\delta \sqrt{n}}{\sigma \sqrt{2}}\right)$

这里的delta与n皆为大于0的数，依据不等式[1]， $\mathbb{erfc}\left(x \right) < \exp(-x^2)$

$\mathbb{erf}\left( \frac{\delta \sqrt{n}}{\sigma \sqrt{2}} \right) = 1-\mathbb{erfc}\left( \frac{\delta \sqrt{n}}{\sigma \sqrt{2}} \right) > 1- \exp\left[-\left(\frac{\delta \sqrt{n}}{\sigma \sqrt{2}} \right)^2\right] =1-\exp\left(- \frac{n\delta^2 }{2\sigma^2} \right)$

这里我们可以令置信度 $\alpha = 1-\exp\left( -\frac{n\delta^2 }{2\sigma^2} \right)$ ，即可计算出delta关于alpha的等式：

$\delta = \sigma\sqrt{\frac{2\ln\left(\frac{1}{1-\alpha}\right)}{n}}$

为了让置信度尽可能的高，在实际运用中，直接令 $\frac{1}{1-\alpha} = N$ ，N为实验次数。

所以UCB策略才有如下的形式：

$A \approx \max_{a}\left(Q(a) + \sigma\sqrt{\frac{2\ln\left(N\right)}{n}}\right)$

参考文献：

[1] New Exponential Bounds and Approximations for the Computation of Error Probability in Fading Channels, Marco Chiani, Senior Member, IEEE, Davide Dardari, Member, IEEE, and Marvin K. Simon, Fellow, IEEE.

【RL系列】Multi-Armed Bandit笔记补充（二）的更多相关文章

【RL系列】Multi-Armed Bandit笔记补充（一）
在此之前,请先阅读上一篇文章:[RL系列]Multi-Armed Bandit笔记本篇的主题就如标题所示,只是上一篇文章的补充,主要关注两道来自于Reinforcement Learning: An ...
【RL系列】Multi-Armed Bandit笔记——UCB策略与Gradient策略
本篇主要是为了记录UCB策略与Gradient策略在解决Multi-Armed Bandit问题时的实现方法,涉及理论部分较少,所以请先阅读Reinforcement Learning: An Int ...
【RL系列】Multi-Armed Bandit问题笔记
这是我学习Reinforcement Learning的一篇记录总结,参考了这本介绍RL比较经典的Reinforcement Learning: An Introduction (Drfit) .这本 ...
Mysql学习笔记（二）数据类型补充
原文:Mysql学习笔记(二)数据类型补充 PS:简单的补充一下数据类型里的String类型以及列类型... 学习内容: 1.String类型 2.列类型存储需求 String类型: i.char与 ...
[.NET] 《Effective C#》读书笔记（二）- .NET 资源托管
<Effective C#>读书笔记(二)- .NET 资源托管简介续 <Effective C#>读书笔记(一)- C# 语言习惯. .NET 中,GC 会帮助我们管理内 ...
[.NET] 《Effective C#》快速笔记（二）- .NET 资源托管
<Effective C#>快速笔记(二)- .NET 资源托管简介续 <Effective C#>读书笔记(一)- C# 语言习惯. .NET 中,GC 会帮助我们管理内 ...
《Effective C#》快速笔记（二）- .NET 资源托管
简介续 <Effective C#>读书笔记(一)- C# 语言习惯. .NET 中,GC 会帮助我们管理内存,我们并不需要去担心内存泄漏,资源分配和指针初始化等问题.不过,它也并非万能 ...
C#可扩展编程之MEF学习笔记（二）：MEF的导出(Export)和导入(Import)
上一篇学习完了MEF的基础知识,编写了一个简单的DEMO,接下来接着上篇的内容继续学习,如果没有看过上一篇的内容, 请阅读:http://www.cnblogs.com/yunfeifei/p/392 ...
Dynamic CRM 2013学习笔记（二十八）用JS动态设置字段的change事件、必填、禁用以及可见
我们知道通过界面设置字段的change事件,是否是必填,是否可见非常容易.但有时我们需要动态地根据某些条件来设置,这时有需要通过js来动态地控制了. 下面分别介绍如何用js来动态设置. 一.动态设 ...

随机推荐

在linux中禁用一块硬盘
笔记本采用固态加机械的硬盘组合使用中完全用不到机械部分但它总是在启动后运行并发出响声 1 启动后的禁用无需重启 (sdx是你的磁盘 udev的更新可能会导致磁盘重新出现在向系统添加/删除磁盘也 ...
最简单的php学习
php文件操作函数 filetype()判断文件的基本类型 egg 目录文件文件等 dir文件夹 file 文件 stat()函数获得指定文件名参数目标文件的基本属性在php中以is_开头 ...
关于iframe的父页面调取子页面里的事件（父往子里传）
在body里打开一个iframe页面,想要调取打开的这个页面里的函数: $('iframe')[0].contentWindow.sonFn(canshu); [0]:比如在index.html页面里 ...
set集合HashSet
一: 和List接口同一级的还有Set接口,Set类型的集合,元素不能重复,存储顺序和迭代顺序没有必然联系.他的元素的唯一性是由hasCode和equals决定的. 他的子类,常用的HashSet和L ...
Spring源码分析（一）基本介绍
摘要:本文结合<Spring源码深度解析>来分析Spring 5.0.6版本的源代码.若有描述错误之处,欢迎指正. 前言作为一名开发人员,阅读源码是一个很好的学习方式.本文将结合< ...
【原型图】Mockplus
Mockplus 原型设计工具
MongoDB登录验证及用户管理
一.超级管理员创建及开启登录验证如果MongoDB要开启登录验证,必须在开启登录验证之前先创建好超级管理员,否则无法登录数据库! 例如,创建一个超级管理员admin,关联给admin数据库,角色设置 ...
树莓派3B+学习笔记：1、安装官方系统
1.登录树莓派官方网站www.raspberrypi.org,点击Downloads: 2.点击NOOBS: 3.选择下载方式,可以选择下载BT种子或直接下载,这里我用迅雷直接下载,下载速度还是很快的 ...
在myeclipse等IDE中添加本地的dtd与schema约束文件
*针对没有网络无法正确引入dtd而使用不了提示的问题 (配置完后重启IDE) window->perferences- > 搜索xml c 找到xml catalog 右边点击 a ...
Memcached 集群架构问题归纳
集群架构方面的问题o memcached是怎么工作的?o memcached最大的优势是什么?o memcached和MySQL的query cache相比,有什么优缺点?o memcached和服务 ...

【RL系列】Multi-Armed Bandit笔记补充（二）

【RL系列】Multi-Armed Bandit笔记补充（二）的更多相关文章

随机推荐

热门专题