1. Deep Q-Learning

传统的强化学习算法具有很强的决策能力，但难以用于高维空间任务中，需要结合深度学习的高感知能力，因此延展出深度强化学习，最经典的就是DQN(Deep Q-Learning)。

DQN 2013

DQN的主要思想是训练CNN拟合出Q-Learning算法，以此让智能体在复杂的RL环境中从原始视频数据学到成功的控制策略。

实现：

用参数$\theta$的CNN近似最优Q-values

\[Q(s,a;\theta)\approx Q^*(s,a)
\]

结合Bellman最优方程得到第$i$次迭代更新的目标

\[y_i=\mathbb{E}_{s^\prime \sim \mathcal{E}}\big[r+\gamma \max_{a^\prime}Q(s^\prime,a^\prime;\theta_{i-1})|s,a\big]
\]

定义网络的损失函数

\[L_i(\theta_i)=\mathbb{E}_{s,a\sim \rho(\cdot)}\big[\big(y_i-Q(s,a;\theta_i) \big)^2\big]$$ $\rho(s,a)$是行为分布(behavior distribution)，即在序列$s$上执行动作$a$的概率分布
3. 求出梯度
$$\triangledown_{\theta_i}L_i(\theta_i)=\mathbb{E}_{s,a\sim\rho(\cdot);s^\prime\sim\mathcal{E}}\bigg[\Big(r+\gamma\max_{a^\prime}Q(s^\prime,a^\prime;\theta_{i-1})-Q(s,a;\theta_i) \Big)\triangledown_{\theta_i}Q(s,a;\theta_i) \bigg]\]

难点以及解决方法：

强化学习假设智能体与环境的交互具有马尔科夫性，而现实中大多任务是部分可观的，智能体很难从当前视频帧$x_t$中获取到足够有用的信息。通过动作和观测序列$s_t=x_1,a_1,x_2,...,a_{t-1},x_t$，人为地设定了MDP
训练CNN所需的样本需要相互独立，而RL状态间的相关性极高。通过经验回放机制(experience replay mechansim)，保存以前的转移并进行随机采样，缓解数据相关性，保证训练数据分布平滑
单帧输入不包含时序信息，因此网络输入是经过预处理的4帧堆叠图像

Nature DQN

Nature DQN主要是对DQN 2013做了修改：

网络结构

DQN是一个端到端的模型，输入是预处理后的四帧灰度图像的堆叠，先经过三个卷积层提取特征，然后用两个全连接层作为决策层，最后输出为一个向量，向量的元素对应每个可执行动作的概率值，网络结构如下图：

减少相关性

DQN 2013的$Q(s,a)$和$r+\gamma\max_{a^\prime}Q(s^\prime,a^\prime)$之间存在相关性，因此在网络训练过程中损失难以收敛。为了减少它们的相关性，Nature DQN使用了两个网络：主网络用于模型参数的更新，以及$Q(s,a;\theta_i)$的拟合；目标网络每隔一个周期对主网络进行一次拷贝，生成近似的目标价值$r+\gamma \max_{a^\prime}Q(s^\prime,a^\prime;\theta_i^-)$($\theta_i$是主网络第$i$次迭代的参数，$\theta_i^-$是目标网络的参数，是从主网络参数$\theta_{i-1}$复制得到)。最后，损失函数为

\[L_i(\theta_i)=\mathbb{E}_{(s,a,r,s^\prime)\sim U(D)}\Big[\Big(r+\gamma\max_{a^\prime}Q(s^\prime,a^\prime;\theta_i^-)-Q(s,a;\theta_i) \Big)^2 \Big]
\]

从而得到梯度：

\[\triangledown_{\theta_i}L(\theta_i)=\mathbb{E}_{s,a,r,s^\prime}\Big[\Big(r+\gamma\max_{a^\prime}Q(s^\prime,a^\prime;\theta_i^-)-Q(s,a;\theta_i) \Big)\triangledown_{\theta_i}Q(s,a;\theta_i) \Big]
\]

其中，$D$是经验回放池，用于存储每一时刻的转移，可以表示为$e_t=(s_t,a_t,r_t,s_{t+1})$，$e_t\in D_t=\{e_1,e_2,...,e_t\}$；在学习阶段，用于Q-Learning更新的样本服从于$U(D)$分布，即从$D$中均匀采样。从梯度公式中可以看出，只需要更新$\theta_i$，减小了计算量和相关性。训练过程如下图：

算法伪代码：

References

Volodymyr Mnih et al. Playing Atari with Deep Reinforcement Learning. 2013.

Volodymyr Mnih et al. Human-level control through deep reinforcement learning. 2015.

1. Deep Q-Learning的更多相关文章

deep Q learning小笔记
1.loss 是什么 2. Q-Table的更新问题变成一个函数拟合问题,相近的状态得到相近的输出动作.如下式,通过更新参数 θθ 使Q函数逼近最优Q值深度神经网络可以自动提取复杂特征,因此,面对高 ...
Open source packages on Deep Reinforcement Learning
智能车 self driving car + 强化学习 reinforcement learning + 神经网络模拟 https://github.com/MorvanZhou/my_resear ...
(转) Deep Reinforcement Learning: Pong from Pixels
Andrej Karpathy blog About Hacker's guide to Neural Networks Deep Reinforcement Learning: Pong from ...
【资料总结】| Deep Reinforcement Learning 深度强化学习
在机器学习中,我们经常会分类为有监督学习和无监督学习,但是尝尝会忽略一个重要的分支,强化学习.有监督学习和无监督学习非常好去区分,学习的目标,有无标签等都是区分标准.如果说监督学习的目标是预测,那么强 ...
Deep Reinforcement Learning: Pong from Pixels
这是一篇迟来很久的关于增强学习(Reinforcement Learning, RL)博文.增强学习最近非常火!你一定有所了解,现在的计算机能不但能够被全自动地训练去玩儿ATARI(译注:一种游戏机) ...
[DQN] What is Deep Reinforcement Learning
已经成为DL中专门的一派,高大上的样子 Intro: MIT 6.S191 Lecture 6: Deep Reinforcement Learning Course: CS 294: Deep Re ...
强化学习9-Deep Q Learning
之前讲到Sarsa和Q Learning都不太适合解决大规模问题,为什么呢? 因为传统的强化学习都有一张Q表,这张Q表记录了每个状态下,每个动作的q值,但是现实问题往往极其复杂,其状态非常多,甚至是连 ...
如何用简单例子讲解 Q - learning 的具体过程？
作者:牛阿链接:https://www.zhihu.com/question/26408259/answer/123230350来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明 ...
强化学习_Deep Q Learning(DQN)_代码解析
Deep Q Learning 使用gym的CartPole作为环境,使用QDN解决离散动作空间的问题. 一.导入需要的包和定义超参数 import tensorflow as tf import n ...
(zhuan) Deep Reinforcement Learning Papers
Deep Reinforcement Learning Papers A list of recent papers regarding deep reinforcement learning. Th ...

随机推荐

Vue入门到精通
Vue.js - Day1 课程介绍前5天: 都在学习Vue基本的语法和概念:打包工具 Webpack , Gulp 后5天: 以项目驱动教学: 什么是Vue.js Vue.js 是目前最火的一个前 ...
7.kafka HA
manacher(马拉车算法)
Manacher(马拉车算法) 序言 mannacher 是一种在 O(n)时间内求出最长回文串的算法我们用暴力求解最长回文串长度的时间复杂度为O(n3) 很明显,这个时间复杂度我们接受不了,这时候 ...
Github 个人首页的 README，这样玩儿~
本文首发于 Ficow Shen's Blog,原文地址: Github 个人首页的 README,这样玩儿~. 内容概览前言创建仓库修改 README 的内容总结前言大家最近有没有发现这 ...
从基础到实践，一文带你看懂HashMap
摘要:HashMap是一个用于存储Key-Value键值对的集合,它是面试中经常问到的一个知识点. HashMap是面试中经常问到的一个知识点,也是判断一个候选人基础是否扎实的标准之一,因为通过Has ...
dpwwn-02靶机渗透
dpwwn-02靶机渗透将两台机器都配置为net模式. 进行一下内网扫描: 发现主机10.10.10.10,进行端口扫描. 发现有80,111,443,2049等端口开放,443值得注意. 访问网站 ...
puTTY远程登录时，连接不上
可能接收远程登录的SSH服务没启动解决办法,控制台输入,service sshd start
为啥你用@JsonFormat注解时，LocalDateTime会反序列化失败？
写在前面最近,有个小伙伴问我:我在SpringBoot项目中,使用@JsonFormat注解标注LocalDateTime类型的字段时,LocalDateTime反序列化失败,这个我该怎么处理呢?别 ...
macOS使用ABP.vNext Core开发CMS系统（一）让程序跑起来
macOS使用ABP.vNext Core开发CMS系统(一) 让程序跑起来--2020年10月5日国庆假期,陪老婆的同时也不能忘记给自己充充电,这不想搞个CMS系统,考虑自己的时间并不多,所以想找 ...
arduino中SCoop库的简单应用案例
转载:https://www.csdn.net/gather_27/MtTaggzsMDExMS1ibG9n.html arduino中SCoop库的简单应用案例首先这篇文章来在视频https://v ...