DQN核心思想理解

　　看过Deep learning（convolutional neural network），看过RL（Q-learning）。但是在两者结合这一块一直弄不明白。

　　我的疑问在于一直不明白DL是怎样识别出那个特定的物体，比如，木板或者小鸟。以及Q-learning怎样做决策。

　　后来才发现，DQN的核心思想并没有识别出特定物体。

　　DQN里面的Deep learning部分，输入是原始图像，输出是action对应的Q值（类似于有这么多action类，每一类的概率值）。原始图像就是当前state (current state)，把当前state输入到Deep Learning里面，以计算在该state下对应的各Action的Q值。

　　有人问，那这怎么计算啊。我们都知道在RL里面，Q值是通过Reward来更新的。但是在DQN里面，Q值是直接算出来的。你可以把中间的neural network部分，看成一个函数f，最后输出的Q(s,a) 就等于 f(s)。这是非常不同的一点。

　　这样就算了，那感觉和Q-learning也没多少联系啊。联系在于neural network的loss function部分。我们都知道neural network是需要训练后，才能正常工作的。既然要对Neural network进行训练，那么Loss function就是必须的。那么怎样定义这个loss function呢？我们都知道这个loss function是对neural network的输出Q值进行更新的一个函数。Q值更新？似曾相识啊，这个Q值更新我们参考《Reinforcement Learning: An Introduction》2nd sutton教材的P142页：

　　这个就是Q值的Q-learning更新公式。我们就用这个公式来做loss function，保证最后得到的Q值是最优的。

　　至于怎样训练，就是类似于RL的通用方法，通过经验值计算。思想就是，大量模拟，在数量达到一定阶段后，这个得到的Q值就非常接近真实的Q值了。学名叫做experience replay（经验池），可以参考蒲丰投针实验。（其实这一点有点模糊，在RL里面，为什么Q会趋近于真实值Q，一是因为有实际的环境模拟，二是因为有一个Reward，这个Reward是按照一个终值的确定Reward，一点点往前面state传递的，所以在很多episodes后，Q值最终会趋向稳定。但是在Neural Network中，这种前后states之间的联系是如何保证的？以及为什么这样计算他就也能像Q-learning那样收敛？难道是weights的原因，毕竟前后states是用同一个neural network。这里有待进一步弄清楚）

References:

https://zhuanlan.zhihu.com/p/21421729

DQN核心思想理解的更多相关文章

Rookey.Frame v1.0 视频教程之三发布－框架核心思想介绍
本期发布视频: (三)Rookey.Frame v1.0框架核心思想介绍了Rookey.Frame v1.0框架搭建的核心思想,将框架核心思想理解清楚,对框架运行就会得心应手官方视频教程: htt ...
《深入理解Spark：核心思想与源码分析》——SparkContext的初始化（叔篇）——TaskScheduler的启动
<深入理解Spark:核心思想与源码分析>一书前言的内容请看链接<深入理解SPARK:核心思想与源码分析>一书正式出版上市 <深入理解Spark:核心思想与源码分析> ...
《深入理解Spark：核心思想与源码分析》（前言及第1章）
自己牺牲了7个月的周末和下班空闲时间,通过研究Spark源码和原理,总结整理的<深入理解Spark:核心思想与源码分析>一书现在已经正式出版上市,目前亚马逊.京东.当当.天猫等网站均有销售 ...
《深入理解Spark：核心思想与源码分析》（第2章）
<深入理解Spark:核心思想与源码分析>一书前言的内容请看链接<深入理解SPARK:核心思想与源码分析>一书正式出版上市 <深入理解Spark:核心思想与源码分析> ...
《深入理解Spark：核心思想与源码分析》一书正式出版上市
自己牺牲了7个月的周末和下班空闲时间,通过研究Spark源码和原理,总结整理的<深入理解Spark:核心思想与源码分析>一书现在已经正式出版上市,目前亚马逊.京东.当当.天猫等网站均有销售 ...
《深入理解Spark：核心思想与源码分析》正式出版上市
自己牺牲了7个月的周末和下班空闲时间,通过研究Spark源码和原理,总结整理的<深入理解Spark:核心思想与源码分析>一书现在已经正式出版上市,目前亚马逊.京东.当当.天猫等网站均有销售 ...
Spring核心思想：“控制反转”，也叫“依赖注入” 的理解
@Service对应的是业务层Bean,例如: @Service("userService") public class UserServiceImpl implements Us ...
Hibernate核心思想—ORM机制（一）
转:http://blog.csdn.net/wanghuan203/article/details/7566518 hibernate是一个采用ORM(Object/Relation Mapping ...
python中 and 和 or 运算的核心思想 ——— 短路逻辑
python中 and 和 or 运算的核心思想 --- 短路逻辑 1. 包含一个逻辑运算符首先从基本的概念着手,python中哪些对象会被当成 False 呢?而哪些又是 True 呢? 在Pyt ...

随机推荐

orcale 之多表查询
在以往的工作中我们不可能单一的从一张表中查询数据,而在开始设计数据库的时候,我们会把一些数据存放在不同的数据表中,因此往往需要从多个数据表中获取到我们想要的数据. 笛卡儿积在学习这些之前我们先了解一 ...
虚拟机下linux 的root密码忘记怎么修改（转）
1.开机时任意按一个方向键,进入界面,选择linux系统,按e键进入 2.然后用上下键选择kerner(内核)那一行,按e键进入编辑界面,编辑界面最后一行显示如下:(grub edit> ker ...
SQL索引器
1.什么是SQL索引器索引是对数据库表中一列或多列的值进行排序的一种结构,使用索引可快速访问数据库表中的特定信息. 数据库索引好比是一本书前面的目录,能加快数据库的查询速度. 例如这样一个查询:se ...
WeUI logo专为微信设计的 UI 库 WeUI
http://www.oschina.net/p/weui?fromerr=FnwHyWAb http://weui.github.io/weui/
Centos 从零开始 (三)
8:连接阿里云. 需要用到 ssh指令进行远程登陆 [root@localhost ~]# service sshd start #如果没开启服务的话,需要开启服务. [root@localhost ...
sqlserver - FOR XML PATH
FOR XML PATH 有的人可能知道有的人可能不知道,其实它就是将查询结果集以XML形式展现,有了它我们可以简化我们的查询语句实现一些以前可能需要借助函数活存储过程来完成的工作.那么以一个实例为主 ...
Linux+Git命令
Linux 文件与目录 cd命令: $ cd [path] //path为路径名称,这只是常规语法 1 详细用法如下: $ cd /d //进入d盘 $ cd d: //进入d盘 $ cd D: // ...
ajax实现菜单联动显示信息（当选择单位的时候，动态关联出人员信息）
在jsp页面中使用onchange属性调用下面的方法: 在script中写入: function fromid(){ var from_id = $("#from_id").val ...
swoole安装
转自:http://blog.csdn.net/u014207604/article/details/49926207 Windows 下安装 swoole 具体步骤: Swoole,原本不支持在Wi ...
C#学习笔记15
1.平台互操作性和不安全的代码:C#功能强大,但有些时候,它的表现仍然有些“力不从心”,所以我们只能摒弃它所提供的所有安全性,转而退回到内存地址和指针的世界. C#通过3种方式对此提供支持. (1)第 ...

DQN核心思想理解

DQN核心思想理解的更多相关文章

随机推荐

热门专题