之前讲了监督学习和无监督学习，今天主要讲“强化学习”。

马尔科夫决策过程；Markov Decision Process（MDP）

价值函数；value function

值迭代；value iteration(算法，解决MDP)

政策迭代；policy iteration(算法，解决MDP)

什么是强化学习？

强化学习(reinforcement learning，又称再励学习，评价学习)是一种重要的机器学习方法，在智能控制机器人及分析预测等领域有许多应用。但在传统的机器学习分类中没有提到过强化学习，而在连接主义学习中，把学习算法分为三种类型，即非监督学习(unsupervised learning)、监督学习(supervised leaning)和强化学习。

根据Agent当前状态，选择了动作a，这时与环境发生了交互，Agent观测到下一个状态，并收到了一定的奖赏r（有好有坏）。
如此反复的与环境进行交互，在一定条件下，Agent会学习到一个最优/次优的策略。

马尔科夫决策过程

马尔可夫决策过程是基于马尔可夫过程理论的随机动态系统的最优决策过程。马尔可夫决策过程是序贯决策的主要研究领域。它是马尔可夫过程与确定性的动态规划相结合的产物，故又称马尔可夫型随机动态规划，属于运筹学中数学规划的一个分支。

（以下转自：http://blog.csdn.net/dark_scope/article/details/8252969）

马尔科夫决策是一个五元组，，用一个机器人走地图的例子来说明它们各自的作用

S：状态集：就是所有可能出现的状态，在机器人走地图的例子中就是所有机器人可能出现的位置

A：action，也就是所有可能的行动。机器人走地图的例子假设机器人只能朝四个方向走，那么A就是{N，S，E，W}表示四个方向

P：就是机器人在S状态时采取a行动的概率

γ：叫做discount factor，是一个0到1之间的数，这个数决定了动作先后对于结果的影响度，在棋盘上的例子来说就是影响了这一步

棋对于最结果的影响有多大可能说起来比较模糊，通过后面的说明可能会讲得比较清楚。

R：是一个reward function，也就是可能是一个，也可能是，对应来说就是地图上的权值

有了这样一个决策过程，那么机器人在地图上活动的过程也可以表现为如下的形式：

也就是从初始位置开始，选择一个action到达另一个状态，直到到达终状态，因此我们这样来定义这个过程的价值：

可以看出越早的决定对价值影响越大，其后则依次因为γ而衰减

其实可以看出，给出一个MDP之后，因为各个元都是定值，所以存在一个最优的策略(ploicy)，策略即是对于每个状态给出一个action，最优

策略就是在这样的策略下从任意一个初始状态能够以最大的价值到达终状态。策略用π表示。用

表示在策略π下以s为初始状态所能取得的价值，而通过Bellman equation，上式又等于：

注意这是一个递归的过程，在知道s的价值函数之前必去知道所有的s'的价值函数。(价值函数指的是Vπ())

而我们定义最优的策略为π*，最优的价值函数为V*，可以发现这两个东西互为因果，都能互相转化。

价值迭代(Value iteration )

这个过程其实比较简单，因为我们知道R的值，所以通过不断更新V，最后V就是converge到V*，再通过V*就可以得到最优策略π*，通

过V*就可以得到最优策略π*其实就是看所有action中哪个action最后的value值最大即可，此处是通过bellman equation，可以通过解bellman equation得到

所有的V的值，这里有一个动归的方法，注意马尔科夫决策过程中的P其实是指客观存在的概率，比如机器人转弯可能没法精确到一个方向，而不是指在s状态

机器人选择a操作的概率，刚才没说清楚

在此说明，也就是说：

是一个客观的统计量。

策略迭代(policy iteration)

策略迭代法（policy iteration method），动态规划中求最优策略的基本方法之一。它借助于动态规划基本方程，交替使用“求值计算”和“策略改进”两个步骤，求出逐次改进的、最终达到或收敛于最优策略的策略序列。

这次就是通过每次最优化π来使π converge到π*，V到V*。但因为每次都要计算π的value值，所以这种算法并不常用

【cs229-Lecture16】马尔可夫决策过程的更多相关文章

增强学习（二）----- 马尔可夫决策过程MDP
1. 马尔可夫模型的几类子模型大家应该还记得马尔科夫链(Markov Chain),了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model,HMM).它们具有的一个共同性质就是 ...
[Reinforcement Learning] 马尔可夫决策过程
在介绍马尔可夫决策过程之前,我们先介绍下情节性任务和连续性任务以及马尔可夫性. 情节性任务 vs. 连续任务情节性任务(Episodic Tasks),所有的任务可以被可以分解成一系列情节,可以看作 ...
强化学习-MDP(马尔可夫决策过程)算法原理
1. 前言前面的强化学习基础知识介绍了强化学习中的一些基本元素和整体概念.今天讲解强化学习里面最最基础的MDP(马尔可夫决策过程). 2. MDP定义 MDP是当前强化学习理论推导的基石,通过这套框 ...
David Silver强化学习Lecture2：马尔可夫决策过程
课件:Lecture 2: Markov Decision Processes 视频:David Silver深度强化学习第2课 - 简介 (中文字幕) 马尔可夫过程马尔可夫决策过程简介马尔可夫决 ...
【RL系列】马尔可夫决策过程——状态价值评价与动作价值评价
请先阅读上两篇文章: [RL系列]马尔可夫决策过程中状态价值函数的一般形式 [RL系列]马尔可夫决策过程与动态编程状态价值函数,顾名思义,就是用于状态价值评价(SVE)的.典型的问题有“格子世界(G ...
【RL系列】马尔可夫决策过程中状态价值函数的一般形式
请先阅读上一篇文章:[RL系列]马尔可夫决策过程与动态编程在上一篇文章里,主要讨论了马尔可夫决策过程模型的来源和基本思想,并以MAB问题为例简单的介绍了动态编程的基本方法.虽然上一篇文章中的马尔可夫 ...
【RL系列】马尔可夫决策过程——Jack‘s Car Rental
本篇请结合课本Reinforcement Learning: An Introduction学习 Jack's Car Rental是一个经典的应用马尔可夫决策过程的问题,翻译过来,我们就直接叫它“租 ...
马尔可夫决策过程MDP
1. 马尔可夫模型的几类子模型马尔科夫链(Markov Chain),了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model,HMM).它们具有的一个共同性质就是马尔可夫性(无 ...
转：增强学习（二）----- 马尔可夫决策过程MDP
1. 马尔可夫模型的几类子模型大家应该还记得马尔科夫链(Markov Chain),了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model,HMM).它们具有的一个共同性质就是 ...

随机推荐

关于网卡eth0、eth1以及服务器为什么要把内网和外网卡区分开
在搜搜上看到了这个回答,它解释了什么是eth0,eth1: eth0和eth1这是网卡设备,只是个名称不必纠结.通常服务器会有多个网卡的,所以就有eth0 eth1 eth2 这样的名称,而且在一些系 ...
intellij代码跳转后跳回
跳转快捷键: ctrl+b 跳回的快捷键默认为 ctrl+alt+left 然而在我的电脑上并没有卵用,所以自己设置回退的快捷键,设置位置为: File/Setting/Keymap 选择 Main ...
Nodejs学习笔记（十）--- 与MongoDB的交互（mongodb/node-mongodb-native）、MongoDB入门
目录简介 MongoDB安装(windows) MongoDB基本语法和操作入门(mongo.exe客户端操作) 库操作插入查询修改删除存储过程 nodejs操作MongoDB 插入查询 ...
How to use AKBusGpsParser
step 01: sudo easy_install AKBusGpsParser step02: Let's see a sample #!/usr/bin/python #coding:UTF-8 ...
SHINY－SERVER R（sparkR）语言web解决方案架设shiny服务器
1. shiny server简介 shiny-server是一种可用把R 语言以web形式展示的服务,其实RStudio公司自己构建了R Shiny Application运行的平台(http:// ...
asynchttpClient框架关于多文件批量上传的问题，改用xUtil
RequestParams params = new RequestParams(); params.add("ordernum",ordernum); params.add(&q ...
关于C++ const 的全面总结
http://blog.csdn.net/Eric_Jo/article/details/4138548 C++中的const关键字的用法非常灵活,而使用const将大大改善程序的健壮性,本人根据各方 ...
用eclipse建立servlet工程
1.打开eclipse,选择[文件]|[新建]|[项目] 2.选择[Tomcat Project]后单击下一步,输入项目名[TestTomcat],选择下一步,将[Can update contex ...
python3 crypto winrandom import error
早就听说3的包很成熟了,自从从2.7过渡上来后还是碰到各种不适应,可以想象更早的时候问题该要多么多,特别一些必备库经典库如果没有跟进得多痛苦. [code lang="python" ...
SQL 游标使用实例
IF EXISTS(SELECT *FROM sysobjects WHERE name='sp_ContestSubmit') DROP PROC sp_ContestSubmit GO -- == ...

【cs229-Lecture16】马尔可夫决策过程

马尔科夫决策过程

价值迭代(Value iteration )

策略迭代(policy iteration)

【cs229-Lecture16】马尔可夫决策过程的更多相关文章

随机推荐

热门专题