【RL系列】马尔可夫决策过程—

Gambler's Problem，即“赌徒问题”，是一个经典的动态编程里值迭代应用的问题。

在一个掷硬币游戏中，赌徒先下注，如果硬币为正面，赌徒赢回双倍，若是反面，则输掉赌注。赌徒给自己定了一个目标，本金赢到100块或是输光就结束游戏。找到一个关于本金与赌注之间关系的策略使得赌徒最快赢到100块。状态s = {1, 2, 3...., 99, 100}，动作a = {1, 2, 3, ...., min(s, 100 - s)}。奖励设置：只有当赌徒赢到100块时奖励+1，其余状态奖励为0。

这个问题并不难，最优policy一定是min(s, 100-s)，这里就不分析了，直接给出计算程序

clear

clc

%% Initialize

Q = zeros(101);

ActionProb = Q + 1/100;

V = zeros(1, 101);

R = V;

R(1, 101)  = 1;

V = R;

hp = 0.4;

i = 0;

delta = 100;

gamma = 0.5;

capital = [1:99];

num = 1;

%% Value Iteration

while(num < 10)

    while(i < num)

        delta = 0;

        capital = [1:99];

        for state = [1:99]

            actions = [1:min(capital(state), 100 - capital(state))];

            PossibleStateLose = capital(state) - actions + 1;

            PossibleStateWin = capital(state) + actions + 1;

            %Q(state + 1, actions) = gamma*(hp*V(PossibleStateWin) + (1 - hp)*V(PossibleStateLose)) + R(PossibleStateWin) + R(PossibleStateLose);

            Q(state + 1, actions) = hp*V(PossibleStateWin) + (1 - hp)*V(PossibleStateLose);

            [MAX index] = max(Q(state + 1, :));

            %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

            %Softmax Policy:

            %ActionProb(state, :) = 0;

            %ActionProb(state, :) = exp(Q(state, :)/0.02)/sum(exp(Q(state, :)/0.02));

            %R(state + 1) = ActionProb(state, :)*Q(state, :)';

            %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

            V(state + 1) = MAX;

        end

    i = i + 1;

    end

    plot(V, 'LineWidth', 2)

    hold on

    num = num + 1;

    grid on

end

%%

figure

for state = 1:100

    [MAX index] = max(Q(state, :));

    Map(state) = index;

    plot(state, index, 'bo')

    hold on

end

%%Test Part

iter = 1;

count = zeros(1, 100);

flag = count;

Mflag = zeros(1, 100);

while(iter < 1000)

Mflag = zeros(1, 100);

Mcount = Mflag;

for state = 1:100

    capital = state;

    while(1)

        if(capital >= 100)

            break

        end

        stake = Map(capital);

        %stake = min(capital, 100 - capital);

        if(rand < 0.4)

            capital = capital + stake;

        else

            capital = capital - stake;

        end

        if(capital <= 0)

            flag(state) = flag(state) + 1;

            Mflag(state) = Mflag(state) + 1;

            break

        else

            count(state) = count(state) + 1;

            Mcount(state) = Mcount(state) + 1;

        end

    end

end

%figure

%plot(find(flag~=1), count(find(flag ~= 1)), 'bo')

FT(iter) = sum(Mflag)/100;

ST(iter) = mean(Mcount(find(Mflag ~= 1)));

iter = iter + 1;

end

figure

plot(1 - flag/1000, 'bo')

figure

plot(count/1000)

mean(1-FT)

mean(ST)

【RL系列】马尔可夫决策过程——Gambler's Problem的更多相关文章

【RL系列】马尔可夫决策过程——状态价值评价与动作价值评价
请先阅读上两篇文章: [RL系列]马尔可夫决策过程中状态价值函数的一般形式 [RL系列]马尔可夫决策过程与动态编程状态价值函数,顾名思义,就是用于状态价值评价(SVE)的.典型的问题有“格子世界(G ...
【RL系列】马尔可夫决策过程中状态价值函数的一般形式
请先阅读上一篇文章:[RL系列]马尔可夫决策过程与动态编程在上一篇文章里,主要讨论了马尔可夫决策过程模型的来源和基本思想,并以MAB问题为例简单的介绍了动态编程的基本方法.虽然上一篇文章中的马尔可夫 ...
【RL系列】马尔可夫决策过程——Jack‘s Car Rental
本篇请结合课本Reinforcement Learning: An Introduction学习 Jack's Car Rental是一个经典的应用马尔可夫决策过程的问题,翻译过来,我们就直接叫它“租 ...
[Reinforcement Learning] 马尔可夫决策过程
在介绍马尔可夫决策过程之前,我们先介绍下情节性任务和连续性任务以及马尔可夫性. 情节性任务 vs. 连续任务情节性任务(Episodic Tasks),所有的任务可以被可以分解成一系列情节,可以看作 ...
增强学习（二）----- 马尔可夫决策过程MDP
1. 马尔可夫模型的几类子模型大家应该还记得马尔科夫链(Markov Chain),了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model,HMM).它们具有的一个共同性质就是 ...
【cs229-Lecture16】马尔可夫决策过程
之前讲了监督学习和无监督学习,今天主要讲“强化学习”. 马尔科夫决策过程:Markov Decision Process(MDP) 价值函数:value function 值迭代:value iter ...
强化学习-MDP(马尔可夫决策过程)算法原理
1. 前言前面的强化学习基础知识介绍了强化学习中的一些基本元素和整体概念.今天讲解强化学习里面最最基础的MDP(马尔可夫决策过程). 2. MDP定义 MDP是当前强化学习理论推导的基石,通过这套框 ...
David Silver强化学习Lecture2：马尔可夫决策过程
课件:Lecture 2: Markov Decision Processes 视频:David Silver深度强化学习第2课 - 简介 (中文字幕) 马尔可夫过程马尔可夫决策过程简介马尔可夫决 ...
马尔可夫决策过程MDP
1. 马尔可夫模型的几类子模型马尔科夫链(Markov Chain),了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model,HMM).它们具有的一个共同性质就是马尔可夫性(无 ...

随机推荐

CentOS查看卸载openjdk
1.查看openjdk版本 java -versionjava version "1.7.0_51" OpenJDK Runtime Environment (rhel-2.4.5 ...
Java编写画图板程序细节-保存已画图形
没有Java编写画图板程序细节-保存已画图形一.为何我们要保存画图板上已画图形呢? 有很多人会问,为什么我们一定要保存画图板上已经画好了的图形呢?原因很简单.当我们在画图板上画完自己想画的图形后 ...
HTML中放置CSS的三种方式和CSS选择器
(一)在HTML中使用CSS样式的方式一般有三种: 1 内联引用 2 内部引用 3 外部引用. 第一种:内联引用(也叫行内引用) 就是把CSS样式直接作用在HTML标签中. <p style ...
Linux下设置共享目录
Linux系统的文件或目录的共享功能是非常强大,而且是非常灵活的,其对权限的控制可以做到非常的细致,当然如果你是通过命令行方式进行设置的话,那么对于刚接触linux系统的用户来说将是一件十分头痛的事 ...
iOS 越狱后 SSH 不能连接
10.3 越狱之后,装上 OpenSSH, 但是发现连接不上,一直卡着不动,端口是通的,但是就是一直卡着.解决方法是在 Cydia 添加源 http://apt.cydiaba.cn,搜索 Dropb ...
arm平台的调用栈回溯(backtrace)
title: arm平台的调用栈回溯(backtrace) date: 2018-09-19 16:07:47 tags: --- 介绍 arm平台的调用栈与x86平台的调用栈大致相同,稍微有些区别, ...
Hadoop HA高可用集群搭建（2.7.2）
1.集群规划: 主机名 IP 安装的软件执行的进程 drguo1 192.168.80.149 j ...
Linux入门进阶第一天——vim文本编辑器
一.VI / VIM概述 [更新]:VIM资料参见:http://www.runoob.com/linux/linux-vim.html 是什么? 是一个文本编辑器. Vim是从 vi 发展出来的一个 ...
MySQL存取特殊数据类型
一.存取大文本数据数据库设计: DDL: CREATE TABLE `article` ( `id` ) COLLATE utf8_bin NOT NULL COMMENT '编号', `conte ...
20155203 实验三《敏捷开发与XP实践》实验报告
20155203 实验三<敏捷开发与XP实践>实验报告一.实验内容在IDEA中使用工具(Code->Reformate Code)把下面代码重新格式化,再研究一下Code菜单,找 ...

【RL系列】马尔可夫决策过程——Gambler's Problem

【RL系列】马尔可夫决策过程——Gambler's Problem的更多相关文章

随机推荐

热门专题