【强化学习】python 实现 saras 例一

本文作者：hhh5460

本文地址：https://www.cnblogs.com/hhh5460/p/10146554.html

说明：将之前 q-learning 实现的例一，用 saras 重新写了一遍。具体问题这里就不多说了。

0. q-learning 与 saras 伪代码的对比

图片来源：https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/3-1-A-sarsa/（莫凡）

1. q-learning 与 saras 真实代码对比

a). q-learning 算法

# 探索学习13次

for i in range(13):

    # 0.从最左边的位置开始（不是必要的）

    current_state = 0

    # 1.进入循环，开始探索学习

    while current_state != states[-1]:

        # 2.取当前状态下的合法动作中，随机（或贪婪）地选一个作为 当前动作

        if random.uniform(0,1) > epsilon:  # 探索

            current_action = random.choice(get_valid_actions(current_state))

        else:

            #current_action = q_table.ix[current_state].idxmax() # 这种写法是有问题的！二维迷宫有机会陷入死锁

            s = q_table.ix[current_state].filter(items=get_valid_actions(current_state))

            current_action = random.choice(s[s==s.max()].index) # 可能多个最大值，当然，一个更好

        #3.执行当前动作，得到下一个状态（位置）

        next_state = get_next_state(current_state, current_action)

        # 4.下个状态的奖励

        next_state_reward = rewards[next_state]

        # 5.取下一个状态所有的Q value，待取其最大值

        next_state_q_values = q_table.ix[next_state, get_valid_actions(next_state)]

        # 6.根据贝尔曼方程，更新 Q table 中当前状态-动作对应的 Q value，有max！

        q_table.ix[current_state, current_action] += alpha * (rewards[next_state] + gamma * next_state_q_values.max() - q_table.ix[current_state, current_action])

        # 7.进入下一个状态（位置）

        current_state = next_state

b). saras 算法

# 探索学习13次

for i in range(13):

    # 0.从最左边的位置开始（不是必要的）

    current_state = 0

    # 1.取当前状态下的一个合法动作

    if random.uniform(0,1) > epsilon: # 探索

        current_action = random.choice(get_valid_actions(current_state))

    else:                             # 利用（贪婪）

        s = q_table.ix[current_state].filter(items=get_valid_actions(current_state))

        current_action = random.choice(s[s==s.max()].index) # 可能多个最大值，当然，一个更好

    # 2.进入循环，开始探索学习

    while current_state != states[-1]:

        # 3.执行当前动作，得到下一个状态（位置）

        next_state = get_next_state(current_state, current_action)

        # 4.取下个状态下的一个合法动作

        if random.uniform(0,1) > epsilon: # 探索

            next_action = random.choice(get_valid_actions(next_state))

        else:                             # 利用（贪婪）

            s = q_table.ix[next_state].filter(items=get_valid_actions(next_state))

            next_action = random.choice(s[s==s.max()].index) # 可能多个最大值，当然，一个更好

        # 5.下个状态的奖励

        next_state_reward = rewards[next_state]

        # 6.取下个状态，下个动作对应的一个Q value

        next_q_value = q_table.ix[next_state, next_action]

        # 7.更新 Q table 中当前状态-动作对应的 Q value，无max！

        q_table.ix[current_state, current_action] += alpha * (next_state_reward + gamma * next_q_value - q_table.ix[current_state, current_action])

        # 8.进入下一状态、下一动作

        current_state, current_action = next_state, next_action

2. 完整代码

'''

-o---T

# T 就是宝藏的位置, o 是探索者的位置

'''

# 作者: hhh5460

# 时间：20181219

import pandas as pd

import random

import time

epsilon = 0.9   # 贪婪度 greedy

alpha = 0.1     # 学习率

gamma = 0.8     # 奖励递减值

states = range(6)           # 状态集。从0到5

actions = ['left', 'right'] # 动作集。也可添加动作'none'，表示停留

rewards = [0,0,0,0,0,1]     # 奖励集。只有最后的宝藏所在位置才有奖励1，其他皆为0

q_table = pd.DataFrame(data=[[0 for _ in actions] for _ in states],

                       index=states, columns=actions)

def update_env(state):

    '''更新环境，并打印'''

    env = list('-----T') # 环境

    env[state] = 'o' # 更新环境

    print('\r{}'.format(''.join(env)), end='')

    time.sleep(0.1)

def get_next_state(state, action):

    '''对状态执行动作后，得到下一状态'''

    global states

    # l,r,n = -1,+1,0

    if action == 'right' and state != states[-1]: # 除末状态（位置），向右+1

        next_state = state + 1

    elif action == 'left' and state != states[0]: # 除首状态（位置），向左-1

        next_state = state -1

    else:

        next_state = state

    return next_state

def get_valid_actions(state):

    '''取当前状态下的合法动作集合，与reward无关！'''

    global actions # ['left', 'right']

    valid_actions = set(actions)

    if state == states[0]:              # 首状态（位置），则 不能向左

        valid_actions -= set(['left'])

    if state == states[-1]:             # 末状态（位置），则 不能向右

        valid_actions -= set(['right'])

    return list(valid_actions)

for i in range(13):

    #current_state = random.choice(states)

    current_state = 0

    if random.uniform(0,1) > epsilon: # 探索

        current_action = random.choice(get_valid_actions(current_state))

    else:                             # 利用（贪婪）

        #current_action = q_table.ix[current_state].idxmax() # 这种写法是有问题的！

        s = q_table.ix[current_state].filter(items=get_valid_actions(current_state))

        current_action = random.choice(s[s==s.max()].index) # 可能多个最大值，当然，一个更好

    update_env(current_state) # 环境相关

    total_steps = 0           # 环境相关

    while current_state != states[-1]:

        next_state = get_next_state(current_state, current_action)

        if random.uniform(0,1) > epsilon: # 探索

            next_action = random.choice(get_valid_actions(next_state))

        else:                             # 利用（贪婪）

            #next_action = q_table.ix[next_state].idxmax() # 这种写法是有问题的！可能会陷入死锁

            s = q_table.ix[next_state].filter(items=get_valid_actions(next_state))

            next_action = random.choice(s[s==s.max()].index) # 可能多个最大值，当然，一个更好

        next_state_reward = rewards[next_state]

        next_q_value = q_table.ix[next_state, next_action]

        q_table.ix[current_state, current_action] += alpha * (next_state_reward + gamma * next_q_value - q_table.ix[current_state, current_action])

        current_state, current_action = next_state, next_action

        update_env(current_state) # 环境相关

        total_steps += 1          # 环境相关

    print('\rEpisode {}: total_steps = {}'.format(i, total_steps), end='') # 环境相关

    time.sleep(2)                                                          # 环境相关

    print('\r                                ', end='')                    # 环境相关

print('\nq_table:')

print(q_table)

【强化学习】python 实现 saras 例一的更多相关文章

强化学习读书笔记 - 05 - 蒙特卡洛方法(Monte Carlo Methods)
强化学习读书笔记 - 05 - 蒙特卡洛方法(Monte Carlo Methods) 学习笔记: Reinforcement Learning: An Introduction, Richard S ...
（待续）【转载】 DeepMind发Nature子刊：通过元强化学习重新理解多巴胺
原文地址: http://www.dataguru.cn/article-13548-1.html -------------------------------------------------- ...
【强化学习】python 实现 q-learning 例一
本文作者:hhh5460 本文地址:https://www.cnblogs.com/hhh5460/p/10134018.html 问题情境 -o---T# T 就是宝藏的位置, o 是探索者的位置 ...
强化学习-时序差分算法（TD）和SARAS法
1. 前言我们前面介绍了第一个Model Free的模型蒙特卡洛算法.蒙特卡罗法在估计价值时使用了完整序列的长期回报.而且蒙特卡洛法有较大的方差,模型不是很稳定.本节我们介绍时序差分法,时序差分法不 ...
以股票RSI指标为例，学习Python发送邮件功能（含RSI指标确定卖点策略）
本人之前写过若干“给程序员加财商”的系列文,目的是通过股票案例讲述Python知识点,让大家在学习Python的同时还能掌握相关的股票知识,所谓一举两得. 在之前的系列文里,大家能看到K线,均线,成交 ...
强化学习平台 openAI 的 gym 安装（Ubuntu环境下如何安装Python的gym模块）
openAI 公司给出了一个集成较多环境的强化学习平台 gym , 本篇博客主要是讲它怎么安装. openAI公司的主页: https://www.openai.com/systems/ 从主页上我 ...
【转】强化学习（一）Deep Q-Network
原文地址:https://www.hhyz.me/2018/08/05/2018-08-05-RL/ 1. 前言虽然将深度学习和增强学习结合的想法在几年前就有人尝试,但真正成功的开端就是DeepMi ...
深度强化学习（DQN-Deep Q Network）之应用-Flappy Bird
深度强化学习(DQN-Deep Q Network)之应用-Flappy Bird 本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-fu ...
机器学习之强化学习概览（Machine Learning for Humans: Reinforcement Learning）
声明:本文翻译自Vishal Maini在Medium平台上发布的<Machine Learning for Humans>的教程的<Part 5: Reinforcement Le ...

随机推荐

JavaScript 日期与时间戳互转
1.时间戳转日期格式: function timestampToTime(timestamp) { var date = new Date(timestamp * 1000);//时间戳为10位需*1 ...
HBuilder开发ios App离线打包启动画面无效的解决方法
其中容易忽略的一点是manifest.json文件.plus下加入如下配置: "splashscreen": { "autoclose": false,/*如果 ...
在centos7 上部署 vuepress
vuepress是一款十分优秀简洁的文档生成器,可以根据目录下的md文档自动生成对应的html文件,界面简洁大方.每一个由 VuePress 生成的页面都带有预渲染好的 HTML,也因此具有非常好的加 ...
python第九十五天--js正则
定义正则表达式 /.../ 用于定义正则表达式 /.../g 表示全局匹配 /.../i 表示不区分大小写 /.../m 表示多行匹配 JS正则匹配时本身就是支持多行,此处多行匹配只是影响正则表达式^ ...
Mouse Without Borders软件，主要功能备忘录
详细地址:https://blog.csdn.net/andylauren/article/details/64540500
java针对不同方法的分页
一.常见的分页实现方式 ①使用List接口中的subList(int startIndex,int endIndex)方法实现分页 ②直接使用数据库SQL语句实现分页 ③使用hibernate等框架实 ...
C# 动态方法和静态方法的区别
C# 动态方法和静态方法的区别 (转) 动态方法与静态方法的区别: 1,使用方法上的区别:动态方法,在使用时需要先创建实例,才能调用实例方法,而静态方法则不需要,直接使用即可. 示例代码如下:静态方法 ...
java集合类List
1.List Vector:线程安全的. ArrayList:适合查找与顺序添加. LinkedList:适合随机插入与删除. 1.1ArrayList与LinkedList的add添加 1.1.1A ...
c++11の多线程应用
std::thread 应用十分方便,通过#include<thread>引入 std::thread t(subFunction); t.join(); 主线程将等待子线程完成后,继续调 ...
Redis本身是单线程线程安全的内存数据库，但是不代表你的使用就是线程安全的
网上一个错误示例:https://www.cnblogs.com/Simeonwu/p/7881100.html,部分代码如下: package com.me.config; import redis ...

【强化学习】python 实现 saras 例一

0. q-learning 与 saras 伪代码的对比

1. q-learning 与 saras 真实代码对比

a). q-learning 算法

b). saras 算法

2. 完整代码

【强化学习】python 实现 saras 例一的更多相关文章

随机推荐

热门专题