增强学习--Sarsa算法

 import numpy as np

 import random

 from collections import defaultdict

 from environment import Env

 # SARSA agent learns every time step from the sample <s, a, r, s', a'>

 class SARSAgent:

     def __init__(self, actions):

         self.actions = actions

         self.learning_rate = 0.01

         self.discount_factor = 0.9

         self.epsilon = 0.1

         self.q_table = defaultdict(lambda: [0.0, 0.0, 0.0, 0.0])#动作值函数表,q表,要更新的表，不同于mc的更新v表

     # with sample <s, a, r, s', a'>, learns new q function

     def learn(self, state, action, reward, next_state, next_action):

         current_q = self.q_table[state][action]

         next_state_q = self.q_table[next_state][next_action]

         new_q = (current_q + self.learning_rate *

                 (reward + self.discount_factor * next_state_q - current_q))#q表更新公式

         self.q_table[state][action] = new_q

     # get action for the state according to the q function table

     # agent pick action of epsilon-greedy policy

     def get_action(self, state):#获取下一步动作

         #epsilon-greedy policy,exploration

         if np.random.rand() < self.epsilon:

             # take random action

             action = np.random.choice(self.actions)

         else:

             # take action according to the q function table

             state_action = self.q_table[state]

             action = self.arg_max(state_action)

         return action

     @staticmethod

     def arg_max(state_action):

         max_index_list = []

         max_value = state_action[0]

         for index, value in enumerate(state_action):

             if value > max_value:

                 max_index_list.clear()

                 max_value = value

                 max_index_list.append(index)

             elif value == max_value:

                 max_index_list.append(index)

         return random.choice(max_index_list)

 if __name__ == "__main__":

     env = Env()

     agent = SARSAgent(actions=list(range(env.n_actions)))

     for episode in range(1000):

         # reset environment and initialize state

         state = env.reset()

         # get action of state from agent

         action = agent.get_action(str(state))

         while True:

             env.render()

             # take action and proceed one step in the environment

             next_state, reward, done = env.step(action)

             next_action = agent.get_action(str(next_state))

             # with sample <s,a,r,s',a'>, agent learns new q function

             agent.learn(str(state), action, reward, str(next_state), next_action)

             state = next_state

             action = next_action

             # print q function of all states at screen

             env.print_value_all(agent.q_table)

             # if episode ends, then break

             if done:

                 break

增强学习--Sarsa算法的更多相关文章

增强学习贪心算法与Softmax算法
(一) 这个算法是基于一个概率来对探索和利用进行折中:每次尝试时,以概率进行探索,即以均匀概率随机选取一个摇臂,以的概率进行利用,即以这个概率选择当前平均奖赏最高的摇臂(如有多个,则随机选取). 其中 ...
增强学习--TRPO算法
理论部分参考推导数学上的分析代码
马里奥AI实现方式探索 ——神经网络+增强学习
[TOC] 马里奥AI实现方式探索 --神经网络+增强学习儿时我们都曾有过一个经典游戏的体验,就是马里奥(顶蘑菇^v^),这次里约奥运会闭幕式,日本作为2020年东京奥运会的东道主,安倍最后也已经典 ...
增强学习（五）----- 时间差分学习(Q learning, Sarsa learning)
接下来我们回顾一下动态规划算法(DP)和蒙特卡罗方法(MC)的特点,对于动态规划算法有如下特性: 需要环境模型,即状态转移概率\(P_{sa}\) 状态值函数的估计是自举的(bootstrapping ...
(zhuan) 大牛讲堂 | 算法工程师入门第二期-穆黎森讲增强学习
大牛讲堂 | 算法工程师入门第二期-穆黎森讲增强学习 2017-07-13 HorizonRobotics
强化学习-学习笔记7 | Sarsa算法原理与推导
Sarsa算法是 TD算法的一种,之前没有严谨推导过 TD 算法,这一篇就来从数学的角度推导一下 Sarsa 算法.注意,这部分属于 TD算法的延申. 7. Sarsa算法 7.1 推导 TD ta ...
增强学习（三）----- MDP的动态规划解法
上一篇我们已经说到了,增强学习的目的就是求解马尔可夫决策过程(MDP)的最优策略,使其在任意初始状态下,都能获得最大的Vπ值.(本文不考虑非马尔可夫环境和不完全可观测马尔可夫决策过程(POMDP)中的 ...
增强学习（四） ----- 蒙特卡罗方法(Monte Carlo Methods)
1. 蒙特卡罗方法的基本思想蒙特卡罗方法又叫统计模拟方法,它使用随机数(或伪随机数)来解决计算的问题,是一类重要的数值计算方法.该方法的名字来源于世界著名的赌城蒙特卡罗,而蒙特卡罗方法正是以概率为基 ...
增强学习————K-摇臂赌博机
探索与利用增强学习任务的最终奖赏是在多步动作之后才能观察到,于是我们先考虑最简单的情形:最大化单步奖赏,即仅考虑一步操作.不过,就算这样,强化学习仍与监督学习有显著不同,因为机器要通过尝试来发现各个动 ...

随机推荐

swift网址
http://www.cocoachina.com/industry/20140613/8818.html Swift -- 中文版两大官方文档汇总发布于:2014-06-13 15:34阅读数:22 ...
camera摄像原理之三：色温和自动白平衡【转】
转自:http://blog.csdn.net/ghostyu/article/details/7912863 色温的定义:将黑体从绝对零度开始加温,温度每升高一度称为1开氏度(用字母K表示),当温度 ...
appium===报错adb server version (31) doesn’t match this client (39); killing…的解决办法
当使用在cmd窗口调用adb shell命令的时候提示如下: adb server version (31) doesn't match this client (39); killing...er ...
GUI自动化模块化实现方式
效率为王:脚本与数据的解耦 + Page Object模型 1.数据驱动:实现了“测试脚本和数据的解耦”,数据驱动测试的数据文件中不仅可以包含测试输入数据,还可以包含测试验证结果数据,甚至可以包含测试 ...
Oracle exp
--导出表exp userid=hr/oracle123 tables=employees direct=y file=/u01/employees.dmp log=/u01/employees.lo ...
【 Ngnix 】配置路径转发至后端Apache多台虚拟主机
一.安装apache并开启端口 [root@server ~]# netstat -ntplu | grep httpd tcp /httpd tcp /httpd 二.nginx配置 locatio ...
paramiko 使用总结(SSH 操作远端机器)
1.用户名.密码登陆方式 import paramikoparamiko.util.log_to_file('paramiko.log') # 记录日志文件ssh = paramiko.SSHClie ...
asp.net数据类型--泛型
asp.net有很多的数据类型,同时c#等均是强数据类型,在使用的过程,存在因数据类型不一致,在编译时通过,在使用过程中出错的情况,因此从2.0起,增加泛型这种类型.这种类型,在定义时不指定类型,而在 ...
HDU 2586.How far away ？-离线LCA(Tarjan)
2586.How far away ? 这个题以前写过在线LCA(ST)的,HDU2586.How far away ?-在线LCA(ST) 现在贴一个离线Tarjan版的代码: //A-HDU25 ...
HDU 2087 剪花布条【在字符串中不可重叠地寻找子串数量】
一块花布条,里面有些图案,另有一块直接可用的小饰条,里面也有一些图案.对于给定的花布条和小饰条,计算一下能从花布条中尽可能剪出几块小饰条来呢? Input输入中含有一些数据,分别是成对出现的花布条和 ...

增强学习--Sarsa算法

增强学习--Sarsa算法的更多相关文章

随机推荐

热门专题