增强学习--Q-leraning

 import numpy as np

 import random

 from environment import Env

 from collections import defaultdict

 class QLearningAgent:

     def __init__(self, actions):

         # actions = [0, 1, 2, 3]

         self.actions = actions

         self.learning_rate = 0.01

         self.discount_factor = 0.9

         self.epsilon = 0.1

         self.q_table = defaultdict(lambda: [0.0, 0.0, 0.0, 0.0])#待更新q表

     # update q function with sample <s, a, r, s'>

     def learn(self, state, action, reward, next_state):

         current_q = self.q_table[state][action]

         # using Bellman Optimality Equation to update q function

         new_q = reward + self.discount_factor * max(self.q_table[next_state])

         self.q_table[state][action] += self.learning_rate * (new_q - current_q)#更新公式,off-policy

     # get action for the state according to the q function table

     # agent pick action of epsilon-greedy policy

     def get_action(self, state):

         #epsilon-greedy policy

         if np.random.rand() < self.epsilon:

             # take random action

             action = np.random.choice(self.actions)

         else:

             # take action according to the q function table

             state_action = self.q_table[state]

             action = self.arg_max(state_action)

         return action

     @staticmethod

     def arg_max(state_action):

         max_index_list = []

         max_value = state_action[0]

         for index, value in enumerate(state_action):

             if value > max_value:

                 max_index_list.clear()

                 max_value = value

                 max_index_list.append(index)

             elif value == max_value:

                 max_index_list.append(index)

         return random.choice(max_index_list)

 if __name__ == "__main__":

     env = Env()

     agent = QLearningAgent(actions=list(range(env.n_actions)))

     for episode in range(1000):

         state = env.reset()

         while True:

             env.render()

             # take action and proceed one step in the environment

             action = agent.get_action(str(state))

             next_state, reward, done = env.step(action)

             # with sample <s,a,r,s'>, agent learns new q function

             agent.learn(str(state), action, reward, str(next_state))

             state = next_state

             env.print_value_all(agent.q_table)

             # if episode ends, then break

             if done:

                 break

增强学习--Q-leraning的更多相关文章

马里奥AI实现方式探索 ——神经网络+增强学习
[TOC] 马里奥AI实现方式探索 --神经网络+增强学习儿时我们都曾有过一个经典游戏的体验,就是马里奥(顶蘑菇^v^),这次里约奥运会闭幕式,日本作为2020年东京奥运会的东道主,安倍最后也已经典 ...
增强学习（三）----- MDP的动态规划解法
上一篇我们已经说到了,增强学习的目的就是求解马尔可夫决策过程(MDP)的最优策略,使其在任意初始状态下,都能获得最大的Vπ值.(本文不考虑非马尔可夫环境和不完全可观测马尔可夫决策过程(POMDP)中的 ...
增强学习（四） ----- 蒙特卡罗方法(Monte Carlo Methods)
1. 蒙特卡罗方法的基本思想蒙特卡罗方法又叫统计模拟方法,它使用随机数(或伪随机数)来解决计算的问题,是一类重要的数值计算方法.该方法的名字来源于世界著名的赌城蒙特卡罗,而蒙特卡罗方法正是以概率为基 ...
增强学习（Reinforcement Learning and Control）
增强学习(Reinforcement Learning and Control) [pdf版本]增强学习.pdf 在之前的讨论中,我们总是给定一个样本x,然后给或者不给label y.之后对样本进行 ...
增强学习 | Q-Learning
"价值不是由一次成功决定的,而是在长期的进取中体现" 上文介绍了描述能力更强的多臂赌博机模型,即通过多台机器的方式对环境变量建模,选择动作策略时考虑时序累积奖赏的影响.虽然多臂赌博 ...
常用增强学习实验环境 II (ViZDoom, Roboschool, TensorFlow Agents, ELF, Coach等) （转载）
原文链接:http://blog.csdn.net/jinzhuojun/article/details/78508203 前段时间Nature上发表的升级版Alpha Go - AlphaGo Ze ...
增强学习训练AI玩游戏
1.游戏简介符号A为 AI Agent. 符号@为金币,AI Agent需要尽可能的接取. 符号* 为炸弹,AI Agent需要尽可能的躲避. 游戏下方一组数字含义如下: Bomb hit: 代表目 ...
【读书笔记】2_增强学习中的Q-Learning
本文为Thomas Simonini增强学习系列文章笔记或读后感,原文可以直接跳转到medium系列文章. 主要概念为: Q-Learning,探讨其概念以及用Numpy实现我们可以将二维游戏想象成 ...
转：增强学习（二）----- 马尔可夫决策过程MDP
1. 马尔可夫模型的几类子模型大家应该还记得马尔科夫链(Markov Chain),了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model,HMM).它们具有的一个共同性质就是 ...
Multi-armed Bandit Problem与增强学习的联系
选自<Reinforcement Learning: An Introduction>, version 2, 2016, Chapter2 https://webdocs.cs.ualb ...

随机推荐

cuda yv12_to_rgb24
前言项目需要将yv12转rgb24,由于基于x86平台,开始就没多想,直接用ipp加速实现了,后来在评估项目瓶颈的时候发现,1080p的视频每一帧转换居然要花8ms,刚好项目里有用到nvidia g ...
Oracle基础 11 约束 constraints
--主.外键约束 create table t( id int primary key); create table t1( id int references t(id)); 或者create ...
DRF最高封装的子类视图
# 转载请留言联系子类视图: 视图作用方法父类 ListAPIView 查询多条数据 get GenericAPIView ListModelMixin CreateAPIView 新增一条数 ...
DELPHI 参数前缀的使用
传值参数传值参数可在过程内部修改,但过程返回时该修改不会反映出来.不加任何前缀,就表示该参数为传值参数.Procedure Foo( I : Integer );I 的值被传递到Foo 过程.当Foo ...
MySQL 基础内容
创建数据库对于表的操作需要先进入库 use 库名: -- 创建一个名为 inana_db 的数据库,数据库字符编码指定为 utf8create database inana_db character ...
第一篇：Hello World
Hello World RabbitMQ是一个消息代理:它接受和转发消息.你可以把它想象成一个邮局:当你把邮件放在邮箱里时,你可以确定邮差先生最终会把邮件发送给你的收件人.在这个比喻中,RabbitM ...
关于ofbiz加载数据模块的文件参数配置
1,在applications文件夹下新建一个数据模块meetingroom 2, 要让ofbiz加载这个数据模块就需要在applications下的配置文件里修改参数 (1)在application ...
RESTful 接口实现简明指南
REST 简介 REST 是一个术语的缩写,REpresentational State Transfer,中文直译「表征状态转移」,这是个很拗口的词.我的建议是先不要强行理解,直接看怎么做,等对实施 ...
HDU 6322.Problem D. Euler Function -欧拉函数水题(假的数论题￣▽￣) (2018 Multi-University Training Contest 3 1004)
6322.Problem D. Euler Function 题意就是找欧拉函数为合数的第n个数是什么. 欧拉函数从1到50打个表,发现规律,然后勇敢的水一下就过了. 官方题解: 代码: //1004 ...
flutter 布局
一.Container 一个空白容器二.Row 行 mainAxisAlignment 主轴对齐 , CrossAxisAlignment 垂直于主轴对齐三.Column 列四.ListVie ...

增强学习--Q-leraning

增强学习--Q-leraning的更多相关文章

随机推荐

热门专题