Q-learning之一维世界的简单寻宝

Q-learning的算法：

（1）先初始化一个Q table，Q table的行数是state的个数，列数是action的个数。

（2）先随机选择一个作为初始状态S1,根据一些策略选择此状态下的动作，比如贪心策略，假设选择的动作为A1。

（3）判断由A1动作之后的状态S2是不是终止状态，如果是终止状态，返回的reward，相当于找到了宝藏，游戏结束，如果不是最终状态，在S2状态时选择此时使Q值最大的action作为下一步的动作。可以得到一个实际的Q值。Q(S1,A1)=R+λ*maxQ(S2)。更新Q table中的Q（S1，A1）。Q(S1,A1)=Q(S1,A1)+α*[R+λ*maxQ(S2)-Q(S1,A1)], []里面是实际的Q值减去估计的Q值。

简单的代码如下：

 #coding=utf-8

 import numpy as np

 import pandas as pd

 import time

 #计算机产生一段伪随机数，每次运行的时候产生的随机数都是一样的

 np.random.seed(2)

 #创建几个全局变量

 N_STATES=6#状态的个数，一共有六个状态0-5状态

 ACTIONS=["left","right"]#action只有两个左和右

 EPSILON=0.9#贪心策略

 ALPHA=0.1#学习率

 LAMBDA=0.9#discount factor

 MAX_EPISODEs=10#一共训练10次

 FRESH_TIME=0.1

 #初始化一个Q-table，我觉得Q-table里面的值初始化成什么样子应该不影响最终的结果

 def build_q_table(n_states,actions):

     table=pd.DataFrame(

         np.zeros((n_states,len(actions))),

         columns=actions,

     )

     # print(table)

     return(table)

 # build_q_table(N_STATES,ACTIONS)

 def choose_action(state,q_table):

     state_action=q_table.iloc[state,:]

     if (np.random.uniform()>EPSILON) or (state_action.all()==0):

         action_name=np.random.choice(ACTIONS)

     else:

         action_name=state_action.idxmax()

     return action_name

 def get_env_feedback(s,A):

     if A=="right":

         if s==N_STATES-2:

             s_="terminal"

             R=1

         else:

             s_=s+1

             R=0

     else:

         R=0

         if s==0:

             s_=s

         else:

             s_=s-1

     return s_,R

 def update_env(S,episode,step_couter):

     env_list=["-"]*(N_STATES-1)+["T"]

     if S=="terminal":

         interaction="Episode %s:total_steps=%s"%(episode+1,step_couter)

         print("\r{}".format(interaction),end='')

         time.sleep(2)

         print('\r                        ',end='')

     else:

         env_list[S]=''

         interaction=''.join(env_list)

         print("\r{}".format(interaction),end='')

         time.sleep(FRESH_TIME)

 def rl():

     #先初始化一个Q table

     q_table=build_q_table(N_STATES,ACTIONS)

     for episode in range(MAX_EPISODEs):

         step_counter=0

         #选择一个初始的S

         S=0

         is_terminal=False

         update_env(S,episode,step_counter)

         #如果S不是终止状态的话，选择动作，得到环境给出的一个反馈S_(新的状态)和R(奖励)

         while not is_terminal:

             A=choose_action(S,q_table)

             S_,R=get_env_feedback(S,A)

             q_predict=q_table.ix[S,A]

             if S_!="terminal":

                 #算出来实际的Q值

                 q_target=R+LAMBDA*q_table.iloc[S_,:].max()

             else:

                 q_target=R

                 is_terminal=True

             q_table.ix[S,A]+=ALPHA*(q_target-q_predict)

             S=S_

             update_env(

                 S,episode,step_counter+1

             )

             step_counter=step_counter+1

     return q_table

 if __name__=="__main__":

     q_table=rl()

     print("\r\nQ-table:\n")

     print(q_table)

Q-learning之一维世界的简单寻宝的更多相关文章

如何用简单例子讲解 Q - learning 的具体过程？
作者:牛阿链接:https://www.zhihu.com/question/26408259/answer/123230350来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明 ...
强化学习9-Deep Q Learning
之前讲到Sarsa和Q Learning都不太适合解决大规模问题,为什么呢? 因为传统的强化学习都有一张Q表,这张Q表记录了每个状态下,每个动作的q值,但是现实问题往往极其复杂,其状态非常多,甚至是连 ...
TensorflowTutorial_一维数据构造简单CNN
使用一维数据构造简单卷积神经网络觉得有用的话,欢迎一起讨论相互学习~Follow Me 神经网络对于一维数据非常重要,时序数据集.信号处理数据集和一些文本嵌入数据集都是一维数据,会频繁的使用到神经网 ...
强化学习_Deep Q Learning(DQN)_代码解析
Deep Q Learning 使用gym的CartPole作为环境,使用QDN解决离散动作空间的问题. 一.导入需要的包和定义超参数 import tensorflow as tf import n ...
攻防世界PWN简单题 level0
攻防世界PWN简单题 level0 开始考验栈溢出的相关知识了 Checksec 一下文件看看都开了什么保护和是多少位的程序发现是64位的程序, 扔进IDA64.IDA YYDS.. 进入主函 ...
攻防世界PWN简单题 level2
攻防世界PWN简单题 level2 此题考验的是对ROP链攻击的基础万事开头PWN第一步checksec 一下 32位的小端程序,扔进IDA 进入函数,找出栈溢出漏洞. 又是这个位置的栈溢出,rea ...
增强学习（五）----- 时间差分学习(Q learning, Sarsa learning)
接下来我们回顾一下动态规划算法(DP)和蒙特卡罗方法(MC)的特点,对于动态规划算法有如下特性: 需要环境模型,即状态转移概率\(P_{sa}\) 状态值函数的估计是自举的(bootstrapping ...
Deep learning：四十一(Dropout简单理解)
前言训练神经网络模型时,如果训练样本较少,为了防止模型过拟合,Dropout可以作为一种trikc供选择.Dropout是hintion最近2年提出的,源于其文章Improving neural n ...
python库的tkinter带你进入GUI世界(计算器简单功能)
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 一个处女座的程序猿 PS:如有需要Python学习资料的小伙伴可以加 ...

随机推荐

在GitHub中创建目录
需求:假定我们需要在 Answer 目录下创建一个目录 [注]GitHub无法单独创建一个空目录,但是可以在创建一个文件的同时创建它的所属目录 1.点击进入所需的目录 Answer 2.点击“Crea ...
CentOS7安装RabbitMQ,并设置远程访问
如果网速慢可以直接到百度云分享中下载,然后拉到centerOS中,进行第二步即可两个人安装包地址,提取码:z1oz 1.安装erlang环境 wget http://www.rabbit ...
TeamViewer14试用版到期-怎么解决
Teamviewer14提示试用期已到期怎么办? 问题分析: 出现这种问题,是因为在安装是选择了[公司/商务用途]或者[以上都是]这两个选项中的一个解决方法: 1.退出TeamViewer远程软件, ...
Mybatis 映射器接口实现类的方式运行过程debug分析
查询一张表的所有数据. 环境: 使用工具IntelliJ IDEA 2018.2版本. 创建Maven工程不用骨架 <?xml version="1.0" encoding= ...
python基础知识(一)
Python基础知识计算基础知识 1.cpu 人类的大脑运算和处理问题 2.内存临时存储数据断电就消失了 3.硬盘永久存储数据 4.操作系统调度硬件设备之间数据交互 python的应用和历 ...
突破Java面试-Redis集群模式的原理
1 面试题 Redis集群模式的工作原理说一下?在集群模式下,key是如何寻址的?寻址都有哪些算法?了解一致性hash吗? 2 考点分析 Redis不断在发展-Redis cluster集群模式,可以 ...
linux memcached 的安装
linux memcached安装yum -y install libevent libevent-deve yum list memcached yum -y install memcached m ...
编写可维护的JavaScript-随笔（七）
将配置数据从代码中分离出来代码中有些数据有修改的可能,如果放在函数中的话后期修改的时候会带来一些不必要的风险需要将配置数据从代码中抽取出来,如果配置数据多的话可以放入一个对象中,然后修改抽取出来的 ...
mysql 获取指定日期到指定日期区间段的日期
第一种方法: cross join (就相当于mysql中的循环) CROSS JOIN 把两张表中的数据进行 N * M的组合,即笛卡尔积这里的两张表利用 union all都有5条数据,所以进行 ...
Float型与 Double型数据的存储方式
先来了解一下浮点数在计算机中是以什么形式存储的首先要知道计算机能懂得只有0和1,每一个0和1都占一个位 bit (比特)(Binary Digits):存放一位二进制数,最小的存储单位. 而对于存放 ...

Q-learning之一维世界的简单寻宝

Q-learning之一维世界的简单寻宝的更多相关文章

随机推荐

热门专题