强化学习（2）----Q-learning

2024-11-01 10:11:35 原文

1、Q-learning主要是Q表：

当前状态s1，接下来可以有两个动作选择，看电视a1和学习a2，对于agent人来说，可以根据reward来作出决策（Policy）。目的就是得到奖励最大。

Q-learning的目的就是学习特定state下、特定Action的价值。

Q-learning的方法是建立一个表，以state为行、action为列。比如：state有2个，action也有两个，所以Q-table就是2×2的一个表，对应总共4种可能得决策。

2、模型：

首先以 0 填充Q-table进行初始化，然后观察每一个决策带来的回馈，再更新Q-table。更新的依据是Bellman等式：

每一次行动，都会更新Q-table。

初始Q-table如下（行：state，列：action）：

	a1	a2
s1	0	0
s2	0	0

相应的Q-table如下：

	a1	a2
s1	-2	1
s2	-4	2

但是这个Q-table是我们希望得出或逼近的，在开始时，Agent所知的Q-table还是一个全0的矩阵。

3、算法：

算法中的 α 是指学习率，其控制前一个 Q 值和新提出的 Q 值之间被考虑到的差异程度。尤其是，当 α=1 时，两个 Q[s,a] 互相抵消，结果刚好和贝尔曼方程一样。
我们用来更新 Q[s,a] 的只是一个近似，而且在早期阶段的学习中它完全可能是错误的。但是随着每一次迭代，该近似会越来越准确；而且我们还发现如果我们执行这种更新足够长时间，那么 Q 函数就将收敛并能代表真实的 Q 值。

4、代码：

import numpy as np

GAMMA = 0.8

Q = np.zeros((6,6))

R=np.asarray([[-1,-1,-1,-1,0,-1],

   [-1,-1,-1,0,-1,100],

   [-1,-1,-1,0,-1,-1],

   [-1,0, 0, -1,0,-1],

   [0,-1,-1,0,-1,100],

   [-1,0,-1,-1,0,100]])

def getMaxQ(state):

    return max(Q[state, :])

def QLearning(state):

    curAction = None

    for action in range(6):

        if(R[state][action] == -1):

            Q[state, action]=0

        else:

            curAction = action

            Q[state,action]=R[state][action]+GAMMA * getMaxQ(curAction)

count=0

while count<1000:

    for i in range(6):

        QLearning(i)

    count+=1

print(Q/5)

强化学习（2）----Q-learning的更多相关文章

强化学习9-Deep Q Learning
之前讲到Sarsa和Q Learning都不太适合解决大规模问题,为什么呢? 因为传统的强化学习都有一张Q表,这张Q表记录了每个状态下,每个动作的q值,但是现实问题往往极其复杂,其状态非常多,甚至是连 ...
强化学习_Deep Q Learning(DQN)_代码解析
Deep Q Learning 使用gym的CartPole作为环境,使用QDN解决离散动作空间的问题. 一.导入需要的包和定义超参数 import tensorflow as tf import n ...
转：强化学习（Reinforcement Learning）
机器学习算法大致可以分为三种: 1. 监督学习(如回归,分类) 2. 非监督学习(如聚类,降维) 3. 增强学习什么是增强学习呢? 增强学习(reinforcementlearning, RL)又叫 ...
强化学习10-Deep Q Learning-fix target
针对 Deep Q Learning 可能无法收敛的问题,这里提出了一种 fix target 的方法,就是冻结现实神经网络,延时更新参数. 这个方法的初衷是这样的: 1. 之前我们每个(批)记忆都 ...
强化学习(Reinforcement Learning)中的Q-Learning、DQN，面试看这篇就够了！
1. 什么是强化学习其他许多机器学习算法中学习器都是学得怎样做,而强化学习(Reinforcement Learning, RL)是在尝试的过程中学习到在特定的情境下选择哪种行动可以得到最大的回报. ...
机器学习之强化学习概览（Machine Learning for Humans: Reinforcement Learning）
声明:本文翻译自Vishal Maini在Medium平台上发布的<Machine Learning for Humans>的教程的<Part 5: Reinforcement Le ...
[Reinforcement Learning] 强化学习介绍
随着AlphaGo和AlphaZero的出现,强化学习相关算法在这几年引起了学术界和工业界的重视.最近也翻了很多强化学习的资料,有时间了还是得自己动脑筋整理一下. 强化学习定义先借用维基百科上对强化 ...
The categories of Reinforcement Learning 强化学习分类
RL分为三大类: (1)通过行为的价值来选取特定行为的方法,具体包括使用表格学习的 q learning, sarsa, 使用神经网络学习的 deep q network: (2)直接输出行为的 p ...
【整理】强化学习与MDP
[入门,来自wiki] 强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益.其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的 ...
(转) 深度强化学习综述：从AlphaGo背后的力量到学习资源分享（附论文）
本文转自:http://mp.weixin.qq.com/s/aAHbybdbs_GtY8OyU6h5WA 专题 | 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文) 原创 201 ...

随机推荐

路飞学城Python-Day27(复习)
简单的socket通信 import socket client = socket.socket(socket.AF_INET, socket.SOCK_STREAM) client.connect( ...
P3387 【模板】缩点 && P3388 【模板】割点（割顶）
Tarjan算法应用: 有向图的强连通分量无向图割点和桥双连通分量接下来主要谈论前面两者的应用(主要是第三种还没学会) 算法简要介绍我们需要先理解一下知识:搜索树有向图的搜索树的4种边,如 ...
Facebook 运维内幕曝光：一人管理2万台服务器
Facebook 运维内幕曝光:一人管理2万台服务器 oschina 发布于: 2013年11月23日 (29评) 分享到新浪微博腾讯微博收藏+32 11月30日珠海源创会,送U盘,先到先得 ...
DOM元素属性值如果设置为对象
结论:内部会调用toString方法,将设置的对象转换为字符串添加给相应的属性: 这个问题呢,是通过jQuery的each方法中,回调函数的this指向问题而来: 我们知道,回调函数中的this如果指 ...
splay 文艺平衡树 (数据结构)
题目大意:略 splay维护区间翻转裸题,为了减少不必要的麻烦,多插入两个点,分别是0和n+1 每次找区间的第K个值,就在splay上二分即可顺便学了一下splay的完美建树,而且splay有一些小 ...
[读书笔记] Python 数据分析（十二）高级NumPy
da array: 一个快速而灵活的同构多维大数据集容器,可以利用这种数组对整块的数据进行一些数学运算数据指针,系统内存的一部分数据类型 data type/dtype 指示数据大小的元组 str ...
关于samsung连接BLE设备的一些资料汇总和开发过程一些经验总结
1 忙了这么久,终于有时间把最近几个月弄的东西整理一下,顺便我的开发过程和经历. 被公司分到做一个蓝牙4.0的项目,对这种软硬结合的东西也比较感兴趣,所以很快投入到android蓝牙4.0的项目中来. ...
tp框架报错 Namespace declaration statement has to be the very first statement in the script
Namespace declaration statement has to be the very first statement in the script tp框架报这个错误,错误行数就是nam ...
Spring IoC容器实现
1,Spring的两种IoC容器 BeanFactory 基础类型的IoC容器: 采用延迟初始化策略(容器初始化完成后并不会创建bean的对象,只有当收到初始化请求时才进行初始化): 由于延迟初始化, ...
ajax 获取 json 数据乱码
打开json文本把json文件另存为 'utf-8' 编码格式的文件.....