强化学习 reinforcement learning： An Introduction 第一章， tic-and-toc 代码示例（结构重建版，注释版）

强化学习入门最经典的数据估计就是那个大名鼎鼎的 reinforcement learning: An Introduction 了，最近在看这本书，第一章中给出了一个例子用来说明什么是强化学习，那就是tic-and-toc游戏，感觉这个名很不Chinese，感觉要是用中文来说应该叫三子棋啥的才形象。

这个例子就是下面，在一个3*3的格子里面双方轮流各执一色棋进行对弈，哪一方先把自方的棋子连成一条线则算赢，包括横竖一线，两个对角线斜连一条线。

上图，则是 X 方赢，即：

reinforcement learning 的对应代码地址为：

https://github.com/ShangtongZhang/reinforcement-learning-an-introduction

该代码虽然很好，但是看起来较费力，于是自己就该它的基础上加了些注释并把结构进行了改动，具体代码如下：

源码地址：（本文给出的结构重建，注释版）

https://files.cnblogs.com/files/devilmaycry812839668/tic_tac_toe_code.zip

关于算法的解释可以具体参见书中的介绍，Reinforcement Learning:An Introduction 第一章

关于这个代码的，或者说是算法的设计主要是为了解释什么是时序差分的强化学习。

每一种状态都用一个值来表示，并用一个hash码表示，

St 是此刻的棋盘状态值， St+1 是下一时刻的棋盘状态值。但是，如果St状态到St+1 状态是因为自方进行策略探索而选择的不是最优的下一状态的动作，那么不进行此次计算。

状态值的变化树结构如下图：

由 d 状态到 e* 状态是此时可以选择的最优状态，但是我们选择了进入 e 状态的操作，这就是策略的探索操作。

具体的算法思想参照 reinforcement learning： An Introduction 原书。

==========================================================

目录结构如下图：

tic_tac_toe.py 是代码的主文件，需要运行该代码。

enviroment 文件夹中放的是关于棋盘状态的类文件代码，和环境初始化的代码。

agents 文件夹中放的是具体的下起策略中agent的代码：

interface.py 中的代码是 agent 代码和主程序的接口文件：

主文件 tic_toe_tac.py

强化学习 reinforcement learning： An Introduction 第一章， tic-and-toc 代码示例（结构重建版，注释版）的更多相关文章

强化学习(Reinforcement Learning)中的Q-Learning、DQN，面试看这篇就够了！
1. 什么是强化学习其他许多机器学习算法中学习器都是学得怎样做,而强化学习(Reinforcement Learning, RL)是在尝试的过程中学习到在特定的情境下选择哪种行动可以得到最大的回报. ...
Learning From Data 第一章总结
之前上了台大的机器学习基石课程,里面用的教材是<Learning from data>,最近看了看觉得不错,打算深入看下去,内容上和台大的课程差不太多,但是有些点讲的更深入,想了解课程里面 ...
《Machine Learning》（第一章）序章
关键词:机器学习,基本术语,假设空间,归纳偏好,机器学习用途一.机器学习概述机器学习是一门从数据中,经过计算得到模型(Model)的一种过程,得到的模型不仅能反应出训练数据集中所蕴含的规律,并且能 ...
强化学习(Reinfment Learning) 简介
本文内容来自以下两个链接: https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/ https: ...
【php学习】PHP 入门经典第一章笔记
第一章: php在线手册:http://php.net/manual/zh/index.php 在开始学习PHP之前,先来看一个合格的PHP程序员今后应具备哪些知识,这里只是笔者的一些总结,希望对读者 ...
《Deep Learning》译文第一章前言(中) 神经网络的变迁与称谓的更迭
转载请注明出处. 第一章前言(中) 1.1 本书适合哪些人阅读? 能够说本书的受众目标比較广泛,可是本书可能更适合于例如以下的两类人群.一类是学习过与机器学习相关课程的大学生们(本科生或者研究生). ...
Reinforcement Learning: An Introduction读书笔记(3)--finite MDPs
> 目录 < Agent–Environment Interface Goals and Rewards Returns and Episodes Policies and Val ...
【java并发编程艺术学习】（二）第一章 java并发编程的挑战
章节介绍主要介绍并发编程时间中可能遇到的问题,以及如何解决. 主要问题 1.上下文切换问题时间片是cpu分配给每个线程的时间,时间片非常短. cpu通过时间片分配算法来循环执行任务,当前任务执行一 ...
《STL源码剖析》学习半生记：第一章小结与反思
不学STL,无以立.--陈轶阳从1.1节到1.8节大部分都是从各方面介绍STL, 包括历史之类的(大致上是这样,因为实在看不下去我就直接略到了1.9节(其实还有一点1.8.3的内容)). 第一章里比 ...

随机推荐

python ros 重新设置机器人的位置
#!/usr/bin/env python import rospy import math from tf import transformations from geometry_msgs.msg ...
微信小程序获取用户手机号
获取微信用户绑定的手机号,需先调用wx.login接口. 小程序获取code. 后台得到session_key,openid. 组件触发getPhoneNumber 因为需要用户主动触发才能发起获取手 ...
Python day4_list的常见方法1_笔记（浅拷贝和深拷贝的简述）
li=[1,2,3,'55dd'] li.clear()#清除列表内容 print(li) li.append(1)#追加 li.append(3) print(li) #拓展:直接赋值和copy和d ...
Qt5_QString_测试
ZC: 下面的测试效果看,可以只是用 “QString.isEmpty()” 或者 “QString == ""”来判断 QString是否为空或者NULL . 1. 1.1. ...
string_01
内存释放和越界越界:(1).复制越界,(2).取值越界构造函数 (1).默认空(无参) (2).拷贝(const string &) (3).带参数: const char * // Z ...
Java 常用对象-Math类
2017-11-02 21:26:18 Math类:Math 类包含用于执行基本数学运算的方法,如初等指数.对数.平方根和三角函数. *属性摘要 *常用方法 random() : 返回［0.0,1.0 ...
Python mysql-数据库基础知识
2017-09-05 19:10:55 一.数据库定义从本质上讲,数据库就是信息的集合,它可以存在很长时间,往往是很多年.一般来讲,"数据库"这个词指的是有数据库管理系统管理的数 ...
Solaris 11, gcc 的安装
注意点在于, 头文件在另外一个包system/header里,需要另外安装 pkg pkg install system/header
P1758 [NOI2009]管道取珠
考虑这个式子的意义. 不妨看做进行了两轮操作,这个式子显然等价于两次操作后得到的序列相同的方案数. 这个东西显然是可以dp的. 随便优化一下就成了O(n^3)
PHP函数总结（一）
<?php /** * 原理: * 函数不调用不执行,定义函数时,会将 * 函数放到内存中代码段,当调用函数时去内存 * 中函数名称所在位置中执行函数体,执行完后 * 将控制权移交回给调用函数的 ...

强化学习 reinforcement learning： An Introduction 第一章， tic-and-toc 代码示例 （结构重建版，注释版）

强化学习 reinforcement learning： An Introduction 第一章， tic-and-toc 代码示例 （结构重建版，注释版）的更多相关文章

随机推荐

热门专题

强化学习 reinforcement learning： An Introduction 第一章， tic-and-toc 代码示例（结构重建版，注释版）

强化学习 reinforcement learning： An Introduction 第一章， tic-and-toc 代码示例（结构重建版，注释版）的更多相关文章