tensorflow增强学习应用于一个小游戏

首先需要安装gym模块，提供游戏的。

1，所需模块

import tensorflow as tf

import numpy as np

import gym

import random

from collections import deque

from keras.utils.np_utils import to_categorical

2，自定义一个简单的3层Dense Model

# 自定义Model

class QNetwork(tf.keras.Model):

    def __init__(self):

        super().__init__()

#         简单的3个Dense

        self.dense1=tf.keras.layers.Dense(24,activation='relu')

        self.dense2=tf.keras.layers.Dense(24,activation='relu')

        self.dense3=tf.keras.layers.Dense(2)

    def call(self,inputs):

        x=self.dense1(inputs)

        x=self.dense2(x)

        x=self.dense3(x)

        return x

    def predict(self,inputs):

        q_values=self(inputs)#调用call

        return tf.argmax(q_values,axis=-1)

3，定义相关参数

# 游戏环境，实例化一个游戏

env=gym.make('CartPole-v1')

model=QNetwork()

# 循环轮数设置小一点，50就可以了

num_episodes=500

num_exploration=100

max_len=1000

batch_size=32

lr=1e-3

gamma=1.

initial_epsilon=1.

final_epsilon=0.01

replay_buffer=deque(maxlen=10000)

epsilon=initial_epsilon

# tensorflow2.0

optimizer=tf.compat.v1.train.AdamOptimizer(learning_rate=lr)

4，训练，测试

for i in range(num_episodes):

    # 初始化环境

    state=env.reset()

#     逐渐衰减，至final_epsilon

    epsilon=max(initial_epsilon*(num_exploration-i)/num_exploration,final_epsilon)

    for t in range(max_len):

#         当前帧绘制到屏幕

        env.render()

#         以epsilon的概率随机行动，epsilon是衰减的，说明游戏动作会越来越稳定

        if random.random()<epsilon:

            action=env.action_space.sample()

        else:

#             从当前状态预测一个动作

            action=model.predict(tf.constant(np.expand_dims(state,axis=0),dtype=tf.float32)).numpy()

            action=action[0]

#         执行一步动作

        next_state,reward,done,info=env.step(action)

#         奖励

        reward=-10.if done else reward

#         缓存

        replay_buffer.append((state,action,reward,next_state,done))

        state=next_state

        if done:

            print('episode %d,epsilon %f,score %d'%(i,epsilon,t))

            break

#         预测batch_size步后执行

        if len(replay_buffer)>=batch_size:

            # 随机获取一个batch的数据

            batch_state,batch_action,batch_reward,batch_next_state,batch_done=\

            [np.array(a,dtype=np.float32) for a in zip(*random.sample(replay_buffer,batch_size))]

#             下一个状态，由此得到的y为真实值

#             预测值与真实值的计算看不太懂

            q_value=model(tf.constant(batch_next_state,dtype=tf.float32))

            y=batch_reward+(gamma*tf.reduce_max(q_value,axis=1))*(1-batch_done)

            with tf.GradientTape() as tape:

#                 loss=tf.losses.mean_squared_error(labels=y,predictions=tf.reduce_sum(

#                     model(tf.constant(batch_state))*tf.one_hot(batch_action,depth=2),axis=1))

                loss=tf.losses.mean_squared_error(y,tf.reduce_sum(

                    model(tf.constant(batch_state))*to_categorical(batch_action,num_classes=2),axis=1))

            grads=tape.gradient(loss,model.variables)

            optimizer.apply_gradients(grads_and_vars=zip(grads,model.variables))

最终会出现一个窗口，平衡游戏不断进行。。。

上面注释部分因为tf.one_hot方法会报错。

tensorflow增强学习应用于一个小游戏的更多相关文章

Pygame：编写一个小游戏标签： pythonpygame游戏 2017-06-20 15:06 103人阅读评论(0)
大学最后的考试终于结束了,迎来了暑假和大四的漫长的"自由"假期.当然要自己好好"玩玩"了. 我最近在学习Python,本意是在机器学习深度学习上使用Python ...
DirectX游戏开发——从一个小游戏開始
本系列文章由birdlove1987编写,转载请注明出处. 文章链接: http://blog.csdn.net/zhurui_idea/article/details/26364129 写在前面:自 ...
使用PixiJS做一个小游戏
PixiJS PixiJS使用WebGL,是一个超快的HTML5 2D渲染引擎.作为一个Javascript的2D渲染器,Pixi.js的目标是提供一个快速的.轻量级而且是兼任所有设备的2D库. 官方 ...
js实现一个小游戏（飞翔的jj）
js实现一个小游戏(飞翔的jj) 源代码+素材图片在我的仓库 <!DOCTYPE html> <html lang="en"> <head> & ...
通过一个小游戏开始接触Python！
之前就一直嚷嚷着要找视频看学习Python,可是一直拖到今晚才开始....好好加油吧骚年,坚持不一定就能有好的结果,但是不坚持就一定是不好的!! 看着视频学习1: 首先,打开IDLE,在IDLE中新建 ...
【h5-egret】如何快速开发一个小游戏
1.环境搭建安装教程传送门:http://edn.egret.com/cn/index.php?g=&m=article&a=index&id=207&terms1_ ...
c++学习笔记---03---从一个小程序说起2
从一个小程序说起2 要求:编写一个程序,要求用户输入一串整数和任意数目的空格,这些整数必须位于同一行中,但允许出现在该行中的任何位置.当用户按下键盘上的"Enter"键时,数据输入 ...
Egret白鹭开发微信小游戏程序跳转功能（由一个小游戏跳转到另一个小游戏）
假设我们要实现的功能是从小游戏A跳转到小游戏B 对于小游戏A: (1)在platform.ts中添加代码如下: /** * 平台数据接口. * 由于每款游戏通常需要发布到多个平台上,所以提取出一个统一 ...
c++学习笔记---02---从一个小程序说起
从一个小程序说起这一讲的主要目的是帮助大家在C语言的背景知识上与C++建立联系. 问题探索问题:对一个整型数组求和. 要求:定义一个存储着 n 个元素的数组,要求用C语言完成这个任务. 赶紧的:大 ...

随机推荐

Python 操作 MySQL 数据库Ⅲ
数据库查询操作 Python查询Mysql使用 fetchone() 方法获取单条数据, 使用fetchall() 方法获取多条数据. fetchone(): 该方法获取下一个查询结果集.结果集是一个 ...
NURBS 曲线和曲面参数化
NURBS 曲线和曲面参数化什么是参数? 参数是曲线或曲面上点的唯一数值(类似于坐标).通过参数,可以沿曲线的长度方向引用特定点.参数值越大,点在曲线方向上的距离越远. 就像空间中的点具有三个维度( ...
MySQL数据库中的索引（一）——索引实现原理
今天我们来探讨一下数据库中一个很重要的概念:索引. MySQL官方对索引的定义为:索引(Index)是帮助MySQL高效获取数据的数据结构,即索引是一种数据结构. 我们知道,数据库查询是数据库的最主要 ...
Springboot 使用JdbcTemplate
Springboot 使用JdbcTemplate book package com.draymonder.book.jdbc; public class Book { private Integer ...
Springboot 默认静态路径
springboot 默认静态路径代码如下所示类ResourceProperties.class private static final String[] CLASSPATH_RESOURCE_ ...
JavaWeb_(session和application)用户登录注册模板_进阶版
用户登录注册模板_基础版传送门用户登录注册模板进阶版添加了获得获得当前登录用户信息及存储登录人数用户登录后,在首页.注册页.登录页显示登录用户信息和存储登录人数信息目录结构 <%@pa ...
SQL中模糊查询的模式匹配
SQL模糊查询的语法为: “Select column FROM table Where column LIKE 'pattern'”. SQL提供了四种匹配模式: 1. % 表示任意0个或多个字符. ...
分布式-信息方式-ActiveMQ的消息存储持久化
ActiveMQ的消息存储持久化■概述ActiveMQ不仅支持 persistent和 non-persistent两种方式,还支持消息的恢复( recovery)方式PTPQueue的存储是很简单的 ...
分布式-网络通信-NIO
目录:一．java NIO 和阻塞I/O的区别 1. 阻塞I/O通信模型 2. java NIO原理及通信模型二．java NIO服务端和客户端代码实现一．java NIO 和阻塞I ...
利用angular4和nodejs-express构建一个简单的网站（五）—用户的注册和登录-HttpClient
上一节简单介绍了一下利用angular构建的主路由模块,根据上一节的介绍,主页面加载时直接跳转到用户管理界面,下面就来介绍一下用户管理模块.启动应用后,初始界面应该是这样的: 用户管理模块(users ...

tensorflow增强学习应用于一个小游戏

tensorflow增强学习应用于一个小游戏的更多相关文章

随机推荐

热门专题