tensorflow训练打游戏ai

python3，所需模块请自行补齐

# coding=utf8

import pygame

import random

from pygame.locals import *

import numpy as np

from collections import deque

import tensorflow as tf  # http://blog.topspeedsnail.com/archives/10116

import cv2               # http://blog.topspeedsnail.com/archives/4755

BLACK = (0, 0, 0)

WHITE = (255, 255, 255)

SCREEN_SIZE = [320, 400]

BAR_SIZE = [50, 5]

BALL_SIZE = [15, 15]

# 神经网络的输出

MOVE_STAY = [1, 0, 0]

MOVE_LEFT = [0, 1, 0]

MOVE_RIGHT = [0, 0, 1]

class Game(object):

    def __init__(self):

        pygame.init()

        self.clock = pygame.time.Clock()

        self.screen = pygame.display.set_mode(SCREEN_SIZE)

        pygame.display.set_caption('Simple Game')

        self.ball_pos_x = SCREEN_SIZE[0] // 2 - BALL_SIZE[0] / 2

        self.ball_pos_y = SCREEN_SIZE[1] // 2 - BALL_SIZE[1] / 2

        self.ball_dir_x = -1  # -1 = left 1 = right

        self.ball_dir_y = -1  # -1 = up   1 = down

        self.ball_pos = pygame.Rect(

            self.ball_pos_x, self.ball_pos_y, BALL_SIZE[0], BALL_SIZE[1])

        self.bar_pos_x = SCREEN_SIZE[0] // 2 - BAR_SIZE[0] // 2

        self.bar_pos = pygame.Rect(

            self.bar_pos_x, SCREEN_SIZE[1] - BAR_SIZE[1], BAR_SIZE[0], BAR_SIZE[1])

    # action是MOVE_STAY、MOVE_LEFT、MOVE_RIGHT

    # ai控制棒子左右移动；返回游戏界面像素数和对应的奖励。(像素->奖励->强化棒子往奖励高的方向移动)

    def step(self, action):

        if action == MOVE_LEFT:

            self.bar_pos_x = self.bar_pos_x - 2

        elif action == MOVE_RIGHT:

            self.bar_pos_x = self.bar_pos_x + 2

        else:

            pass

        if self.bar_pos_x < 0:

            self.bar_pos_x = 0

        if self.bar_pos_x > SCREEN_SIZE[0] - BAR_SIZE[0]:

            self.bar_pos_x = SCREEN_SIZE[0] - BAR_SIZE[0]

        self.screen.fill(BLACK)

        self.bar_pos.left = self.bar_pos_x

        pygame.draw.rect(self.screen, WHITE, self.bar_pos)

        self.ball_pos.left += self.ball_dir_x * 2

        self.ball_pos.bottom += self.ball_dir_y * 3

        pygame.draw.rect(self.screen, WHITE, self.ball_pos)

        if self.ball_pos.top <= 0 or self.ball_pos.bottom >= (SCREEN_SIZE[1] - BAR_SIZE[1] + 1):

            self.ball_dir_y = self.ball_dir_y * -1

        if self.ball_pos.left <= 0 or self.ball_pos.right >= (SCREEN_SIZE[0]):

            self.ball_dir_x = self.ball_dir_x * -1

        reward = 0

        if self.bar_pos.top <= self.ball_pos.bottom and (self.bar_pos.left < self.ball_pos.right and self.bar_pos.right > self.ball_pos.left):

            reward = 1    # 击中奖励

        elif self.bar_pos.top <= self.ball_pos.bottom and (self.bar_pos.left > self.ball_pos.right or self.bar_pos.right < self.ball_pos.left):

            reward = -1   # 没击中惩罚

        # 获得游戏界面像素

        screen_image = pygame.surfarray.array3d(pygame.display.get_surface())

        pygame.display.update()

        # 返回游戏界面像素和对应的奖励

        return reward, screen_image

# learning_rate

LEARNING_RATE = 0.99

# 更新梯度

INITIAL_EPSILON = 1.0

FINAL_EPSILON = 0.05

# 测试观测次数

EXPLORE = 500000

OBSERVE = 50000

# 存储过往经验大小

REPLAY_MEMORY = 500000

BATCH = 100

# 输出层神经元数。代表3种操作-MOVE_STAY:[1, 0, 0]  MOVE_LEFT:[0, 1, 0]  MOVE_RIGHT:[0, 0, 1]

output = 3

input_image = tf.placeholder("float", [None, 80, 100, 4])  # 游戏像素

action = tf.placeholder("float", [None, output])     # 操作

# 定义CNN-卷积神经网络 参考:http://blog.topspeedsnail.com/archives/10451

def convolutional_neural_network(input_image):

    weights = {'w_conv1': tf.Variable(tf.zeros([8, 8, 4, 32])),

               'w_conv2': tf.Variable(tf.zeros([4, 4, 32, 64])),

               'w_conv3': tf.Variable(tf.zeros([3, 3, 64, 64])),

               'w_fc4': tf.Variable(tf.zeros([3456, 784])),

               'w_out': tf.Variable(tf.zeros([784, output]))}

    biases = {'b_conv1': tf.Variable(tf.zeros([32])),

              'b_conv2': tf.Variable(tf.zeros([64])),

              'b_conv3': tf.Variable(tf.zeros([64])),

              'b_fc4': tf.Variable(tf.zeros([784])),

              'b_out': tf.Variable(tf.zeros([output]))}

    conv1 = tf.nn.relu(tf.nn.conv2d(input_image, weights['w_conv1'], strides=[

                       1, 4, 4, 1], padding="VALID") + biases['b_conv1'])

    conv2 = tf.nn.relu(tf.nn.conv2d(conv1, weights['w_conv2'], strides=[

                       1, 2, 2, 1], padding="VALID") + biases['b_conv2'])

    conv3 = tf.nn.relu(tf.nn.conv2d(conv2, weights['w_conv3'], strides=[

                       1, 1, 1, 1], padding="VALID") + biases['b_conv3'])

    conv3_flat = tf.reshape(conv3, [-1, 3456])

    fc4 = tf.nn.relu(tf.matmul(conv3_flat, weights['w_fc4']) + biases['b_fc4'])

    output_layer = tf.matmul(fc4, weights['w_out']) + biases['b_out']

    return output_layer

# 深度强化学习入门: https://www.nervanasys.com/demystifying-deep-reinforcement-learning/

# 训练神经网络

def train_neural_network(input_image):

    predict_action = convolutional_neural_network(input_image)

    argmax = tf.placeholder("float", [None, output])

    gt = tf.placeholder("float", [None])

    action = tf.reduce_sum(tf.multiply(predict_action, argmax), reduction_indices=1)

    cost = tf.reduce_mean(tf.square(action - gt))

    optimizer = tf.train.AdamOptimizer(1e-6).minimize(cost)

    game = Game()

    D = deque()

    _, image = game.step(MOVE_STAY)

    # 转换为灰度值

    image = cv2.cvtColor(cv2.resize(image, (100, 80)), cv2.COLOR_BGR2GRAY)

    # 转换为二值

    ret, image = cv2.threshold(image, 1, 255, cv2.THRESH_BINARY)

    input_image_data = np.stack((image, image, image, image), axis=2)

    with tf.Session() as sess:

        sess.run(tf.initialize_all_variables())

        saver = tf.train.Saver()

        n = 0

        epsilon = INITIAL_EPSILON

        while True:

            action_t = predict_action.eval(

                feed_dict={input_image: [input_image_data]})[0]

            argmax_t = np.zeros([output], dtype=np.int)

            if(random.random() <= INITIAL_EPSILON):

                maxIndex = random.randrange(output)

            else:

                maxIndex = np.argmax(action_t)

            argmax_t[maxIndex] = 1

            if epsilon > FINAL_EPSILON:

                epsilon -= (INITIAL_EPSILON - FINAL_EPSILON) / EXPLORE

            # for event in pygame.event.get():  macOS需要事件循环，否则白屏

            #	if event.type == QUIT:

            #		pygame.quit()

            #		sys.exit()

            reward, image = game.step(list(argmax_t))

            image = cv2.cvtColor(cv2.resize(

                image, (100, 80)), cv2.COLOR_BGR2GRAY)

            ret, image = cv2.threshold(image, 1, 255, cv2.THRESH_BINARY)

            image = np.reshape(image, (80, 100, 1))

            input_image_data1 = np.append(

                image, input_image_data[:, :, 0:3], axis=2)

            D.append((input_image_data, argmax_t, reward, input_image_data1))

            if len(D) > REPLAY_MEMORY:

                D.popleft()

            if n > OBSERVE:

                minibatch = random.sample(D, BATCH)

                input_image_data_batch = [d[0] for d in minibatch]

                argmax_batch = [d[1] for d in minibatch]

                reward_batch = [d[2] for d in minibatch]

                input_image_data1_batch = [d[3] for d in minibatch]

                gt_batch = []

                out_batch = predict_action.eval(

                    feed_dict={input_image: input_image_data1_batch})

                for i in range(0, len(minibatch)):

                    gt_batch.append(

                        reward_batch[i] + LEARNING_RATE * np.max(out_batch[i]))

                optimizer.run(feed_dict={

                              gt: gt_batch, argmax: argmax_batch, input_image: input_image_data_batch})

            input_image_data = input_image_data1

            n = n + 1

            if n % 10000 == 0:

                saver.save(sess, 'game.cpk', global_step=n)  # 保存模型

            print(n, "epsilon:", epsilon, " ", "action:",

                  maxIndex, " ", "reward:", reward)

train_neural_network(input_image)

tensorflow训练打游戏ai的更多相关文章

游戏AI之初步介绍（0）
目录游戏AI是什么? 游戏AI和理论AI 智能的假象 (更新)游戏AI和机器学习介绍一些游戏AI 4X游戏AI <求生之路>系列角色扮演/沙盒游戏中的NPC 游戏AI 需要学些什么? ...
使用TensorFlow训练自己的语音识别AI
这次来训练一个基于CNN的语音识别模型.训练完成后,我们将尝试将此模型用于Hotword detection. 人类是怎样听懂一句话的呢?以汉语为例,当听到"wo shi"的录音时 ...
Unity 用ml-agents机器学习造个游戏AI吧(1)(Windows环境配置)
前言:以前觉得机器学习要应用于游戏AI,还远得很. 最近看到一些资料后,突发兴致试着玩了玩Unity机器学习,才发觉机器学习占领游戏AI的可能性和趋势. Unity训练可爱柯基犬Puppo 机器学习训 ...
王亮：游戏AI探索之旅——从alphago到moba游戏
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由云加社区技术沙龙发表于云+社区专栏演讲嘉宾:王亮,腾讯AI高级研究员.2013年加入腾讯,从事大数据预测以及游戏AI研发工作.目前 ...
游戏AI系列内容咋样才能做个有意思的AI呢
游戏AI系列内容咋样才能做个有意思的AI呢写在前面的话怪物AI怎么才能做的比较有意思.其实这个命题有点大,我作为一个仅仅进入游戏行业两年接触怪物AI还不到一年的程序员来说,来谈这个话题,我想我是 ...
趣说游戏AI开发：对状态机的褒扬和批判
0x00 前言因为临近年关工作繁忙,已经有一段时间没有更新博客了.到了元旦终于有时间来写点东西,既是积累也是分享.如题目所示,本文要来聊一聊在游戏开发中经常会涉及到的话题--游戏AI.设计游戏AI的 ...
使用行为树(Behavior Tree)实现游戏AI
——————————————————————— 谈到游戏AI,很明显智能体拥有的知识条目越多,便显得更智能,但维护庞大数量的知识条目是个噩梦:使用有限状态机(FSM),分层有限状态机(HFSM),决策 ...
如何建立一个完整的游戏AI
http://blog.friskit.me/2012/04/how-to-build-a-perfect-game-ai/ 人工智能(Artificial Intelligence)在游戏中使用已经 ...
实现简易而强大的游戏AI——FSM，有限状态机
http://blog.friskit.me/2012/05/introduction-of-fsm/ 在很久很久以前,受限于计算机性能和图形效果,游戏往往是以玩家为唯一主动对象的,玩家发出动作,游戏 ...

随机推荐

HDU 6141 I am your Father!（最小树形图+权值编码）
http://acm.hdu.edu.cn/showproblem.php?pid=6141 题意: 求最大树形图. 思路: 把边的权值变为负值,那么这就是个最小树形图了,直接套模板就可以解决. 有个 ...
Mysql 统计查询
SELECT ub.telphone, SUM(IF(b.type = 1 AND b.level = 1, 1, 0)) AS type11, SUM(IF(b.type = 1 AND b.lev ...
MongoDB（课时5 数据查询）
3.4.2 数据查询对于数据的查询操作核心语法: db.集合名称.find({查询条件}, {设置显示的字段}) 范例:没查询条件 db.info.find() 范例:有查询条件,查询出url为&q ...
Selenium库的使用
一.什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行 ...
Unity 代码优化
1.不用的代码删除掉,因为即使不用的代码也会 IL2Cpp. 2.MonoBehaviour 的方法是空方法,特别是Update方法,删除掉,会有性能消耗. 3.Unity 中 override 的方 ...
springboot入门（一）--快速搭建一个springboot框架
原文出处前言在开始之前先简单介绍一下springboot,springboot作为一个微框架,它本身并不提供Spring框架的核心特性以及扩展功能,只是用于快速.敏捷地开发新一代基于Spring框架 ...
快速搭建一个简易的KMS 服务
xu言: 之前,闹的沸沸扬扬的KMS激活工具自身都存在问题的事.让我们对以前的什么小马激活.kms激活.各种激活工具都去打了一个深深的“?”,到底哪些能用.哪些不能用.有些还注明的里面必须要关闭杀毒软 ...
Confluence 6 使用 LDAP 授权连接一个内部目录 - 成员 Schema 设置
请注意:这部分仅在拷贝用户登录(Copy User on Login)和同步组成员(Synchronize Group Memberships)被启用后可见. 用户组成员属性(Group Membe ...
django-celery定时任务以及异步任务and服务器部署并且运行全部过程
Celery 应用Celery之前,我想大家都已经了解了,什么是Celery,Celery可以做什么,等等一些关于Celery的问题,在这里我就不一一解释了. 应用之前,要确保环境中添加了Celery ...
『PyTorch』第五弹_深入理解autograd_下：函数扩展&高阶导数
一.封装新的PyTorch函数继承Function类 forward:输入Variable->中间计算Tensor->输出Variable backward:均使用Variable 线性 ...

tensorflow训练打游戏ai

tensorflow训练打游戏ai的更多相关文章

随机推荐

热门专题