PPO-KL散度近端策略优化玩cartpole游戏

其实KL散度在这个游戏里的作用不大，游戏的action比较简单，不像LM里的action是一个很大的向量，可以直接用surr1，最大化surr1，实验测试确实是这样，而且KL的系数不能给太大，否则惩罚力度太大，action model 和ref model产生的action其实分布的差距并不太大

import gym

import torch

import torch.nn as nn

import torch.optim as optim

import numpy as np

import pygame

import sys

from collections import deque

# 定义策略网络

class PolicyNetwork(nn.Module):

    def __init__(self):

        super(PolicyNetwork, self).__init__()

        self.fc = nn.Sequential(

            nn.Linear(4, 2),

            nn.Tanh(),

            nn.Linear(2, 2),  # CartPole的动作空间为2

            nn.Softmax(dim=-1)

        )

    def forward(self, x):

        return self.fc(x)

# 定义值网络

class ValueNetwork(nn.Module):

    def __init__(self):

        super(ValueNetwork, self).__init__()

        self.fc = nn.Sequential(

            nn.Linear(4, 2),

            nn.Tanh(),

            nn.Linear(2, 1)

        )

    def forward(self, x):

        return self.fc(x)

# 经验回放缓冲区

class RolloutBuffer:

    def __init__(self):

        self.states = []

        self.actions = []

        self.rewards = []

        self.dones = []

        self.log_probs = []

    def store(self, state, action, reward, done, log_prob):

        self.states.append(state)

        self.actions.append(action)

        self.rewards.append(reward)

        self.dones.append(done)

        self.log_probs.append(log_prob)

    def clear(self):

        self.states = []

        self.actions = []

        self.rewards = []

        self.dones = []

        self.log_probs = []

    def get_batch(self):

        return (

            torch.tensor(self.states, dtype=torch.float),

            torch.tensor(self.actions, dtype=torch.long),

            torch.tensor(self.rewards, dtype=torch.float),

            torch.tensor(self.dones, dtype=torch.bool),

            torch.tensor(self.log_probs, dtype=torch.float)

        )

# PPO更新函数

def ppo_update(policy_net, value_net, optimizer_policy, optimizer_value, buffer, epochs=100, gamma=0.99, clip_param=0.2):

    states, actions, rewards, dones, old_log_probs = buffer.get_batch()

    returns = []

    advantages = []

    G = 0

    adv = 0

    dones = dones.to(torch.int)

    # print(dones)

    for reward, done, value in zip(reversed(rewards), reversed(dones), reversed(value_net(states))):

        if done:

            G = 0

            adv = 0

        G = reward + gamma * G  #蒙特卡洛回溯G值

        delta = reward + gamma * value.item() * (1 - done) - value.item()  #TD差分

        # adv = delta + gamma * 0.95 * adv * (1 - done)  #

        adv = delta + adv*(1-done)

        returns.insert(0, G)

        advantages.insert(0, adv)

    returns = torch.tensor(returns, dtype=torch.float)  #价值

    advantages = torch.tensor(advantages, dtype=torch.float)

    advantages = (advantages - advantages.mean()) / (advantages.std() + 1e-8)  #add baseline

    for _ in range(epochs):

        action_probs = policy_net(states)

        dist = torch.distributions.Categorical(action_probs)

        new_log_probs = dist.log_prob(actions)

        ratio = (new_log_probs - old_log_probs).exp()

        KL = new_log_probs.exp()*(new_log_probs - old_log_probs).mean()   #KL散度 p*log(p/p')

        #下面三行是核心

        surr1 = ratio * advantages

        PPO1,PPO2 = True,False

        # print(surr1,KL*500)

        if PPO1 == True:

            actor_loss = -(surr1 - KL).mean()

        if PPO2 == True:

            surr2 = torch.clamp(ratio, 1.0 - clip_param, 1.0 + clip_param) * advantages

            actor_loss = -torch.min(surr1, surr2).mean()

        optimizer_policy.zero_grad()

        actor_loss.backward()

        optimizer_policy.step()

        value_loss = (returns - value_net(states)).pow(2).mean()

        optimizer_value.zero_grad()

        value_loss.backward()

        optimizer_value.step()

# 初始化环境和模型

env = gym.make('CartPole-v1')

policy_net = PolicyNetwork()

value_net = ValueNetwork()

optimizer_policy = optim.Adam(policy_net.parameters(), lr=3e-4)

optimizer_value = optim.Adam(value_net.parameters(), lr=1e-3)

buffer = RolloutBuffer()

# Pygame初始化

pygame.init()

screen = pygame.display.set_mode((600, 400))

clock = pygame.time.Clock()

draw_on = False

# 训练循环

state = env.reset()

for episode in range(10000):  # 训练轮次

    done = False

    state = state[0]

    step= 0

    while not done:

        step+=1

        state_tensor = torch.FloatTensor(state).unsqueeze(0)

        action_probs = policy_net(state_tensor)   #旧policy推理数据

        dist = torch.distributions.Categorical(action_probs)

        action = dist.sample()

        log_prob = dist.log_prob(action)

        next_state, reward, done, _ ,_ = env.step(action.item())

        buffer.store(state, action.item(), reward, done, log_prob)

        state = next_state

        # 实时显示

        for event in pygame.event.get():

            if event.type == pygame.QUIT:

                pygame.quit()

                sys.exit()

        if draw_on:

            # 清屏并重新绘制

            screen.fill((0, 0, 0))

            cart_x = int(state[0] * 100 + 300)  # 位置转换为屏幕坐标

            pygame.draw.rect(screen, (0, 128, 255), (cart_x, 300, 50, 30))

            pygame.draw.line(screen, (255, 0, 0), (cart_x + 25, 300), (cart_x + 25 - int(50 * np.sin(state[2])), 300 - int(50 * np.cos(state[2]))), 5)

            pygame.display.flip()

            clock.tick(60)

    if step >2000:

        draw_on = True

    ppo_update(policy_net, value_net, optimizer_policy, optimizer_value, buffer)

    buffer.clear()

    state = env.reset()

    print(f'Episode {episode} completed , reward:  {step}.')

# 结束训练

env.close()

pygame.quit()

效果：

PPO-KL散度近端策略优化玩cartpole游戏的更多相关文章

TensorFlow利用A3C算法训练智能体玩CartPole游戏
本教程讲解如何使用深度强化学习训练一个可以在 CartPole 游戏中获胜的模型.研究人员使用 tf.keras.OpenAI 训练了一个使用「异步优势动作评价」(Asynchronous Advan ...
DRL 教程 | 如何保持运动小车上的旗杆屹立不倒？TensorFlow利用A3C算法训练智能体玩CartPole游戏
本教程讲解如何使用深度强化学习训练一个可以在 CartPole 游戏中获胜的模型.研究人员使用 tf.keras.OpenAI 训练了一个使用「异步优势动作评价」(Asynchronous Advan ...
KL散度的理解（GAN网络的优化）
原文地址Count Bayesie 这篇文章是博客Count Bayesie上的文章Kullback-Leibler Divergence Explained 的学习笔记,原文对 KL散度的概念诠释 ...
（转）KL散度的理解
KL散度(KL divergence) 全称:Kullback-Leibler Divergence. 用途:比较两个概率分布的接近程度.在统计应用中,我们经常需要用一个简单的,近似的概率分布 f * ...
PRML读书会第十章 Approximate Inference（近似推断，变分推断，KL散度，平均场， Mean Field ）
主讲人戴玮 (新浪微博: @戴玮_CASIA) Wilbur_中博(1954123) 20:02:04 我们在前面看到,概率推断的核心任务就是计算某分布下的某个函数的期望.或者计算边缘概率分布.条件 ...
非负矩阵分解（1）：准则函数及KL散度
作者:桂. 时间:2017-04-06 12:29:26 链接:http://www.cnblogs.com/xingshansi/p/6672908.html 声明:欢迎被转载,不过记得注明出处哦 ...
深度学习中交叉熵和KL散度和最大似然估计之间的关系
机器学习的面试题中经常会被问到交叉熵(cross entropy)和最大似然估计(MLE)或者KL散度有什么关系,查了一些资料发现优化这3个东西其实是等价的. 熵和交叉熵提到交叉熵就需要了解下信息论 ...
机器学习：Kullback-Leibler Divergence （KL 散度）
今天,我们介绍机器学习里非常常用的一个概念,KL 散度,这是一个用来衡量两个概率分布的相似性的一个度量指标.我们知道,现实世界里的任何观察都可以看成表示成信息和数据,一般来说,我们无法获取数据的总体, ...
相对熵（KL散度）
https://blog.csdn.net/weixinhum/article/details/85064685 上一篇文章我们简单介绍了信息熵的概念,知道了信息熵可以表达数据的信息量大小,是信息处理 ...
ELBO 与 KL散度
浅谈KL散度一.第一种理解相对熵(relative entropy)又称为KL散度(Kullback–Leibler divergence,简称KLD),信息散度(information dive ...

随机推荐

#Every-SG#HDU 3595 GG and MM
题目有$n$个游戏,每个游戏只要能进行就必须进行, 对于每个游戏有两堆石子,每次可以将数量多的中取出小堆石子数量的整数倍, 无法操作者为负,问先手是否必胜分析如果单个游戏最大操作次数为奇数次 ...
5 个编写高效 Makefile 文件的最佳实践
在软件开发过程中,Makefile是一个非常重要的工具,它可以帮助我们自动化构建.编译.测试和部署.然而,编写高效的Makefile文件并不是一件容易的事情.在本文中,我们将讨论如何编写高效的Make ...
【编译原理】Antlr 入门使用
前面文章我们学习了编译器前端的词法和语法分析工具,本篇我们来看看如何借助 Antlr 工具,快速生成词法和语法分析代码. 一.安装 mac 环境: 1)安装 brew install antlr 2) ...
实例讲解昇腾 CANN YOLOV8 和 YOLOV9 适配
本文分享自华为云社区<昇腾 CANN YOLOV8 和 YOLOV9 适配>,作者:jackwangcumt. 1 概述华为昇腾 CANN YOLOV8 推理示例 C++样例 , 是基于 ...
Oracle with的重复使用（递归）
Oracle with的重复使用(递归) 写力扣的时候学到了新的方法 Recursive WITH Clauses 通常来说如果直接使用with XXX as ()这种,是没发直接使用自身的数据的例 ...
【ModelScope】5分钟让你在大火的多模态领域权威榜单VQA上超越人类
简介: ModelScope上开源了达摩院众多业界最强多模态模型,其中就有首超人类的多模态视觉问答模型mPLUG,小编从页面体验(一探).开发体验(二探).开放测试(三探)来探究多模态预训练模型能力. ...
阿里云视觉智能开放平台正式上线，阿里集团核心视觉AI能力对外开放
1月底,阿里云正式推出以计算机视觉AI能力为核心的视觉智能开放平台(vision.aliyun.com),平台目前已上线8大类目,超过50多种视觉AI能力,面向人脸识别,文字识别,商品理解,内容安全, ...
[FAQ] Quasar SSR: Hydration completed but contains mismatches.
使用 Quasar SSR 模式在 build 编译目标代码时,如果模板里有在服务端渲染阶段可能无法识别的变量,一般会出现这类提示. 比如在 layout 模板里使用了 this.$q.this.$r ...
WPF 一千个矩形做动画测试性能
在很多性能测试开始之前,都需要测试一下自己的期望优化的设备的性能上限是多少.我每次都是重新写一个测试应用,因为每次需要优化的方向都不相同.本文将记录一个我写的一个简单的测试应用,这里面包含了一千个半透 ...
QT之Mysql驱动
错误现象找不到Mysql驱动 QSqlDatabase: QMYSQL driver not loaded 一.驱动查看在程序中直接打印QT Creator中现有的驱动,打印方式如下: qDebu ...

PPO-KL散度近端策略优化玩cartpole游戏

PPO-KL散度近端策略优化玩cartpole游戏的更多相关文章

随机推荐

热门专题