强化学习的REIINFORCE算法和交叉熵RL算法

注意：

本文并不讲REINFORCE算法，而是讲强化学习的交叉熵算法，关于REINFORCE算法可以参看：

https://www.cnblogs.com/devilmaycry812839668/p/15889282.html

==========================================

强化学习有多种分类方法，其中一类分法为：

基于值函数的。该种类型的强化学习算法，比较有代表的基础算法有Q-learning算法、Sarsa算法等。
基于策略梯度的。该种类型的强化学习算法，比较有代表的基础算法有REINFORCE、交叉熵RL算法等。

本文主要讲交叉熵RL算法。交叉熵RL不同于REINFORCE算法，损失函数中是不使用奖励值的。交叉熵RL在每次和环境交互采集一定数量的episodes数据后根据奖励值选择其中一定比例的episodes数据，然后根据这些选定数据中动作的选择和对应的概率来进行交叉熵损失计算。如果在选定的episodes数据中有某个step，该step中状态可选择的动作为a0,a1,a2,a3这四个动作，假设agent最终选择的动作为a2，计算损失函数时得到在该step下选择a2的概率为p₂，那么计算时使用交叉熵函数则可以写为 -（0*logp₀ + 0*logp₁ + 1*logp₂ + 0*logp₃ ） = -logp₂ 。在对episodes数据进行选择时，我们可以根据最终奖励值的大小选择一定百分比的episodes，如选择最好的30%的episodes （在下面代码中百分位数设为70，就是选择最好的30%数据）。

需要注意的是交叉熵RL算法是十分基础的RL算法，缺点也很多，现在很少会有人使用，了解这个算法重要意义在于学习。在交叉熵RL算法可以使用对以往表现好的episodes数据进行保存，然后和新获得的数据一起进行再次训练，该种方式一般叫做保留精英操作。

给出CartPole环境下的一个交叉熵RL算法的代码：（Pytorch框架）

import gym

from collections import namedtuple

import numpy as np

from tensorboardX import SummaryWriter

import torch

import torch.nn as nn

import torch.optim as optim

HIDDEN_SIZE = 128

BATCH_SIZE = 16

PERCENTILE = 70

class Net(nn.Module):

    def __init__(self, obs_size, hidden_size, n_actions):

        super(Net, self).__init__()

        self.net = nn.Sequential(

            nn.Linear(obs_size, hidden_size),

            nn.ReLU(),

            nn.Linear(hidden_size, n_actions)

        )

    def forward(self, x):

        return self.net(x)

Episode = namedtuple('Episode', field_names=['reward', 'steps'])

EpisodeStep = namedtuple('EpisodeStep', field_names=['observation', 'action'])

def iterate_batches(env, net, batch_size):

    batch = []

    episode_reward = 0.0

    episode_steps = []

    obs = env.reset()

    sm = nn.Softmax(dim=1)

    while True:

        obs_v = torch.FloatTensor([obs])

        act_probs_v = sm(net(obs_v))

        act_probs = act_probs_v.data.numpy()[0]

        action = np.random.choice(len(act_probs), p=act_probs)

        next_obs, reward, is_done, _ = env.step(action)

        episode_reward += reward

        step = EpisodeStep(observation=obs, action=action)

        episode_steps.append(step)

        if is_done:

            e = Episode(reward=episode_reward, steps=episode_steps)

            batch.append(e)

            episode_reward = 0.0

            episode_steps = []

            next_obs = env.reset()

            if len(batch) == batch_size:

                yield batch

                batch = []

        obs = next_obs

def filter_batch(batch, percentile):

    rewards = list(map(lambda s: s.reward, batch))

    reward_bound = np.percentile(rewards, percentile)

    reward_mean = float(np.mean(rewards))

    train_obs = []

    train_act = []

    for reward, steps in batch:

        if reward < reward_bound:

            continue

        train_obs.extend(map(lambda step: step.observation, steps))

        train_act.extend(map(lambda step: step.action, steps))

    train_obs_v = torch.FloatTensor(train_obs)

    train_act_v = torch.LongTensor(train_act)

    return train_obs_v, train_act_v, reward_bound, reward_mean

if __name__ == "__main__":

    env = gym.make("CartPole-v0")

    # env = gym.wrappers.Monitor(env, directory="mon", force=True)

    obs_size = env.observation_space.shape[0]

    n_actions = env.action_space.n

    net = Net(obs_size, HIDDEN_SIZE, n_actions)

    objective = nn.CrossEntropyLoss()

    optimizer = optim.Adam(params=net.parameters(), lr=0.01)

    writer = SummaryWriter(comment="-cartpole")

    for iter_no, batch in enumerate(iterate_batches(

            env, net, BATCH_SIZE)):

        obs_v, acts_v, reward_b, reward_m = \

            filter_batch(batch, PERCENTILE)

        optimizer.zero_grad()

        action_scores_v = net(obs_v)

        loss_v = objective(action_scores_v, acts_v)

        loss_v.backward()

        optimizer.step()

        print("%d: loss=%.3f, reward_mean=%.1f, rw_bound=%.1f" % (

            iter_no, loss_v.item(), reward_m, reward_b))

        writer.add_scalar("loss", loss_v.item(), iter_no)

        writer.add_scalar("reward_bound", reward_b, iter_no)

        writer.add_scalar("reward_mean", reward_m, iter_no)

        if reward_m > 199:

            print("Solved!")

            break

    writer.close()

============================================

强化学习的REIINFORCE算法和交叉熵算法作为比较基础的算法经常作为baseline被提及，关于REIINFORCE算法可以参看：

https://www.cnblogs.com/devilmaycry812839668/p/15889282.html

============================================

强化学习的REIINFORCE算法和交叉熵RL算法的更多相关文章

强化学习中REIINFORCE算法和AC算法在算法理论和实际代码设计中的区别
背景就不介绍了,REINFORCE算法和AC算法是强化学习中基于策略这类的基础算法,这两个算法的算法描述(伪代码)参见Sutton的reinforcement introduction(2nd). A ...
统计学习：逻辑回归与交叉熵损失（Pytorch实现）
1. Logistic 分布和对率回归监督学习的模型可以是概率模型或非概率模型,由条件概率分布$P(Y|\bm{X})$或决策函数(decision function)\(Y=f(\bm{X} ...
强化学习（五）—— 策略梯度及reinforce算法
1 概述在该系列上一篇中介绍的基于价值的深度强化学习方法有它自身的缺点,主要有以下三点: 1)基于价值的强化学习无法很好的处理连续空间的动作问题,或者时高维度的离散动作空间,因为通过价值更新策略时是 ...
强化学习(十七) 基于模型的强化学习与Dyna算法框架
在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL),本篇我们讨论最后一种强化学习流派,基于模型的强化学习(Model Base ...
深度强化学习day01初探强化学习
深度强化学习基本概念强化学习强化学习(Reinforcement Learning)是机器学习的一个重要的分支,主要用来解决连续决策的问题.强化学习可以在复杂的.不确定的环境中学习如何实现我们设 ...
<强化学习>开门帖
(本系列只用作本人笔记,如果看官是以新手开始学习RL,不建议看我写的笔记昂) 今天是2020年2月7日,开始二刷david silver ulc课程.https://www.youtube.com/w ...
softmax交叉熵损失函数求导
来源:https://www.jianshu.com/p/c02a1fbffad6 简单易懂的softmax交叉熵损失函数求导来写一个softmax求导的推导过程,不仅可以给自己理清思路,还可以造福 ...
机器学习之路：tensorflow 深度学习中分类问题的损失函数交叉熵
经典的损失函数----交叉熵 1 交叉熵: 分类问题中使用比较广泛的一种损失函数, 它刻画两个概率分布之间的距离给定两个概率分布p和q, 交叉熵为: H(p, q) = -∑ p(x) log q( ...
强化学习调参技巧二：DDPG、TD3、SAC算法为例：
1.训练环境如何正确编写强化学习里的 env.reset() env.step() 就是训练环境.其编写流程如下: 1.1 初始阶段: 先写一个简化版的训练环境.把任务难度降到最低,确保一定能正常训 ...
深度学习基础5:交叉熵损失函数、MSE、CTC损失适用于字识别语音等序列问题、Balanced L1 Loss适用于目标检测
深度学习基础5:交叉熵损失函数.MSE.CTC损失适用于字识别语音等序列问题.Balanced L1 Loss适用于目标检测 1.交叉熵损失函数在物理学中,"熵"被用来表示热力学 ...

随机推荐

element-ui 合并行或列 table :span-method（行合并）
element-ui 官网案例:table合并行或列 element-ui官网中关于行合并的例子是根据行号进行合并的,这显然不符合我们日常开发需求,因为通常我们table中的数据都是动态生成的,所以需 ...
Flarum 安装和使用教程
随着开源社区的日益繁荣,人们对社区品质的要求也越来越高.传统的 BBS 论坛模式已经难以满足现代用户对美观.便捷.互动性的需求.搭建一个现代化的高品质社区,成为许多网站管理者的迫切需求和共同挑战. 今 ...
AI赋能ITSM：企业运维跃迁之路
随着企业信息化建设的深入,IT运维管理作为保证企业信息系统稳定运行的重要工作,越来越受到重视. 那么,什么是IT运维呢? 简单地说,IT运维是一系列维护.管理和优化企业IT基础设施.系统和应用程序的活 ...
rabbitMq消息接收转换对象，Json解析字符串报错syntax error, expect {, actual string, pos 0, fastjson-version 1.2.62解决
Expected BEGIN_OBJECT but was STRING at line 1 column 2 path $ syntax error, expect {, actual string ...
Primer Premier 6安装使用教程
Primer Premier是一款专业级PCR引物设计工具软件,专为科研及分子生物学实验定制PCR扩增.测序探针及杂交引物.该程序运用尖端演算法评估引物的特异性.二聚体可能性和熔解温度等核心属性,确保 ...
.net core SM2加密+PKCS8实现
前阵子在对接银行接口,对方给出的加密方式是SM2,在网上找了不少教程,都是使用Portable.BouncyCastle实现的,功能实现后发现对方给出的密钥格式是PKCS8,下面代码记录一下PKCS8 ...
Openstack制作Rhel9，使用IOS镜像制作
转自作者自己的CSDN 拷贝 ==================== 需要已有环境: 1.Openstack 2.qume-img,kvm,virsh.... (yum install qemu- ...
SpringBoot整合EasyPoi 封装Excel导出通用工具类，行高自适应，导出图片
导读下午抽空封装一个通用导出Excel工具类.之前还写过一篇EasyPoi导入参数校验,批注导出,点我直达添加依赖  <dependency&g ...
c 语言学习第四天
if 语句格式: // 1 // 其他语句... if(表达式){ // 其他语句... } // 其他语句... // 2 if(表达式){ }else{ } // 3 if(表达式1){ }el ...
【Azure Developer】一个复制Redis Key到另一个Redis服务的工具(redis_copy_net8)
介绍一个简单的工具,用于将Redis数据从一个redis端点复制到另一个redis端点,基于原始存储库转换为.NET 8:https://github.com/LuBu0505/redis-copy- ...

强化学习的REIINFORCE算法和交叉熵RL算法

强化学习的REIINFORCE算法和交叉熵RL算法的更多相关文章

随机推荐

热门专题