1. 连续动作空间

离散动作&连续动作

2.DDPG讲解Deep Deterministic Policy Gradient

deep-神经网络--DNQ扩展

目标网络 target work

经验回放 replay memory

Deterministic Policy Gradient

·Deterministic 直接输出确定的动作 $a=\mu(s)$

·Policy Gradient 单步更新的policy网络

DDPG是DQN的扩展版本，可以扩展到连续控制动作空间

2.1 策略网络：

actor对外输出动作；critic会对每个输出的网络进行评估。刚开始随机参数初始化，然后根据reward不断地反馈。

目标网络target network +经验回放ReplayMemory

两个target_Q/P网络的作用是稳定Q网络里的Q_target 复制原网络一段时间不变。

2.2 经验回放ReplayMemory

用到数据： $s, a, r, s^{\prime}$

Agent把产生的数据传给algorithm，algorithm根据model的模型结构计算出Loss，使用SGD或者其他优化器不断的优化，PARL这种架构可以很方便的应用在各类深度强化学习问题中。

（1）Model

Model用来定义前向(Forward)网络，用户可以自由的定制自己的网络结构
class Model(parl.Model):

    def __init__(self, act_dim):

        self.actor_model = ActorModel(act_dim)

        self.critic_model = CriticModel()

    def policy(self, obs):

        return self.actor_model.policy(obs)

    def value(self, obs, act):

        return self.critic_model.value(obs, act)

    def get_actor_params(self):

        return self.actor_model.parameters()
class ActorModel(parl.Model):

    def __init__(self, act_dim):

        hid_size = 100

        self.fc1 = layers.fc(size=hid_size, act='relu')

        self.fc2 = layers.fc(size=act_dim, act='tanh')

    def policy(self, obs):

        hid = self.fc1(obs)

        means = self.fc2(hid)

        return means
class CriticModel(parl.Model):

    def __init__(self):

        hid_size = 100

        self.fc1 = layers.fc(size=hid_size, act='relu')

        self.fc2 = layers.fc(size=1, act=None)

    def value(self, obs, act):

        concat = layers.concat([obs, act], axis=1)

        hid = self.fc1(concat)

        Q = self.fc2(hid)

        Q = layers.squeeze(Q, axes=[1])

        return Q

（2）Algorithm

Algorithm 定义了具体的算法来更新前向网络(Model)，也就是通过定义损失函数来更新Model，和算法相关的计算都放在algorithm中。

    def _critic_learn(self, obs, action, reward, next_obs, terminal):

        next_action = self.target_model.policy(next_obs)

        next_Q = self.target_model.value(next_obs, next_action)

        terminal = layers.cast(terminal, dtype='float32')

        target_Q = reward + (1.0 - terminal) * self.gamma * next_Q

        target_Q.stop_gradient = True

        Q = self.model.value(obs, action)

        cost = layers.square_error_cost(Q, target_Q)

        cost = layers.reduce_mean(cost)

        optimizer = fluid.optimizer.AdamOptimizer(self.critic_lr)

        optimizer.minimize(cost)

        return cost

    def _actor_learn(self, obs):

        action = self.model.policy(obs)

        Q = self.model.value(obs, action)

        cost = layers.reduce_mean(-1.0 * Q)

        optimizer = fluid.optimizer.AdamOptimizer(self.actor_lr)

        optimizer.minimize(cost, parameter_list=self.model.get_actor_params())

        return cost

软更新：每次更新一点参数，用\tau控制，按比例更新

硬更新：是每隔一段时间全部参数都更新

    def sync_target(self, decay=None, share_vars_parallel_executor=None):

        """ self.target_model从self.model复制参数过来，若decay不为None,则是软更新

        """

        if decay is None:

            decay = 1.0 - self.tau

        self.model.sync_weights_to(

            self.target_model,

            decay=decay,

            share_vars_parallel_executor=share_vars_parallel_executor)

（3）Agent

Agent负责算法与环境的交互，在交互过程中把生成的数据提供给Algorithm来更新模型(Model)，数据的预处理流程也一般定义在这里。

class Agent(parl.Agent):

    def __init__(self, algorithm, obs_dim, act_dim):

        assert isinstance(obs_dim, int)

        assert isinstance(act_dim, int)

        self.obs_dim = obs_dim

        self.act_dim = act_dim

        super(Agent, self).__init__(algorithm)

        # 注意：最开始先同步self.model和self.target_model的参数.

        self.alg.sync_target(decay=0)

    def build_program(self):

        self.pred_program = fluid.Program()

        self.learn_program = fluid.Program()

        with fluid.program_guard(self.pred_program):

            obs = layers.data(

                name='obs', shape=[self.obs_dim], dtype='float32')

            self.pred_act = self.alg.predict(obs)

        with fluid.program_guard(self.learn_program):

            obs = layers.data(

                name='obs', shape=[self.obs_dim], dtype='float32')

            act = layers.data(

                name='act', shape=[self.act_dim], dtype='float32')

            reward = layers.data(name='reward', shape=[], dtype='float32')

            next_obs = layers.data(

                name='next_obs', shape=[self.obs_dim], dtype='float32')

            terminal = layers.data(name='terminal', shape=[], dtype='bool')

            _, self.critic_cost = self.alg.learn(obs, act, reward, next_obs,

                                                 terminal)

    def predict(self, obs):

        obs = np.expand_dims(obs, axis=0)

        act = self.fluid_executor.run(

            self.pred_program, feed={'obs': obs},

            fetch_list=[self.pred_act])[0]

        act = np.squeeze(act)

        return act

    def learn(self, obs, act, reward, next_obs, terminal):

        feed = {

            'obs': obs,

            'act': act,

            'reward': reward,

            'next_obs': next_obs,

            'terminal': terminal

        }

        critic_cost = self.fluid_executor.run(

            self.learn_program, feed=feed, fetch_list=[self.critic_cost])[0]

        self.alg.sync_target()

        return critic_cost

（4）env.py

连续控制版本的CartPole环境

该环境代码与算法无关，可忽略不看，参考gym

（5）经验池 ReplayMemory

与DQN的replay_mamory.py代码一致

class ReplayMemory(object):

    def __init__(self, max_size):

        self.buffer = collections.deque(maxlen=max_size)

    def append(self, exp):

        self.buffer.append(exp)

    def sample(self, batch_size):

        mini_batch = random.sample(self.buffer, batch_size)

        obs_batch, action_batch, reward_batch, next_obs_batch, done_batch = [], [], [], [], []

        for experience in mini_batch:

            s, a, r, s_p, done = experience

            obs_batch.append(s)

            action_batch.append(a)

            reward_batch.append(r)

            next_obs_batch.append(s_p)

            done_batch.append(done)

        return np.array(obs_batch).astype('float32'), \

            np.array(action_batch).astype('float32'), np.array(reward_batch).astype('float32'),\

            np.array(next_obs_batch).astype('float32'), np.array(done_batch).astype('float32')

    def __len__(self):

        return len(self.buffer)

（6）train

# 训练一个episode

def run_episode(agent, env, rpm):

    obs = env.reset()

    total_reward = 0

    steps = 0

    while True:

        steps += 1

        batch_obs = np.expand_dims(obs, axis=0)

        action = agent.predict(batch_obs.astype('float32'))

        # 增加探索扰动, 输出限制在 [-1.0, 1.0] 范围内

        action = np.clip(np.random.normal(action, NOISE), -1.0, 1.0)

        next_obs, reward, done, info = env.step(action)

        action = [action]  # 方便存入replaymemory

        rpm.append((obs, action, REWARD_SCALE * reward, next_obs, done))

        if len(rpm) > MEMORY_WARMUP_SIZE and (steps % 5) == 0:

            (batch_obs, batch_action, batch_reward, batch_next_obs,

             batch_done) = rpm.sample(BATCH_SIZE)

            agent.learn(batch_obs, batch_action, batch_reward, batch_next_obs,

                        batch_done)

        obs = next_obs

        total_reward += reward

        if done or steps >= 200:

            break

    return total_reward

增加扰动保持探索，添加一个高斯噪声。np.clip做一下裁剪，确保在合适的范围内。

总结

【八】强化学习之DDPG---PaddlePaddlle【PARL】框架｛飞桨｝的更多相关文章

强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)
在强化学习(十七) 基于模型的强化学习与Dyna算法框架中,我们讨论基于模型的强化学习方法的基本思路,以及集合基于模型与不基于模型的强化学习框架Dyna.本文我们讨论另一种非常流行的集合基于模型与不基 ...
深度强化学习——连续动作控制DDPG、NAF
一.存在的问题 DQN是一个面向离散控制的算法,即输出的动作是离散的.对应到Atari 游戏中,只需要几个离散的键盘或手柄按键进行控制. 然而在实际中,控制问题则是连续的,高维的,比如一个具有6个关节 ...
深度强化学习：Policy-Based methods、Actor-Critic以及DDPG
Policy-Based methods 在上篇文章中介绍的Deep Q-Learning算法属于基于价值(Value-Based)的方法,即估计最优的action-value function $q ...
强化学习(十七) 基于模型的强化学习与Dyna算法框架
在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL),本篇我们讨论最后一种强化学习流派,基于模型的强化学习(Model Base ...
强化学习(十六) 深度确定性策略梯度(DDPG)
在强化学习(十五) A3C中,我们讨论了使用多线程的方法来解决Actor-Critic难收敛的问题,今天我们不使用多线程,而是使用和DDQN类似的方法:即经验回放和双网络的方法来改进Actor-Cri ...
【转载】强化学习（八）价值函数的近似表示与Deep Q-Learning
原文地址: https://www.cnblogs.com/pinard/p/9714655.html ------------------------------------------------ ...
谷歌重磅开源强化学习框架Dopamine吊打OpenAI
谷歌重磅开源强化学习框架Dopamine吊打OpenAI 近日OpenAI在Dota 2上的表现,让强化学习又火了一把,但是 OpenAI 的强化学习训练环境 OpenAI Gym 却屡遭抱怨,比如不 ...
NABCD框架（作业和事件的定期提醒）及第八周学习进度条
NABCD框架(作业和事件的定期提醒): N(need,需求): 你的创意解决了用户的什么需求? 我们的创意能够一定程度上督促我们的用户(学生)尽快完成自己近期的任务或者是作业.我们认为如果增设定时提 ...
谷歌推出新型强化学习框架Dopamine
今日,谷歌发布博客介绍其最新推出的强化学习新框架 Dopamine,该框架基于 TensorFlow,可提供灵活性.稳定性.复现性,以及快速的基准测试. GitHub repo:https://git ...
强化学习调参技巧二：DDPG、TD3、SAC算法为例：
1.训练环境如何正确编写强化学习里的 env.reset() env.step() 就是训练环境.其编写流程如下: 1.1 初始阶段: 先写一个简化版的训练环境.把任务难度降到最低,确保一定能正常训 ...

随机推荐

C-Shopping基于Next.js，开源电商平台全新亮相
嗨,大家好!欢迎来到C-Shopping,这是一场揭开科技面纱的电商之旅.我是C-Shopping开源作者"继小鹏",今天将为你介绍一款基于最新技术的开源电商平台.让我们一同探索吧 ...
【flask】flask请求上下文分析 threading.local对象偏函数 flask1.1.4生命执行流程 wtforms
目录上节回顾今日内容 1 请求上下文分析(源码:request原理) 1.1 导出项目的依赖 1.2 函数和方法 1.3 threading.local对象 1.4 偏函数 1.5 flask 整 ...
Go--Println、Printf区别
Println:打印字符串.变量: 同函数输出多项,之间存在空格不同函数输出自动换行 Printf:打印需要格式化的字符串,可以输出字符串类型的变量:不可以输出整型变量和整型同函数 ...
Navigation的用法
一.Navigation的诞生单个Activity嵌套多个Fragment的UI架构模式,已经被大多数的Android工程师所接受和采用.但是,对Fragment的管理一直是一件比较麻烦的事情.我们 ...
彻底解决 gcr、quay、DockerHub 镜像下载难题
在使用 Docker 和 Kubernetes 时,我们经常需要访问 gcr.io 和 quay.io 镜像仓库,由于众所周知的原因,这些镜像仓库在中国都无法访问,唯一能访问的是 Docker Hub ...
[Qt开发/毕业设计/求职项目]局域网环境下远程文件发送部署系统-服务端、客户端双端的讲解
写在前面本文旨在做一个简单的代码讲解,我会给出源码,然后整个代码的讲解都在源码的基础上进行. 代码可能会随着更新而进行修改,但是整体框架变化不会太大. 整个文章内容不会太多,算是我自己的一个复盘,整 ...
apache-jmeter-5.6.3版本报错：errorlevel=1的解决办法
一.背景: 今天遇到了apache-jmeter-5.6.3版本,下载解决后,打开bin下的:jmeter.bat报错二.解决方法: 尝试解决了jmeter.bat的内存占用还是没有解决最终发现 ...
asp.net core之Kestrel
简介在ASP.NET Core中,Kestrel是一个重要的组件,它是一个跨平台的.开源的Web服务器,专门为ASP.NET Core应用程序而设计.Kestrel以其轻量级和高性能而闻名,本文将介 ...
SV OOP-1
内容面向对象编程面向对象的基本概念对象没有办法直接操作,需要通过handle(指向对象的指针)进行操作面向对象的基本术语面向对象的优势类的定义实例化对象 new() - 产生具体对象,开 ...
问题--缺少 cryptography 包
1.问题 raise RuntimeError( RuntimeError: 'cryptography' package is required for sha256_password or cac ...

【八】强化学习之DDPG---PaddlePaddlle【PARL】框架｛飞桨｝