强化学习：连续控制问题中Actor-Critic算法的linear baseline

最近在看连续控制问题，看到了一个Actor-Critic算法中手动扩展features和设置linear baseline的方法，这些方法源自论文：《Benchmarking Deep Reinforcement Learning for Continuous Control》。

对于低维的features我们可以手动扩展：

代码实现：

        return torch.cat([observations, observations ** 2, al, al ** 2, al ** 3, ones], dim=2)

-----------------------------------------------------

linear baseline，在AC算法中给Critic降低方差之用，给出一种简单的线性拟合方式，使用最小二乘法拟合：

代码：

    def fit(self, episodes):

        # sequence_length * batch_size x feature_size

        featmat = self._feature(episodes).view(-1, self.feature_size)

        # sequence_length * batch_size x 1

        returns = episodes.returns.view(-1, 1)

        reg_coeff = self._reg_coeff

        eye = torch.eye(self.feature_size, dtype=torch.float32,

                        device=self.linear.weight.device)

        for _ in range(5):

            try:

                coeffs = torch.linalg.lstsq(

                    torch.matmul(featmat.t(), featmat) + reg_coeff * eye,

                    torch.matmul(featmat.t(), returns)

                ).solution

                break

            except RuntimeError:

                reg_coeff += 10

        else:

            raise RuntimeError('Unable to solve the normal equations in '

                               '`LinearFeatureBaseline`. The matrix X^T*X (with X the design '

                               'matrix) is not full-rank, regardless of the regularization '

                               '(maximum regularization: {0}).'.format(reg_coeff))

        self.linear.weight.data = coeffs.data.t()

===============================================

详细代码地址：

https://gitee.com/devilmaycry812839668/MAML-Pytorch-RL/blob/master/maml_rl/baseline.py

强化学习：连续控制问题中Actor-Critic算法的linear baseline的更多相关文章

【转】【强化学习】Deep Q Network(DQN)算法详解
原文地址:https://blog.csdn.net/qq_30615903/article/details/80744083 DQN(Deep Q-Learning)是将深度学习deeplearni ...
强化学习(Reinforcement Learning)中的Q-Learning、DQN，面试看这篇就够了！
1. 什么是强化学习其他许多机器学习算法中学习器都是学得怎样做,而强化学习(Reinforcement Learning, RL)是在尝试的过程中学习到在特定的情境下选择哪种行动可以得到最大的回报. ...
OpenCV学习(22) opencv中使用kmeans算法
kmeans算法的原理参考:http://www.cnblogs.com/mikewolf2002/p/3368118.html 下面学习一下opencv中kmeans函数的使用. 首先我们 ...
强化学习8-时序差分控制离线算法Q-Learning
Q-Learning和Sarsa一样是基于时序差分的控制算法,那两者有什么区别呢? 这里已经必须引入新的概念时序差分控制算法的分类:在线和离线在线控制算法:一直使用一个策略选择动作和更新价值函数, ...
OpenCV学习(35) OpenCV中的PCA算法
PCA算法的基本原理可以参考:http://www.cnblogs.com/mikewolf2002/p/3429711.html 对一副宽p.高q的二维灰度图,要完整表示该图像,需要m = ...
深度学习-强化学习(RL)概述笔记
强化学习(Reinforcement Learning)简介强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益.其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予 ...
深度强化学习（DRL）专栏（一）
目录: 1. 引言专栏知识结构从AlphaGo看深度强化学习 2. 强化学习基础知识强化学习问题马尔科夫决策过程最优价值函数和贝尔曼方程 3. 有模型的强化学习方法价值迭代策略迭代 4. ...
深度强化学习（DRL）专栏开篇
2015年,DeepMind团队在Nature杂志上发表了一篇文章名为"Human-level control through deep reinforcement learning&quo ...
【整理】强化学习与MDP
[入门,来自wiki] 强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益.其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的 ...
【转载】 “强化学习之父”萨顿：预测学习马上要火，AI将帮我们理解人类意识
原文地址: https://yq.aliyun.com/articles/400366 本文来自AI新媒体量子位(QbitAI) ------------------------------- ...

随机推荐

Javascript高级程序设计第一章 | ch1 | 阅读笔记
什么是JavaScript 历史回顾 JavaScript实现完整的JavaScript实现包括核心 ECMAScript -> 语法.类型.关键字.保留字...(规范) 文档对象模型 DO ...
python类和对象初识
# python类和对象初识 a = 2 b = 3 print(id(a)) print(type(a)) print(a) print(id(b)) print(type(b)) print(b) ...
记一次cdh6.3.2版本spark写入phoniex的错误：Incompatible jars detected between client and server. Ensure that phoenix-[version]-server.jar is put on the classpath of HBase in every region server:
Caused by: java.lang.reflect.InvocationTargetException at sun.reflect.NativeConstructorAccessorImpl. ...
ElasticSearch多语义命令在query和aggregation中的区别
初学ES时,有两个较为特殊的命令让我困惑 terms 在query中使用terms,代表匹配多个查询条件在aggregation中使用terms,代表按指定filed进行groud by分组聚合 f ...
Linux特殊权限之SUID，SGID
SUID定义暂时借用属主身份运行二进制程序.(SGID则是借用属组) 应用场景某些用户在运行二进制程序的过程中,没有权限访问此二进制程序中其他的一些文件.给此用户过高的权限又不安全. 比如,每个用 ...
.NET 中使用RabbitMQ初体验
在.NET Core中使用RabbitMQ 前言逛园子的时候看到一篇.NET 学习RabbitMq的文章(视频地址和文章地址放在文章底部了),写的不错,我也来实现一下. 我是把RabbitMQ放在服 ...
Linux 驱动需要考虑的同步问题
--- title: Linux 驱动需要考虑的同步问题 date: 2020-06-22 07:21:32 categories: tags: - ipc - linux - kernel - dr ...
CodeFormer一款既能图像修复、还能视频增强去码的AI软件（下载介绍）
CodeFormer是一款强大的人工智能工具,主要用于图像和视频的修复和增强.它基于深度学习技术,特别是人脸复原模型,可以轻松修复和增强面部图像,提升照片和视频的质量和视觉效果工作原理 1.通过自动 ...
实测952Mbps！四路千兆网PCIe拓展方案，国产工业级！
测试环境说明运行系统:Debian-11.8 评估板:TL3588-EVM(RK3588J) 模块:PCIe扩展2/4路千兆网口模块方案:无锡沐创N500L-AM2C-DD.N500L-AM4C- ...
matlab常用语法简介
目录一.输入函数 1.disp函数二.合并字符串 1.strcat函数 (1)strcat函数可用于合并字符串,用法如图: 2.利用向量,用法如图: 3.利用"num2str" ...

强化学习：连续控制问题中Actor-Critic算法的linear baseline

强化学习：连续控制问题中Actor-Critic算法的linear baseline的更多相关文章

随机推荐

热门专题