1.原因：

选择动作值只在-1 1之间取值

actor网络输出用tanh，将动作规范在[-1,1]，然后线性变换到具体的动作范围。其次，tanh激活区是有范围的，你的预激活变量（输入tanh的）范围太大，进入了tanh的饱和区，会导致梯度消失，而且tanh输出的自然就靠近边界了

2.解决方案：

1、网络的输入输出都是归一化之后的，buffer里的{s,a,r,s_}都是同一个数量级的，

2、修改reward能指导网络正确选择动作进行输出

3.输入的数据要标准化或者归一化，然后学习率调小一点。

建议换算法，DDPG改成TD3改动很小，SAC对超参数没这么敏感，不要死磕DDPG，可以参考曾伊言：如何选择深度强化学习算法？MuZero/SAC/PPO/TD3/DDPG/DQN/等（已完成）

3.个人最终解决方案：

之前设置隐藏层大小都是一致的，现在把神经元个数增加，然后输入大于输出就好了！

输入256 输出128

强化学习调参技巧一： DDPG算法训练动作选择边界值_分析解决的更多相关文章

强化学习调参技巧二：DDPG、TD3、SAC算法为例：
1.训练环境如何正确编写强化学习里的 env.reset() env.step() 就是训练环境.其编写流程如下: 1.1 初始阶段: 先写一个简化版的训练环境.把任务难度降到最低,确保一定能正常训 ...
Deep learning网络调参技巧
参数初始化下面几种方式,随便选一个,结果基本都差不多.但是一定要做.否则可能会减慢收敛速度,影响收敛结果,甚至造成Nan等一系列问题.n_in为网络的输入大小,n_out为网络的输出大小,n为n_i ...
【转】【强化学习】Deep Q Network(DQN)算法详解
原文地址:https://blog.csdn.net/qq_30615903/article/details/80744083 DQN(Deep Q-Learning)是将深度学习deeplearni ...
强化学习8-时序差分控制离线算法Q-Learning
Q-Learning和Sarsa一样是基于时序差分的控制算法,那两者有什么区别呢? 这里已经必须引入新的概念时序差分控制算法的分类:在线和离线在线控制算法:一直使用一个策略选择动作和更新价值函数, ...
[转] TextCNN调参技巧
原文地址: https://plushunter.github.io/2018/02/26/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86 ...
强化学习中REIINFORCE算法和AC算法在算法理论和实际代码设计中的区别
背景就不介绍了,REINFORCE算法和AC算法是强化学习中基于策略这类的基础算法,这两个算法的算法描述(伪代码)参见Sutton的reinforcement introduction(2nd). A ...
深度学习调参笔记（trick）
1. Adam 学习率0.00035真香: 2. SGD + Momentum 学习率应当找到合适区间,一般远大于Adam (取1,2,5,10这类数据): 3. 提前终止,防止过拟合; 4. Ens ...
机器学习入门-随机森林预测温度-不同参数对结果的影响调参 1.RandomedSearchCV(随机参数组的选择) 2.GridSearchCV(网格参数搜索) 3.pprint(顺序打印) 4.rf.get_params(获得当前的输入参数)
使用了RamdomedSearchCV迭代100次,从参数组里面选择出当前最佳的参数组合在RamdomedSearchCV的基础上,使用GridSearchCV在上面最佳参数的周围选择一些合适的参数 ...
[调参]CV炼丹技巧/经验
转自:https://www.zhihu.com/question/25097993 我和@杨军类似, 也是半路出家. 现在的工作内容主要就是使用CNN做CV任务. 干调参这种活也有两年时间了. 我的 ...
强化学习（五）—— 策略梯度及reinforce算法
1 概述在该系列上一篇中介绍的基于价值的深度强化学习方法有它自身的缺点,主要有以下三点: 1)基于价值的强化学习无法很好的处理连续空间的动作问题,或者时高维度的离散动作空间,因为通过价值更新策略时是 ...

随机推荐

Web 目录文件浏览配置
IIS 配置目录浏览在目录下 Web.config 下添加一句: <directoryBrowse enabled="true"/> <?xml version ...
let、var、const区别
1.var:传统的变量声明方式在ES5及之前的JavaScript版本中,我们通常使用var关键字声明变量.var具有以下特点: 函数作用域:变量的作用域限制在声明的函数内部,如果在函数外部访问,将 ...
signed main 和 int main 的区别
事实上只是因为有人直接 #define int long long 了...然后int main改成signed main就行了 #define int long long ... signed ma ...
0x69 图论-二分图的覆盖与独立集
A:Machine Schedule 输入 5 5 10 0 1 1 1 1 2 2 1 3 3 1 4 4 2 1 5 2 2 6 2 3 7 2 4 8 3 3 9 4 3 0 输出 3 在二分图 ...
Educational Codeforces Round 99 (Rated for Div. 2) （A ~ F）个人题解
Educational Codeforces Round 99 (Rated for Div. 2) A. Strange Functions 读懂题即可(或者快速看一下样例解释),直接输出字符串长度 ...
VScode 中 Code Runner 插件乱码问题
安装好,Code Runner 插件,可以很方便的运行多种语言的文本,但是提示和输出经常会报错进入 File - > Preference -> setting, 然后在输入框搜索 se ...
如何一键私有化部署 Laf ？
太长不看:Laf 上架了 Sealos 的模板市场,通过 Laf 应用模板即可一键部署! Laf 是一个完全开源的项目,除了使用公有云之外,还有大量的用户选择私有化部署 Laf.然而,私有化部署通常伴 ...
Liunx常用操作(八)-sed命令详细说明
一.sed简介 sed是一种流编编器,它是文本处理中非常中的工具,能够完美的配合正则表达式便用,功物能不同凡响. 处理时,把当前处理的行存储在临时缓冲区中,称为"模式空间"( oa ...
ApplicationContextAware 的理解和应用
当我们在项目中获取某一个spring bean时,可以定义一个类,实现ApplicationContextAware 该接口,该接口可以加载获取到所有的 spring bean. package c ...
C:\Keil_v5\ARM\ARMCC\include\stdint.h contains an incorrect path.
1.问题在使用Keil uvison5打开例程代码进行学习时,发现部分.h文件无法读取 2.解决方法 1.找到如图的设置按钮(小锤子) 2.根据自己所用的是C/C++还是ARM选择(我这里是C/C+ ...

强化学习调参技巧一： DDPG算法训练动作选择边界值_分析解决

1.原因：

2.解决方案：

3.个人最终解决方案：

强化学习调参技巧一： DDPG算法训练动作选择边界值_分析解决的更多相关文章

随机推荐

热门专题