打 multi-fidelity RL 旗号，但是幼稚监督学习 + 迁移学习

文章名称：Multi-fidelity reinforcement learning framework for shape optimization
链接：https://www.sciencedirect.com/science/article/pii/S0021999123001134#se0020
Journal of Computational Physics (JCP)，计算力学领域国际三大顶刊之一。

0 abstract

提出了一个受控的（controlled）迁移学习（transfer learning）框架（被称为 CTL），来解决 DRL 需要大量数据的问题。
利用来自 low-fidelity 和 high-fidelity env 的信息。
优化翼型的计算成本降低 30%。

2 method

细节：一个 episode 长度为 1… wait 这算什么 RL 呀？
首先与 low-fidelity env 交互，算法为 PPO。
维护一个 \(\beta_e\)，防止过拟合 low-fidelity env。\(\beta_e \triangleq \frac{\xi_e}{\max \left(\xi_e, \xi_{e-1}, \ldots \xi_1\right)}\)，其中 \(\xi_{\tilde{e}}=\left\{r_{\bar{e}}, r_{\bar{e}-1}, \ldots r_{\bar{e}-k}\right\}\) 是长度为 k 的 look-back window 的 reward 的方差。
如果 agent 在学，那么 β 应当变小，因为越来越熟练的 agent 在最近这段时间的表现会越来越稳定。（也可能是稳定输出离谱 action 呢？）
定义一个 Γ = 0.3，如果 β＜Γ，那么我们认为在 low-fidelity env 上学足够了，去 high-fidelity env。

为什么这种工作能发顶刊？？

打 multi-fidelity RL 旗号，但是幼稚监督学习 + 迁移学习的更多相关文章

迁移学习（MEnsA）《MEnsA: Mix-up Ensemble Average for Unsupervised Multi Target Domain Adaptation on 3D Point Clouds》
论文信息论文标题:MEnsA: Mix-up Ensemble Average for Unsupervised Multi Target Domain Adaptation on 3D Point ...
多精度 simulator 中的 RL：一篇 14 年 ICRA 的古早论文
目录全文快读 0 abstract 1 intro 2 related work 3 背景 & 假设 3.1 RL & KWIK(know what it knows)的背景 3.2 ...
深度强化学习（Deep Reinforcement Learning）入门：RL base & DQN-DDPG-A3C introduction
转自https://zhuanlan.zhihu.com/p/25239682 过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题.子曰:温故而知新,在进一步深入研究和应 ...
【强化学习RL】必须知道的基础概念和MDP
本系列强化学习内容来源自对David Silver课程的学习课程链接http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html 之前接触过RL ...
AI之强化学习、无监督学习、半监督学习和对抗学习
1.强化学习 @ 目录 1.强化学习 1.1 强化学习原理 1.2 强化学习与监督学习 2.无监督学习 3.半监督学习 4.对抗学习强化学习(英语:Reinforcement Learning,简称 ...
ML 02、监督学习
机器学习算法原理.实现与实践——监督学习机器学习包括监督学习.非监督学习.半监督学习及强化学习,这里先讨论监督学习. 监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个 ...
【Todo】【转载】Spark学习 & 机器学习（实战部分）-监督学习、分类与回归
理论原理部分可以看这一篇:http://www.cnblogs.com/charlesblc/p/6109551.html 这里是实战部分.参考了 http://www.cnblogs.com/shi ...
如何开发一个异常检测系统：异常检测 vs 监督学习
异常检测算法先是将一些正常的样本做为无标签样本来学习模型p(x),即评估参数,然后用学习到的模型在交叉验证集上通过F1值来选择表现最好的ε的值,然后在测试集上进行算法的评估.这儿用到了带有标签的数据, ...
【Transferable NAS with RL】2018-CVPR-Learning Transferable Architectures for Scalable Image Recognition
Transferable NAS with RL 2018-CVPR-Learning Transferable Architectures for Scalable Image Recognitio ...
Pytorch_第五篇_深度学习 (DeepLearning) 基础 [1]---监督学习与无监督学习
深度学习 (DeepLearning) 基础 [1]---监督学习与无监督学习 Introduce 学习了Pytorch基础之后,在利用Pytorch搭建各种神经网络模型解决问题之前,我们需要了解深度 ...

随机推荐

Leader笔记：程序员小团队透明和信任管理
今天想跟大家分享一下小团队的透明管理,这也是一个管理技巧,相信很多Leader身份的同学都了解到主管有很大的一个优势,就是在组织内拥有了信息不对称能力,Leader能够听到和了解到完全不同层面上的内容 ...
解决 VM with version 2.1.0 has multidex support ; VM has multidex support, MultiDex support library is disabled.问题
发布打包完之后,android studio提示 VM with version 2.1.0 has multidex support I/MultiDex: installI/MultiDex: V ...
Javascript Ajax总结——跨域资源共享
XHR对象只能访问与包含它的页面位于同一个中的资源.这种安全策略可以预防某些恶意行为.CORS(Cross-Origin Resource Sharing,跨域资源共享)是W3C的一个工作草案,定义了 ...
ElasticSearch之cat repositories API
命令样例如下: curl -X GET "https://localhost:9200/_cat/repositories?v=true&pretty" --cacert ...
3.CRUD及批量操作
文档的CRUD index 和 create 操作用put(但是如果没有指定id必须用post,指定了id的可以用post,也可以用put) update和创建索引用post 获取用get 删除用de ...
温故而知新——MYSQL基本操作
相关连接: mysql和sqlserver的区别:https://www.cnblogs.com/vic-tory/p/12760197.html sqlserver基本操作:https://www. ...
.NET Conf China 2023分享-.NET应用国际化-AIGC智能翻译+代码生成
今年.NET Conf China 2023技术大会,我给大家分享了 .NET应用国际化-AIGC智能翻译+代码生成的议题,今天整理成博客,分享给所有人. 随着疫情的消退,越来越多的企业开始向海外拓展 ...
TypeScript里string和String，真不是仅仅是大小写的区别
摘要:通常来说,string表示原生类型,而String表示对象. 本文分享自华为云社区<TypeScript里string和String的区别>,作者:gentle_zhou . 背景 ...
升级win11显示:此版本的windows不支持该处理器—如何强升win11?
今天的我微信笔记本 msi gp62 mvr 无论是win10升级到win11 还是安装win11都无法安装.显示: Windows 11不支持该处理器 win11系统升级标准要求相比win10来说有 ...
Axure 标记元件
快照:可以用来表示控件的截图功能箭头:有了连线,基本很少用它便签:相关于便利贴,写些说明.备注, 标记:标记好数字,对应数字的标记做解释说明

打 multi-fidelity RL 旗号，但是幼稚监督学习 + 迁移学习

0 abstract

2 method

打 multi-fidelity RL 旗号，但是幼稚监督学习 + 迁移学习的更多相关文章

随机推荐

热门专题