打 multi-fidelity RL 旗号，但是幼稚监督学习 + 迁移学习

文章名称：Multi-fidelity reinforcement learning framework for shape optimization
链接：https://www.sciencedirect.com/science/article/pii/S0021999123001134#se0020
Journal of Computational Physics (JCP)，计算力学领域国际三大顶刊之一。

0 abstract

提出了一个受控的（controlled）迁移学习（transfer learning）框架（被称为 CTL），来解决 DRL 需要大量数据的问题。
利用来自 low-fidelity 和 high-fidelity env 的信息。
优化翼型的计算成本降低 30%。

2 method

细节：一个 episode 长度为 1… wait 这算什么 RL 呀？
首先与 low-fidelity env 交互，算法为 PPO。
维护一个 \(\beta_e\)，防止过拟合 low-fidelity env。\(\beta_e \triangleq \frac{\xi_e}{\max \left(\xi_e, \xi_{e-1}, \ldots \xi_1\right)}\)，其中 \(\xi_{\tilde{e}}=\left\{r_{\bar{e}}, r_{\bar{e}-1}, \ldots r_{\bar{e}-k}\right\}\) 是长度为 k 的 look-back window 的 reward 的方差。
如果 agent 在学，那么 β 应当变小，因为越来越熟练的 agent 在最近这段时间的表现会越来越稳定。（也可能是稳定输出离谱 action 呢？）
定义一个 Γ = 0.3，如果 β＜Γ，那么我们认为在 low-fidelity env 上学足够了，去 high-fidelity env。

为什么这种工作能发顶刊？？

打 multi-fidelity RL 旗号，但是幼稚监督学习 + 迁移学习的更多相关文章

迁移学习（MEnsA）《MEnsA: Mix-up Ensemble Average for Unsupervised Multi Target Domain Adaptation on 3D Point Clouds》
论文信息论文标题:MEnsA: Mix-up Ensemble Average for Unsupervised Multi Target Domain Adaptation on 3D Point ...
多精度 simulator 中的 RL：一篇 14 年 ICRA 的古早论文
目录全文快读 0 abstract 1 intro 2 related work 3 背景 & 假设 3.1 RL & KWIK(know what it knows)的背景 3.2 ...
深度强化学习（Deep Reinforcement Learning）入门：RL base & DQN-DDPG-A3C introduction
转自https://zhuanlan.zhihu.com/p/25239682 过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题.子曰:温故而知新,在进一步深入研究和应 ...
【强化学习RL】必须知道的基础概念和MDP
本系列强化学习内容来源自对David Silver课程的学习课程链接http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html 之前接触过RL ...
AI之强化学习、无监督学习、半监督学习和对抗学习
1.强化学习 @ 目录 1.强化学习 1.1 强化学习原理 1.2 强化学习与监督学习 2.无监督学习 3.半监督学习 4.对抗学习强化学习(英语:Reinforcement Learning,简称 ...
ML 02、监督学习
机器学习算法原理.实现与实践——监督学习机器学习包括监督学习.非监督学习.半监督学习及强化学习,这里先讨论监督学习. 监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个 ...
【Todo】【转载】Spark学习 & 机器学习（实战部分）-监督学习、分类与回归
理论原理部分可以看这一篇:http://www.cnblogs.com/charlesblc/p/6109551.html 这里是实战部分.参考了 http://www.cnblogs.com/shi ...
如何开发一个异常检测系统：异常检测 vs 监督学习
异常检测算法先是将一些正常的样本做为无标签样本来学习模型p(x),即评估参数,然后用学习到的模型在交叉验证集上通过F1值来选择表现最好的ε的值,然后在测试集上进行算法的评估.这儿用到了带有标签的数据, ...
【Transferable NAS with RL】2018-CVPR-Learning Transferable Architectures for Scalable Image Recognition
Transferable NAS with RL 2018-CVPR-Learning Transferable Architectures for Scalable Image Recognitio ...
Pytorch_第五篇_深度学习 (DeepLearning) 基础 [1]---监督学习与无监督学习
深度学习 (DeepLearning) 基础 [1]---监督学习与无监督学习 Introduce 学习了Pytorch基础之后,在利用Pytorch搭建各种神经网络模型解决问题之前,我们需要了解深度 ...

随机推荐

Java项目整合短信验证码
一.开通短信服务本来想整合阿里云短信服务的,可是签名一直审核不过,所以在阿里云的云市场找到了一个替代产品(sddx) 接下来小伙伴们按照自己的经济实力购买或者用免费的5条(我就是用免费的5条了) 购 ...
ajax与thymeleaf分别实现数据传输
小杰笔记篇: 1:第一种:利用Model和thymeleaf引擎来完成: Controller层: @CrossOrigin//解决跨域问题 @Controller public class User ...
简单介绍JDK、JRE、JVM三者区别
简单介绍JDK vs JRE vs JVM三者区别文编|JavaBuild 哈喽,大家好呀!我是JavaBuild,以后可以喊我鸟哥,嘿嘿!俺滴座右铭是不在沉默中爆发,就在沉默中灭亡,一起加油学习, ...
LeetCode DP篇-求子序列问题(1143、300、53、72)
1143. 最长公共子序列给定两个字符串 text1 和 text2,返回这两个字符串的最长公共子序列的长度. 一个字符串的子序列是指这样一个新的字符串:它是由原字符串在不改变字符的相对顺序的情 ...
华为IoT首席架构师王启军：全栈工程师“养成记”
在王启军的公众号里,有一篇<My Team>的文章,里面记录了早年他所带团队成长的心得. 这个被他称为完美组合的团队,并不是来自大厂名企,彼时王启军给不起高待遇,团队核心成员中还有很多人是 ...
懂分析、会预测，你见过这样的华为云DAS吗？
摘要:数字化时代下,华为云数据管理服务DAS基于AI技术,于近期推出了智能SQL分析(包括慢SQL发现.SQL透视).workload级别索引推荐.存储空间预测等运维特性,加上原有的数据库运维能力,构 ...
如何给MindSpore添加一个新的硬件后端？快速构建测试环境！
摘要:介绍如何给MindSpore添加一个新的硬件后端. 本文分享自华为云社区<如何给MindSpore添加一个新的硬件后端?快速构建测试环境!>,原文作者:HWCloudAI. Mind ...
华为云GaussDB(for openGauss)推出重磅内核新特性
摘要:华为云新一代金融级分布式数据库GaussDB(for openGauss)正式推出了Ustore存储引擎.基于Paxos协议的DCF高可用组件等多个重大内核新特性. 数字化时代,技术迭代更新比以 ...
云小课｜三大灵魂拷问GaussDB(DWS)数据落盘安全问题
阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说).深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云.更多精彩内容请单击此处. 摘要:GaussDB(D ...
直播预告 | 企业如何轻松完成数据治理？火山引擎 DataLeap 给你一份实战攻略！
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群企业数字化转型正席卷全球,这不仅是趋势所在,也是企业发展必然面对的考题,也是企业最关心.最难决策的难题,数字化不仅 ...

打 multi-fidelity RL 旗号，但是幼稚监督学习 + 迁移学习

0 abstract

2 method

打 multi-fidelity RL 旗号，但是幼稚监督学习 + 迁移学习的更多相关文章

随机推荐

热门专题