遗传算法+强化学习—TPG—Emergent Tangled Graph Representations for Atari Game Playing Agents

最近在看进化算法在强化学习(RL)领域的一些应用，有些论文中将使用进化算法解决强化学习问题的算法归为非强化学习算法，然而又有些论文把使用进化算法解决强化学习问题的算法归为强化学习算法，不过更多的论文是不讨论进化算法解决强化学习问题的，由此就出现了大多数论文只讨论使用MDP框架的解决强化学习问题的算法为强化学习算法；也正是因为在深度学习时代（Deep learning age）大家都在用神经网络和深层神经网络并使用梯度优化算法来求解也更加在形势上加重了进化算法解决强化学习问题是不是应该归为强化学习算法的这个分歧，这里我也说下个人的一些观点，我觉得不能因为其小众就不将其归为强化学习算法，而且如果严格按照解决强化学习问题的算法为强化学习算法的这种观点，那么使用进化算法解决强化学习问题自然是可以把这些类型的解决强化学习问题的进化算法归为强化学习算法的一类。

不过使用进化算法解决问题确实和其他的ML领域的算法有些不同，因为进化算法的算法本质就导致其不被强制限制于解决某一类问题，或者说进化算法可以用于所有的求解问题中，其所覆盖的范围是远超其他ML算法的，可以说不论是监督学习算法还是非监督学习算法其都是和问题所绑定的，也就是说监督学习算法只能解决监督学习问题，而非监督学习算法只能解决非监督学习问题，但是进化算法不同，进化算法这一个算法可以解决所有的计算机领域的模型求解问题，可能在很多问题的求解效率和性能不如监督学习算法和非监督学习算法，但是其普遍适用性却是其他算法无法比的。

之所以最近又关注起了进化算法在RL领域的应用，其主要原因是虽然Deep Learning的RL算法在多媒体的环境下表现突出，但是在传统的robotic问题中有很多控制问题是并不涉及多媒体数据的，这种情况和传统的控制问题并没有本质的不同的，而传统的控制问题在进化算法求解领域是有着很多积累的，为了参考这些传统控制问题中的进化RL，便有了本文。

遗传算法中在RL领域的常用算法类别，传统遗传算法、进化神经网络、CMA-ES、TPG等等，本文就讨论Tangled Program Graph (TPG)算法中的一些问题。

TPG算法的示意图：

部分算法过程：

根据上面的这个介绍可以知道，在TPG算法中需要保存最近的50个observation数据，这些数据是为了增加一个新的program的时候来判断这个program的新颖性的，把这50个observation分别放入到新生成的program中可以得到50个值，这50个值组成了这个program的一个类似id的标识，然后通过这种方式可以获得其他的已有的program的标识，然后根据这个新生成的program的标识是否和其他已有的program完全相同来判断其新颖性，如果在已有的program中存在和其相同的id的program则说明新生成的program不具备新颖性拒绝其加入program种群。

强化学习算法library库：(集成库)

https://github.com/Denys88/rl_games

https://github.com/Domattee/gymTouch

个人github博客地址：

https://devilmaycry812839668.github.io/

遗传算法+强化学习—TPG—Emergent Tangled Graph Representations for Atari Game Playing Agents的更多相关文章

基于Keras的OpenAI-gym强化学习的车杆/FlappyBird游戏
强化学习课程:Q-Learning强化学习(李宏毅).深度强化学习强化学习是一种允许你创造能从环境中交互学习的AI Agent的机器学习算法,其通过试错来学习.如上图所示,大脑代表AI Agent ...
DRL强化学习：
IT博客网热点推荐推荐博客编程语言数据库前端 IT博客网 > 域名隐私保护免费 DRL前沿之:Hierarchical Deep Reinforcement Learning 来源: ...
强化学习之四：基于策略的Agents (Policy-based Agents)
本文是对Arthur Juliani在Medium平台发布的强化学习系列教程的个人中文翻译,该翻译是基于个人分享知识的目的进行的,欢迎交流!(This article is my personal t ...
强化学习之三：双臂赌博机（Two-armed Bandit）
本文是对Arthur Juliani在Medium平台发布的强化学习系列教程的个人中文翻译,该翻译是基于个人分享知识的目的进行的,欢迎交流!(This article is my personal t ...
【整理】强化学习与MDP
[入门,来自wiki] 强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益.其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的 ...
temporal credit assignment in reinforcement learning 【强化学习经典论文】
Sutton 出版论文的主页: http://incompleteideas.net/publications.html Phd 论文: temporal credit assignment i ...
ICML 2018 | 从强化学习到生成模型：40篇值得一读的论文
https://blog.csdn.net/y80gDg1/article/details/81463731 感谢阅读腾讯AI Lab微信号第34篇文章.当地时间 7 月 10-15 日,第 35 届 ...
【转】【强化学习】Deep Q Network(DQN)算法详解
原文地址:https://blog.csdn.net/qq_30615903/article/details/80744083 DQN(Deep Q-Learning)是将深度学习deeplearni ...
深度强化学习（DQN-Deep Q Network）之应用-Flappy Bird
深度强化学习(DQN-Deep Q Network)之应用-Flappy Bird 本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-fu ...
论文：利用深度强化学习模型定位新物体(VISUAL SEMANTIC NAVIGATION USING SCENE PRIORS)
这是一篇被ICLR 2019 接收的论文.论文讨论了如何利用场景先验知识 (scene priors)来定位一个新场景(novel scene)中未曾见过的物体(unseen objects).举例来 ...

随机推荐

YOLOv10添加输出各类别训练过程指标
昨天有群友,在交流群[群号:392784757]里提到了这个需求,进行实现一下 V10 官方代码结构相较于 V8 稍微复杂一些 yolov10 是基于 v8 的代码完成开发,yolov10 进行了继承 ...
Go 进程在容器中无 coredump 产生问题分析
Go 进程在容器中无 coredump 产生问题分析 0x01 起因 coredump 作为一种非常重要的高度手段,在日常开发中经常用到,切换到容器环境后一直没关注.最近测试了下,发现出不了 core ...
Kubernetes 初学部署遇到的问题
### Kubernetes 部署文档(CentOS 7.9) 本文采用centos9 截至2024年8月21日官网已经不再提供其他下载直接用最新版即可 1. CentOS 7.9 内核版本问题截 ...
【Mac + Appium + Java1.8(二)】之Android模拟器自动化测试脚本开发以及简易例子
直接上代码: import io.appium.java_client.AppiumDriver; import org.junit.After; import org.junit.Before; i ...
Vuex的四个轻骑兵：mapState、mapGetter、mapMutation、mapAction(转载)
vuex进阶一.state1.1 引入vuex 以后,我们需要在state中定义变量,类似于vue中的data,通过state来存放状态 import Vue from 'vue'import Vue ...
Angular 18+ 高级教程 – Angular Configuration (angular.json)
前言记入一些基本的配置. Setup IP Address.SSL.Self-signed Certificate 如果你对 IP Address.SSL.Self-signed Certifica ...
Flutter Forward 活动正式发布
2023 年 1 月 25 日,Flutter 团队将在肯尼亚首都内罗毕举办 Flutter Forward 大会,并同时开启线上直播,敬请期待! 活动将于北京时间 1 月 25 日 22:30 开始 ...
字节跳动的多平台绽放秘诀 | Flutter 开发者故事
字节跳动旗下运营着一系列成功的用户产品.企业应用以及服务,覆盖信息.教育.娱乐等不同领域.随着产品阵容的不断发展,传统的原生双平台开发已经难以满足团队更高效.更灵活.更精美,以及更多样的产品研发需求. ...
可持久化线段————主席树（洛谷p3834）
洛谷P3834 可持久化线段树 2 问题描述: 给定n各整数构成的序列,求指定区间[L,R]内的第k小值(求升序排序后从左往右数第k个整数的数值) 输入: 第一行输入两个整数n,m,分别代表序列长度n ...
C# 开源浏览器性能提升，体验Chrome级速度
前言使用 C# 和 CefSharp 开发的全功能网页浏览器. 项目介绍 SharpBrowser 是目前最快的开源 C# 网页浏览器! 采用了轻量级的 CEF 渲染器,在呈现网页时甚至比 Goog ...

遗传算法+强化学习—TPG—Emergent Tangled Graph Representations for Atari Game Playing Agents

遗传算法+强化学习—TPG—Emergent Tangled Graph Representations for Atari Game Playing Agents的更多相关文章

随机推荐

热门专题