记录一下关于DQN的想法】的更多相关文章

下载了几份代码,就两份没有报错通过了 DQN玩FlappyBird https://github.com/yenchenlin/DeepLearningFlappyBird DQN玩Cartpole https://www.cnblogs.com/caorui/p/6431156.html https://blog.csdn.net/xiewenbo/article/details/84959579 思路主要是这样的,像玩小鸟的就是通过障碍物能继续走,reward 1和-100, action也…
看一遍以前的自己写的博客,记录下自己的一些想法,Spring分为两块:IOC和AOP.IOC就是在applicatcontext.xml中配置<<bean......>>这种.spring容器启动的时候,会根据配置文件去创建这些实例,然后放入到IOC容器中,什么依赖注入啊什么的,就是不用自己new了,只要去IOC容器中拿就可以了.这里不涉及到动态代理. AOP:AOP是基于什么实现的呢:要依赖于bean的生成顺序,在bean生成之后,会可以做一些处理.这个功能有什么用呢,可以做动态…
参考文献 莫凡系列课程视频 增强学习入门之Q-Learning 关于增强学习的基本知识可以参考第二个链接,讲的挺有意思的.DQN的东西可以看第一个链接相关视频.课程中实现了Tensorflow和pytorch的示例代码.本文主要是改写成了gluon实现 Q-learning的算法流程 DQN的算法流程 对于DQN的理解: 增强学习中需要学习的东西是Q-table,决策表.而针对于state space空间太大的情形,很难甚至不可能构建这个决策表.而决策表其实就是一种映射 (s,a)->R, 那么…
记得是06年左右第一次安装的 Linux,当时是下载的 Fedora镜像,版本已经记不清了,在商业街的电脑维修店刻的盘,回来后兴冲冲地和XP一起安装的双系统.其实就是直接的体验了一把,只是看了看X-WIndow,简单的安装了几个软件,没有真正用起来.不久就彻底删除了. 然后就是11年,宿舍安装了无线热点,但是我们宿舍在走道的最西边,信号极其微弱.真好张兄有8187卡皇一枚,插上后才能上网.也就是因为这个卡皇,我第二次装上了Linux,BackTrack3,干啥? 哈哈,跑wifi密码玩,哈哈,跑…
[题解]POJ1934 Trip (DP+记录方案) 题意: 传送门 刚开始我是这么设状态的(谁叫我DP没学好) \(dp(i,j)\)表示钦定选择\(i\)和\(j\)的LCS,然而你会发现这样钦定没什么用. 还不如当时初学者的时候的\(dp(i,j)\)表示考虑到\(i\)考虑到\(j\)的LCS...果然经典的是禁得起考验的... 考虑如何记录方案,第一个想法是直接暴力记录从哪转移的,但是这样显然不行.因为有很多重复的元素. 注意到题目保证本质不同的满足答案要求的串的个数是\(O(n)\)…
记录这个博客的想法只有两点, 一,在使用webserver的时候如果你不好调用本地server端,那么你可以启用日志来查看异常.当然也可以调用本地的server端.这里简单说一下.不是本文的重点. 发布好本地webserver后,以管理员模式启动VS,在VS里面如图 二.在页面使用扫描枪的时候,总是弹出提示就会影响效率.所以不用弹出.我们提示在页面里面. 附件好之后启动调试吧.好了,下来我们说说今天的记录. 先上效果图. 效果是异常异常bug已经记录在日志,弹出提示显示在页面.顺便加了一个方法,…
[X]$Mr.Young's\ Picture\ Permutations$ 前面这儿写了挺多道辣,,,懒得写辣$QAQ$ (后面所有同上都是同这个$QwQ$ [X]$LCIS$ 做过了,看这儿 $upd$:,,,这题有猫饼,不呲呲快读,用快读会$T$一个点,,,然后我下了数据下来发现明明是数据的锅,,,?我感觉它给我的这个数据明明就不够,,,?但反正我改成$scanf$或者$cin$就过去了,,,什么$sd$玩意$QAQ$ [X]$Mobile\ Service$ 无脑$dp$入门题,,,?…
http://blog.csdn.net/zhyl8157121/article/details/8169172 目录(?)[-] 项目说明 开发环境的部署 数据库设计 服务器端程序设计Webservice 客户端android端程序设计 本文为原创,如果转载请注明出处 http://blog.csdn.net/zhyl8157121/article/details/8169172 其实之前发过一篇这样的博文http://blog.csdn.net/zhyl8157121/article/det…
该系列基于redis-2.8.18,主要记录自己的理解或者想法.redis以自己支持存储的数据结构丰富吸引了大批人,把memcached比了下去.本文就从简单基本的数据结构入手. 双向链表-adlist typedef struct listNode { struct listNode *prev; struct listNode *next; void *value; } listNode; typedef struct listIter { listNode *next; int direc…
问题是:给你一个数组,求解出现次数第K多的元素.当然leetcode上的要求是算法复杂度不能大于O(N*logN). 首先这个问题我先是在leetcode上看到,当时想了两种做法,做到一半都觉得不是很好,正在思考别的方法.然后在牛客网上看别人的面试经历,看到一个应聘者和用我几乎完全一样的思路尝试在面试中解决这个问题(HashMap-->TreeSet),但是都没解决出来.这个问题确实是一个乍看不难但是要实际解决又会不停发现自己思路有问题的问题,于是我索性记录一下这两种想法和解决之道. 拿到这个问…