CS229 - MachineLearning - 12 强化学习笔记

tszs_song 2024-10-20 20:18:13 原文

Ng的机器学习课，课程资源：cs229-课件网易公开课-视频

问题数学模型：

马尔科夫过程五元组{S、a、P_sa、γ、R}，分别对应 {状态、行为、状态s下做出a行为的概率、常数、回报}。

一个简化的例子如下，假设移动机器人可以有如下位置，中间画×处不能走，目标是左上角，不希望走左上第二个格子：

那么机器人可以有11个状态S；在每个状态上都可以往四个方向走，因此a={N,S,W,E}；

为了给机器人正确的奖励惩罚政策，给定左上角位置的回报为+1，左上第二个格子回报为-1，其他格子-0.01（为了让机器人尽快走到目标点）。

γ是常数，这里给0.99。

红色箭头表示一个策略。

优化目标：

选择一个策略π（policy）以获得最佳报酬：E[R(s0)+γR(s₁)+γ²R(s₂)+......]，常数γ的存在可以保证尽量快地获得收益。

为此定义value function:给定初始状态s0,选择一个策略π使得收益最大。

优化函数：

根据贝尔曼方程，

R(s)表示执行此策略获得的直接收益，后面那一堆是执行了此策略以后在后面的行为获得的收益。

最优策略满足：

那么在s状态下的最优策略是满足以下等式的行为：

这样，就可以迭代计算了。

求解方法：

但实际操作中P_sa是未知的，所以需要先统计次数，针对课上举的机器人移动的例子，Ng解释说可以先让机器人随便走，统计到达每个状态的次数。

所以强化学习的完整实现过程是这样：

之前的课件到这里就结束了，但现实世界中的问题极其复杂，是无法简化成上述格子的，看今年更新的课件又加了好几页，讲离散化和维度灾难and so on.

扩展：

以自动驾驶汽车为例，车子的状态是连续变化的，离散化以后维度也是大大的，解决方案是给定一个状态转换模型：

未完待续，不知道什么时候续。

2017.12.02

最近在看图像处理相关的东西，想了一下机器学习、机器视觉之间的关系，机器学习更接近于提供一个原理性的东西，机器视觉选用各种工具来解决这个问题，进而想到，搞机器学习其实还是人在学习，你去学习这个世界的表达方法、演化规则，然后让机器帮你实现。

CS229 - MachineLearning - 12 强化学习笔记的更多相关文章

20135202闫佳歆--week3 课本1-2章学习笔记
第一章 Linux内核简介一.Unix Unix是一个强大.健壮和稳定的操作系统. 简洁绝大部分东西都被当做文件对待.这种抽象使对数据和对设备的操作都是通过一套相同的系统调用借口来进行的:open ...
4月12日学习笔记——jQuery事件
下面是在 jQuery 中最常使用的 bind()方法举例:$("#testDiv4").bind("click", showMsg); 我们为 id 是 te ...
4月12日学习笔记——jQuery操作属性和样式
区分 DOM 属性和元素属性 <img src="images/image.1.jpg" id="hibiscus" alt="Hibiscus ...
4月12日学习笔记——jQuery管理包装集
创建新的元素 (1)使用 HTML DOM 创建元素 //使用 Dom 标准创建元素 var select = document.createElement("select"); ...
1-2 maven学习笔记(7-8章)
一,生命周期和插件 1.除了坐标.依赖和仓库之外,maven的另外两个核心概念就是声明周期和插件. 生命周期和插件协同工作,密不可分. 清理初始化编译测试打包集成测试验证部署站点生成 ...
centos7下docker1.12.5学习笔记
一.Docker简介 Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化.容器是完全使用沙箱机制,相 ...
机器学习12—FP-growth学习笔记
test12.py #-*- coding:utf-8 import sys sys.path.append("fpGrowth.py") import fpGrowth from ...
12.swoole学习笔记--锁机制
<?php //创建锁对象 $lock=new swoole_lock(SWOOLE_MUTEX);//互斥锁 echo "创建互斥锁\n"; //开始锁定主进程 $loc ...
李宏毅强化学习完整笔记！开源项目《LeeDeepRL-Notes》发布
Datawhale开源核心贡献者:王琦.杨逸远.江季提起李宏毅老师,熟悉强化学习的读者朋友一定不会陌生.很多人选择的强化学习入门学习材料都是李宏毅老师的台大公开课视频. 现在,强化学习爱好者有更完 ...

随机推荐

bzoj 2563 [2012国家集训队Round 1 day2] 阿狸和桃子的游戏贪心
正解:贪心解题报告: 链接在这儿! 知道解法之后会jio的好像很简单的样子……其实挺难想到的QAQ 不过大佬讲了方法之后还是懂了有一个很神仙的想法就是,你可以理解为每个点周围的边都有半个是自己的, ...
【pyqtgraph绘图】线条，填充和颜色
解读官方API-线条,填充和颜色参考: http://www.pyqtgraph.org/documentation/style.html 线条,填充和颜色 Qt依靠其QColor,QPen和QBr ...
理解Python的双下划线命名（转）
add by zhj:今天在学习SimpleHTTPServer的源代码时,看到了Python标准库SocketServer模块中有个BaseServer类,该类的__init__方法定义如下 def ...
Lua: 给 Redis 用户的入门指导（转）
add by zhj : Lua与Multi/EXEC的功能比较像,在执行过程中,redis不会执行其它命令,这就不会有并发访问的问题, 这是非常好的.但Multi/EXEC要求所有命令都是独立的,后 ...
LeetCode-188.Best Time to Buy and Sell Stock IV
Say you have an array for which the ith element is the price of a given stock on day i. Design an al ...
20171228 C#值类型和引用类型
public class RefPoint //定义的引用类型 { public int x; public RefPoint(int x) { this.x = x; } } public stru ...
火币网API文档——WebSocket API Reference
订阅 KLine 数据 market.$symbol.kline.$period 成功建立和 WebSocket API 的连接之后,向 Server 发送如下格式的数据来订阅数据: { " ...
NYOJ 棋盘覆盖
数字很大,要用大数乘法. #include<iostream> #include<stdio.h> #include<string.h> #include<q ...
springmvc aop 事务配置
对应的中文: 任意公共方法的执行: execution(public * *(..)) 任何一个以“set”开始的方法的执行: execution(* set*(..)) AccountService ...
CSS3-Hover 效果展示
首先说说兼容性的问题吧,主要说说IE浏览器的兼容性.IE10+. 效果展示的css代码: .button { margin: .4em; padding: 1em; cursor: pointer; ...