What is RL

基于学习的决策的数学形式

从经验中学习决策和控制的方法

Why should we study this now

深度神经网络特征方法
强化学习的提升
计算能力的提升

我们还需要解决哪些其他问题才能实现现实世界的顺序决策?

1.如何学习

Learning from reward

基本的强化学习处理的是最大化奖励，这并不是影响顺序决策的唯一问题!

更高级的方法．

1.从示例example中学习奖励函数(反向强化学习)

2.领域间的知识转移(迁移学习、元学习)

3.学习预测并利用预测来行动

2.other forms of supervision

①Learning from demonstrations（从演示中学习）

直接复制观察到的行为
从观察到的行为推断奖励(反向强化学习)

②Learning from observing the world（从观察世界中学习）

学会预测
无监督学习

③Learning from other tasks（从其他任务中学习）

转移学习
元学习：学会学习

为什么需要DRL

深度Deep可以处理复杂的感官输入，也可以计算非常复杂的函数

强化学习RL可以选择复杂的行为

DRL目前取得well的方面

在简单、已知的规则所控制的领域获得高度的熟练程度
在有足够经验的情况下，使用raw生图输入能够学习简单的技能
从模仿足够多的人为专家行为中学习

挑战

人类的学习速度非常快，而深度RL方法通常很慢
人类可以重复使用过去的知识，而深度学习中的迁移学习是一个有待解决的问题
不清楚奖励功能是什么
不清楚预测的作用是什么

Resource：CS285官网资料

 版权归原作者 Lee_ing 所有

未经原作者允许不得转载本文内容，否则将视为侵权:转载或者引用本文内容请注明来源及原作者

lec-1-Deep Reinforcement Learning, Decision Making, and Control的更多相关文章

(zhuan) Deep Reinforcement Learning Papers
Deep Reinforcement Learning Papers A list of recent papers regarding deep reinforcement learning. Th ...
(转) Deep Reinforcement Learning: Playing a Racing Game
Byte Tank Posts Archive Deep Reinforcement Learning: Playing a Racing Game OCT 6TH, 2016 Agent playi ...
(转) Deep Reinforcement Learning: Pong from Pixels
Andrej Karpathy blog About Hacker's guide to Neural Networks Deep Reinforcement Learning: Pong from ...
论文笔记之：Active Object Localization with Deep Reinforcement Learning
Active Object Localization with Deep Reinforcement Learning ICCV 2015 最近Deep Reinforcement Learning算 ...
[DQN] What is Deep Reinforcement Learning
已经成为DL中专门的一派,高大上的样子 Intro: MIT 6.S191 Lecture 6: Deep Reinforcement Learning Course: CS 294: Deep Re ...
论文笔记：Learning how to Active Learn: A Deep Reinforcement Learning Approach
Learning how to Active Learn: A Deep Reinforcement Learning Approach 2018-03-11 12:56:04 1. Introduc ...
论文阅读之: Hierarchical Object Detection with Deep Reinforcement Learning
Hierarchical Object Detection with Deep Reinforcement Learning NIPS 2016 WorkShop Paper : https://a ...
Deep Reinforcement Learning 基础知识
Introduction 深度增强学习Deep Reinforcement Learning是将深度学习与增强学习结合起来从而实现从Perception感知到Action动作的端对端学习的一种全新的算 ...
Deep Reinforcement Learning 基础知识（DQN方面）
Introduction 深度增强学习Deep Reinforcement Learning是将深度学习与增强学习结合起来从而实现从Perception感知到Action动作的端对端学习的一种全新的算 ...
深度强化学习（Deep Reinforcement Learning）入门：RL base & DQN-DDPG-A3C introduction
转自https://zhuanlan.zhihu.com/p/25239682 过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题.子曰:温故而知新,在进一步深入研究和应 ...

随机推荐

AI 脸部美容，一键让你变瘦变美变老变年轻
目录项目效果项目安装安装环境项目使用项目效果随着 AI 技术的发展,你不仅随时可以看到自己的老了之后的样子,还能看到自己童年的样子随着这部分技术的开源,会有越来越多的应用,当然我觉得前景 ...
基于 Gitlab + Harbor + K8s + Kuboard 的 CI 实践
CI/CD 概念 CI/CD 是一种通过在应用开发阶段引入自动化来频繁向客户交付应用的方法.CI/CD 的核心概念是持续集成.持续交付和持续部署.作为一种面向开发和运维团队的解决方案,CI/CD 主要 ...
[C++/Java/Py/C#/Ruby/Swift/Go/Scala/Kotlin/Rust/PHP/TS/Elixir/Dart/Racket/Erlang] LeetCode2185. 统计包含给定前缀的字符串
目录题解地址代码 cpp java python3 C# ruby swift golang scala kotlin rust php typescript elixir dart racket ...
基于swiper.js的异型轮播
基于原生swiper.js的异型轮播 <div class="swiper-container" > <div class="swiper-wrappe ...
Clion 连接 WSL 编译Unix环境
Clion 连接 WSL 编译Unix环境安装 WSL Ubuntu 18版本,创建后不要换源,upgrade后安装CMake.g++.gcc 安装 Clion,创建项目进入setting 在 B ...
GO实现Redis：GO实现Redis集群（5）
采用一致性hash算法将key分散到不同的节点,客户端可以连接到集群中任意一个节点 https://github.com/csgopher/go-redis 本文涉及以下文件: consistenth ...
Django笔记十四之统计总数、最新纪录和空值判断等功能
本篇笔记将介绍一些 Django 查询中统计总数.最新纪录和空值判断等功能. count in_bulk latest.earliest first.last exists contains.icon ...
超详细！手把手教你用 JaCoCo 生成单测覆盖率报告！
我们都知道 Spock 是一个单测框架,其特点是语法简明.但当我们使用 Spock 写了一堆单元测试之后,如何生成对应的单测覆盖率报告呢?一般来说,我们会使用两个插件来一起完成单测覆盖率报告的生成,分 ...
vue之事件修饰符
目录修饰符 .stop事件 .self事件 .prevent事件 .once事件修饰符事件修饰服释义 .stop 只处理自己的事件,子控件不再冒泡给父控件 .self 只处理自己的事件,子控件 ...
部署：windows7下mysql8.0.18部署安装
一.前期准备(windows7+mysql-8.0.18-winx64) 1.下载地址:https://dev.mysql.com/downloads/ 2.选择直接下载不登录账号,下载的压缩包大概两 ...

lec-1-Deep Reinforcement Learning, Decision Making, and Control