论文笔记：Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

2017-10-25 16:38:23

　【Project Page】https://blog.openai.com/learning-to-cooperate-compete-and-communicate/

　 4. Method

　　4.1 Multi-Agent Actor Critic

　　该网络框架有如下假设条件：

　　(1) the learned policies can only use local information (i.e. their own observations) at execution time,

　　(2) we do not assume a differentiable model of the environment dynamics, unlike in [24],

　　(3) we do not assume any particular structure on the communication method between agents (that is, we don’t assume a differentiable communication channel).

　　================>>>

　　1. 学习到的策略在执行时，仅仅是利用局部的信息

　　2. 我们不假设环境动态的可微分模型

　　3. 我们不假设 agents 之间任何通信模型上的特定结构

　　本文的模型是以 centralized training with decentralized execution framework 为基础进行的，而这个框架的意思是：以全局的信息进行训练，而实际测试的时候是分散执行的。

　　更具体的来说，我们考虑有 N 个 agent 的游戏，所以，每个 agent i 的期望汇报可以记为：

　　此处的 Q 函数是一个中心化的动作值函数（centralized action-value function），将所有 agent 的动作作为输入，除了某些状态信息 X，然后输出是 the Q-value for agent i。

　　在最简单的情况下，x 可以包含所有 agent 的观测，x = (o1, ... , oN)，但是我们也可以包含额外的状态信息。由于每一个 Q 都是分别学习的，agent 可以拥有任意的奖励结构，包括在竞争设定下的冲突奖励。

　　我们可以将上述 idea 拓展到 deterministic policies。如果我们考虑到 N 个连续的策略，那么梯度可以写作：

　　此处，经验回放池 D 包括 the tuples (x, x', a1, ... , aN, r1, ... , rN)，记录所有 agents 的经验。中心化的动作值函数 Q可以通过如下的方程，进行更新：

　　4.2 Inferring Policies of Other Agents

　　为了移除假设：knowing other agents' policies, 就像公式（6）中所要求的那样。每一个 agent i 可以估计 agent j 的真实策略。这个估计的策略可以通过最大化 agent 选择动作的 log 概率，且加上一个 entropy regularizer：

　　其中，H 是策略分布的熵。有了估计的策略，公式（6）中的 y 可以用估计的值 y^ 来进行计算：

　　其中，\mu’ 代表用来估计策略的 target network。注意到，公式（7）可以完全在线的执行，before updating $Q_i^{\mu}$, the centralized Q function, 我们采取每一个 agent j 的最新的样本，from the replay buffer to perform a single gradient step to update $\phi^j_i$。另外，在上述公式中，我们直接将每个 agent 的动作 log 概率输入到 Q，而不是 sampling。

　　4.3 Agents with Policy Ensembles

论文笔记：Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments的更多相关文章

深度增强学习--Actor Critic
Actor Critic value-based和policy-based的结合实例代码 import sys import gym import pylab import numpy as np ...
【论文笔记系列】AutoML：A Survey of State-of-the-art （下）
[论文笔记系列]AutoML:A Survey of State-of-the-art (上) 上一篇文章介绍了Data preparation,Feature Engineering,Model S ...
深度学习论文笔记：Fast R-CNN
知识点 mAP:detection quality. Abstract 本文提出一种基于快速区域的卷积网络方法(快速R-CNN)用于对象检测. 快速R-CNN采用多项创新技术来提高训练和测试速度,同时 ...
Deep Learning论文笔记之（四）CNN卷积神经网络推导和实现（转）
Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文, ...
论文笔记之：Visual Tracking with Fully Convolutional Networks
论文笔记之:Visual Tracking with Fully Convolutional Networks ICCV 2015 CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做 ...
Deep Learning论文笔记之（八）Deep Learning最新综述
Deep Learning论文笔记之(八)Deep Learning最新综述 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完 ...
Twitter 新一代流处理利器——Heron 论文笔记之Heron架构
Twitter 新一代流处理利器--Heron 论文笔记之Heron架构标签(空格分隔): Streaming-process realtime-process Heron Architecture ...
Deep Learning论文笔记之（六）Multi-Stage多级架构分析
Deep Learning论文笔记之(六)Multi-Stage多级架构分析 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些 ...
Multimodal —— 看图说话（Image Caption）任务的论文笔记（一）评价指标和NIC模型
看图说话(Image Caption)任务是结合CV和NLP两个领域的一种比较综合的任务,Image Caption模型的输入是一幅图像,输出是对该幅图像进行描述的一段文字.这项任务要求模型可以识别图 ...

随机推荐

turtle库基础练习
1.画一组同切圆 import turtle turtle.circle(10) turtle.circle(20) turtle.circle(30) turtle.circle(40) turtl ...
js函数集
js函数集·字符串(String) 1.声明 var myString = new String("Every good boy does fine."); var myStrin ...
Nexus3.x.x上传第三方jar
exus3.x.x上传第三方jar: 1. create repository 选择maven2(hosted),说明: proxy:即你可以设置代理,设置了代理之后,在你的nexus中找不到的依赖就 ...
vue-cli项目npm run build后，index.html无法在浏览器打开
Vue + vant-UI 打造移动商城
以太坊ETH中智能合约消耗的Gas、Gas Limit是什么？
以太坊ETH中智能合约消耗的Gas.Gas Limit是什么? 数字货币交易一般是有交易费的,比特币(BTC)的交易费很容易理解,就是直接支付一定额度的BTC作为手续费.而以太坊(ETH)的交易费表面 ...
httpclient get post
https://www.cnblogs.com/wutongin/p/7778996.html post请求方法和get请求方法 package com.xkeshi.paymentweb.contr ...
git 提交命令
git stash -u 占存本地版本 git commit git fetch 提交 git rebase git stash pop 将本地没有提交的代码暂存,然后切换到其他分支,然后再回到当前分 ...
Redis慢查询日志学习功能
慢查询日志什么是SLOW LOG? Slow log是Redis用来记录查询执行时间超过给定时长的命令请求的日志系统.查询执行时间指的是不包括像客户端响应(talking).发送回复等IO操作,而单 ...
Sqring核心概念
Spring 是大规模企业级框架,用户数量多,数据规模大,功能众多,业务复杂, 性能和安全要求高灵活多变 Spring框架是轻量级的框架,javaEE的春天,当前主流的框架,一站式的企业应用开 ...

论文笔记：Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

论文笔记：Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments的更多相关文章

随机推荐

热门专题