AlphaStar: Mastering the Real-Time Strategy Game StarCraft II 博客要点

original blog: https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii

SL = supervised learning, RL = reinforcement learning

how AlphaStar is trained

units, properties -> DNN -> instructions

DNN: transform torso(relational deep RL), deep LSTM core, auto-regressive policy head with pointer network, centralised value baseline

train: SL -> mico/macro strategies

compete -> hyper parameters updated by RL -> Nash distribution -> final agent

multi-agent RL: play against each other: population-based, multi-agent RL -> huge strategic space -> defeat strongest and eariler ones

explore new build orders, unit compositions, micro-management plans

personal objective: beat specific competitor/beat distribution of competitors/building more of specific unit

NN weights: off-policy actor-critic RL with experience replay, self-imitation learning, policy distillation

run on TPUs, final agent: Nash distribution of the league: best mixture of strategies

how AlphaStar plays and how to evaluate

TLO/MaNa ~ 100 APM

agent ~ 1000, 10000 APM

AlphaStar vs. TLO/MaNa ~280 APM (read screen frames use raw interface)

AlphaStar act: observation -> action: 350ms/avg, process every frame

results: 5:0

other reference:

Starcraft simple Neural Network testing https://www.youtube.com/watch?v=3LdR2sJQ6pA

AlphaStar: Mastering the Real-Time Strategy Game StarCraft II 博客要点的更多相关文章

Mastering MariaDB 神秘的MariaDB 中文翻译版
是某群的哥们义务翻译的,宣传一下,还没时间时间读,粗滤看了全部翻译完了300多页佩服 https://github.com/CMant/Mastering-MariaDB- 原地址:如果你需要读,请s ...
设计模式(一)：“穿越火线”中的“策略模式”(Strategy Pattern)
在前段时间呢陆陆续续的更新了一系列关于重构的文章.在重构我们既有的代码时,往往会用到设计模式.在之前重构系列的博客中,我们在重构时用到了“工厂模式”.“策略模式”.“状态模式”等.当然在重构时,有的地 ...
设计模式之美：Strategy（策略）
索引意图结构参与者适用性效果相关模式实现实现方式(一):使用不同的 Strategy 处理内部状态. 别名 Policy 意图定义一系列的算法,把它们一个个封装起来,并且使它们可以相 ...
敏捷软件开发（4）--- TEMPLATE METHOD & STRATEGY 模式
1.TEMPLATE METHOD 泛型,也就是这个模式,是可以基于泛型的. 我们往往会有一些算法,比如排序算法.它的算法部分,我可以把它放在一个基类里面,这样具体类型的比较可以放在子类里面. 看如下 ...
深入浅出设计模式——策略模式（Strategy Pattern）
模式动机完成一项任务,往往可以有多种不同的方式,每一种方式称为一个策略,我们可以根据环境或者条件的不同选择不同的策略来完成该项任务.在软件开发中也常常遇到类似的情况,实现某一个功能有多个途径,此时可 ...
策略模式（Strategy）
行为型模式:策略模式.模板方法模式.观察者模式.迭代子模式.责任链模式.命令模式.备忘录模式.状态模式.访问者模式.中介者模式.解释器模式策略模式(Strategy) 策略模式定义了一系列算法,并将 ...
策略模式Strategy——坐什么车回家？
1.存在的问题和模型 :2014年6月学校:廊坊师范家:石家庄人物:学生又快到期末考试了.回家的节奏也奔上日程,无聊之余就想想这次回家的事儿. 对我来说回 ...
策略模式设计模式(Strategy)摘录
23种子GOF设计模式一般分为三类:创建模式.结构模型.行为模式. 创建模式抽象的实例.一个系统独立于怎样创建.组合和表示它的那些对象.一个类创建型模式使用继承改变被实例化的类,而一个对象创建型模式将 ...
Java的设计模式----strategy(策略模式)
设计模式: 一个程序员对设计模式的理解: “不懂”为什么要把很简单的东西搞得那么复杂.后来随着软件开发经验的增加才开始明白我所看到的“复杂”恰恰就是设计模式的精髓所在,我所理解的“简单”就是一把钥匙开 ...

随机推荐

md5sum c实现
#include <stdio.h>#include <ctype.h> #define STR_VALUE(val) #val#define STR(name) STR_VA ...
分析邮件日志从每秒处理3个结果到每秒处理800个结果过程(grep提速)
由于业务需要,对EDM发出的邮件日志进行分析处理,我要做的是预处理,把posfix杂乱无章的日志中找到我需要的数据. 我用javamail发的邮件,发送邮件时获取到是一个messageId,形如:21 ...
maven 安装jar包命令
以 spring-context-support-3.1.0.RELEASE.jar 为例,在 @3图中已经给出这个 jar 包的 groupId,artifactId,version信息,手动安装的 ...
Delphi XE2 之 FireMonkey 入门(42) - 控件基础: TComboBox、TComboEdit
Delphi XE2 之 FireMonkey 入门(42) - 控件基础: TComboBox.TComboEdit TListBox 有两个兄弟 TComboListBox.TComboEditL ...
CSS样式div
页面中,有很多样式标签:div标签,对标签定位的地方有: 1.<head>标签里加<style>标签,在<style>标签中添加样式.如: <style> ...
CSS3——表单计数器网页布局应用实例
CSS应用实例表单实例输入框样式输入框填充-----内边距输入框------边框输入框-----颜色输入框-----聚焦输入框-------图标输入框------动画 [自动右滑] ...
Scratch少儿编程系列：（九）音乐高级技巧
一.程序说明本程序用来演奏音乐,相对于“Scratch少儿编程系列:(八)演奏简单音乐”而言,本节介绍的方法适用于复杂点的音乐. 二.程序流程图为了更直观的描述上述过程,采用流程图的方式将猜数字的 ...
MySql-Mysql技术内幕~SQL编程学习笔记（N）
1._rowid 类似Oracle的rowid mysql> ; +-------+----+----------------+-------------+---------------+--- ...
小油2018 win7旗舰版64位GHOST版的，安装telnet客户端时，提示：出现错误。并非所有的功能被成功更改。
win7旗舰版64位GHOST版的,安装telnet客户端时,提示:出现错误.并非所有的功能被成功更改. 从安装成功的电脑上拷贝ghost版本缺少的文件,然后再安装telnet客户端,我已打包链接: ...
qtreewidget 显示保存xml文件
此文是读取和存储已知结构的xml,对于未知结构的xml,可以用递归方法读取和遍历.可参考文章:Qt遍历不规则树的节点. 1.QTreewidget设置 //折叠图标(三角图标)换成自定义图标 ui-& ...

AlphaStar: Mastering the Real-Time Strategy Game StarCraft II 博客要点

AlphaStar: Mastering the Real-Time Strategy Game StarCraft II 博客要点的更多相关文章

随机推荐

热门专题