Modification of UCT with Patterns in Monte-Carlo Go(论文阅读)

摘要:用于解决多臂赌博机UCB1算法已经被扩展成了解决极大极小树搜索的UCT算法。我们开发了一套Monte-Carlo围棋程序,MoGo,这是第一个使用UCT算法实现的计算机围棋程序。我们解释了为了围棋应用而对UCT的修改,同时还介绍了有效提高MoGo性能的模式智能随机模拟。在本文还讨论了UCT结合剪枝技术对于大型围棋棋盘的应用以及UCT的并行化。如今MoGo已经是在$9\times9$和$13\times13$围棋棋盘上的顶级围棋程序。
关键词:计算机围棋,Exploration-exploitation,UCT, Monte-Carlo, Patterns
1 引言
围棋的历史可以追溯到大约4000年前,并且这项游戏现在仍在世界范围内广受欢迎。虽然它的规则很简单(在http://www.gobase.org中有详细介绍),但是自从七十年代末开始,它的复杂性使得试图构建一个优秀的计算机围棋选手变得十分困难。现在围棋代替了国际象棋成为了AI中最困难的挑战之一。
围棋和国际象棋相比有很多不同。首先树的规模和分支因子要比国际象棋大得多。一般来说围棋的棋盘范围从$9\times9$到$19\times19$之间(相比而言国际象棋的棋盘只有$8\times8$;围棋每一步都有几百种可能,而国际象棋只有数十种。第二,目前还没有计算最适合落子的有效评价函数可用。因此,对于计算机国际象棋选手采用的alpha-beat搜索算法并不能提供很好的围棋策略。
最近Monte-Carlo方法在评估围棋落子上已经有一些进展了(在第二部分有更详细的描述)。然而,这种评价过程只是有限的精确;以每一步最高的分来评价并不会在最后就赢得胜利。而是每一步都会限制在一些相关的候选步中。还有,由于离散搜索空间的规模太大使得很难使用标准的增强学习方法来处理,也很难增强一个好的围棋选手所必须的exploration versus exploitation (EvE) 搜索策略。
本文也考虑到了另一个起源于博弈论中的EvE设定,即多臂赌博机问题。多臂赌博机问题模拟了一个赌徒依赖于过去的选择和奖励为了最大化奖励而选择下一台要赌博的机器的问题。由Auer等人提出在多臂赌博机框架下的UCB1算法最近被Kocsis等人(UCT算法)用于树结构的搜索空间。
我们提出的选手(MoGo)最主要的贡献是:
(i)为了围棋修改了UCT算法,
(ii)在Monte-Carlo评价函数中使用sequence-like模拟。
同时也解决了其他几个算法的问题,比如动态树结构,并行化和启发式(简单的剪枝启发)。MoGo已经达到了一个相当不错的围棋水平:自从2006年8月,MoGo在Computer Go Server中的$9\times9$棋盘中的142个计算机围棋中排名第一;并且它在2006年10月和11月的国际Kiseido围棋服务器中赢得了所有的比赛($9\times9$和$13\times13$)。
本文的组织结构如下。
第二部分简要的介绍了一下相关的工作,我们假设读者了解基本的围棋知识。
第三部分描述了MoGo,主要集中于我们的贡献:在大规模搜索空间中UCT的实现,and the use of prior, pattern-based, knowledge to bias the Monte-Carlo evaluation。
第四部分报告和讨论了实验结果。
本文以讨论如何从知识以及计算机密集的角度来提高MoGo。
2 前期的相关工作
我们的方法是基于Monte-Carlo围棋以及多臂赌博机问题,它们分别在2.1部分和2.2部分描述
多臂赌博机 multi-armed bandit problem
UCB1算法
UCT算法 Upper bound Confidence for Tree
Go
Exploration-exploitation exploration versus exploitation
Bandit Algorithms for Website Optimization
Monte-Carlo
Patterns
增强学习 Reinforcement Learning approach
sequence-like simulations
Modification of UCT with Patterns in Monte-Carlo Go(论文阅读)的更多相关文章
- Introduction to Monte Carlo Tree Search (蒙特卡罗搜索树简介)
Introduction to Monte Carlo Tree Search (蒙特卡罗搜索树简介) 部分翻译自“Monte Carlo Tree Search and Its Applicati ...
- Monte Carlo tree search 学习
https://en.wikipedia.org/wiki/Monte_Carlo_tree_search 蒙特卡洛树搜索(MCTS)基础 http://mcts.ai/about/index.htm ...
- 基于Monte Carlo方法的2048 A.I.
2048 A.I. 在 stackoverflow 上有个讨论:http://stackoverflow.com/questions/22342854/what-is-the-optimal-algo ...
- Monte Carlo方法简介(转载)
Monte Carlo方法简介(转载) 今天向大家介绍一下我现在主要做的这个东东. Monte Carlo方法又称为随机抽样技巧或统计实验方法,属于计算数学的一个分支,它是在上世纪四十年代 ...
- 增强学习(四) ----- 蒙特卡罗方法(Monte Carlo Methods)
1. 蒙特卡罗方法的基本思想 蒙特卡罗方法又叫统计模拟方法,它使用随机数(或伪随机数)来解决计算的问题,是一类重要的数值计算方法.该方法的名字来源于世界著名的赌城蒙特卡罗,而蒙特卡罗方法正是以概率为基 ...
- PRML读书会第十一章 Sampling Methods(MCMC, Markov Chain Monte Carlo,细致平稳条件,Metropolis-Hastings,Gibbs Sampling,Slice Sampling,Hamiltonian MCMC)
主讲人 网络上的尼采 (新浪微博: @Nietzsche_复杂网络机器学习) 网络上的尼采(813394698) 9:05:00 今天的主要内容:Markov Chain Monte Carlo,M ...
- Monte Carlo Approximations
准备总结几篇关于 Markov Chain Monte Carlo 的笔记. 本系列笔记主要译自A Gentle Introduction to Markov Chain Monte Carlo (M ...
- (转)Markov Chain Monte Carlo
Nice R Code Punning code better since 2013 RSS Blog Archives Guides Modules About Markov Chain Monte ...
- [其他] 蒙特卡洛(Monte Carlo)模拟手把手教基于EXCEL与Crystal Ball的蒙特卡洛成本模拟过程实例:
http://www.cqt8.com/soft/html/723.html下载,官网下载 (转帖)1.定义: 蒙特卡洛(Monte Carlo)模拟是一种通过设定随机过程,反复生成时间序列,计算参数 ...
随机推荐
- access 数据更新语句
UPDATE YS_POINT AS a, YS_LINE AS b SET a.管线高程 = b.SELEV1WHERE (((a.物探点号)=[b].[起点号]));
- mq
同时每个 Broker 与NameServer 集群中的所有节点建立长连接,定时注册 Topic 信息到所有 NameServer 中. Producer 与 NameServer 集群中的其中一个节 ...
- Nginx实现图片防盗链(referer指令)
什么是图片盗链 每张图片在浏览器中都有对应的图片地址,在浏览器中输入这个地址是可以直接拿到图片. 图片盗链,就是盗用者在他的站上需要显示我们的图片,他没有把图片拿下来,放到他的服务器上, 而是直接 ...
- 使用Spring Cloud Sleuth和Zipkin进行分布式链路跟踪
原文:http://www.cnblogs.com/ityouknow/p/8403388.html 随着业务发展,系统拆分导致系统调用链路愈发复杂一个前端请求可能最终需要调用很多次后端服务才能完成, ...
- iOS开发笔记_4自定义TabBar
新博客:http://www.liuchendi.com 好多APP都使用的是自定义的TabBar,那这个功能应该如何实现呢?首先应该解决的问题就是,加载NavigationController的时候 ...
- vertica数据库怎么查看连接数是否已经达到最大值
- Chrome插件——一键保存网页为PDF1.0发布
最新版本:V1.1 下载地址:http://download.csdn.net/detail/bdstjk/5722317 发布时间:2013-7-8 版本号:1.1.7.80 更新内容: 1.增加检 ...
- linux中查找文件属于那个软件包的方法
一.linux中查找文件属于那个软件包的方法 [root@salt prod]# whereis htpasswdhtpasswd: /usr/bin/htpasswd /usr/share/man/ ...
- fl2440 platform总线led字符设备驱动
首先需要知道的是,设备跟驱动是分开的.设备通过struct device来定义,也可以自己将结构体封装到自己定义的device结构体中: 例如:struct platform_device: 在inc ...
- wordcount代码实现详解
阅读目录 1.MapReduce整体流程 2.WordCount源码 3.WordCount逐行解析 Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储, ...