摘要：用于解决多臂赌博机UCB1算法已经被扩展成了解决极大极小树搜索的UCT算法。我们开发了一套Monte-Carlo围棋程序，MoGo，这是第一个使用UCT算法实现的计算机围棋程序。我们解释了为了围棋应用而对UCT的修改，同时还介绍了有效提高MoGo性能的模式智能随机模拟。在本文还讨论了UCT结合剪枝技术对于大型围棋棋盘的应用以及UCT的并行化。如今MoGo已经是在$9\times9$和$13\times13$围棋棋盘上的顶级围棋程序。

关键词：计算机围棋，Exploration-exploitation，UCT, Monte-Carlo, Patterns

1 引言

围棋的历史可以追溯到大约4000年前，并且这项游戏现在仍在世界范围内广受欢迎。虽然它的规则很简单（在http://www.gobase.org中有详细介绍），但是自从七十年代末开始，它的复杂性使得试图构建一个优秀的计算机围棋选手变得十分困难。现在围棋代替了国际象棋成为了AI中最困难的挑战之一。

围棋和国际象棋相比有很多不同。首先树的规模和分支因子要比国际象棋大得多。一般来说围棋的棋盘范围从$9\times9$到$19\times19$之间（相比而言国际象棋的棋盘只有$8\times8$；围棋每一步都有几百种可能，而国际象棋只有数十种。第二，目前还没有计算最适合落子的有效评价函数可用。因此，对于计算机国际象棋选手采用的alpha-beat搜索算法并不能提供很好的围棋策略。

最近Monte-Carlo方法在评估围棋落子上已经有一些进展了（在第二部分有更详细的描述）。然而，这种评价过程只是有限的精确；以每一步最高的分来评价并不会在最后就赢得胜利。而是每一步都会限制在一些相关的候选步中。还有，由于离散搜索空间的规模太大使得很难使用标准的增强学习方法来处理，也很难增强一个好的围棋选手所必须的exploration versus exploitation (EvE) 搜索策略。

本文也考虑到了另一个起源于博弈论中的EvE设定，即多臂赌博机问题。多臂赌博机问题模拟了一个赌徒依赖于过去的选择和奖励为了最大化奖励而选择下一台要赌博的机器的问题。由Auer等人提出在多臂赌博机框架下的UCB1算法最近被Kocsis等人（UCT算法）用于树结构的搜索空间。

我们提出的选手（MoGo）最主要的贡献是：

（i）为了围棋修改了UCT算法，

（ii）在Monte-Carlo评价函数中使用sequence-like模拟。

同时也解决了其他几个算法的问题，比如动态树结构，并行化和启发式（简单的剪枝启发）。MoGo已经达到了一个相当不错的围棋水平：自从2006年8月，MoGo在Computer Go Server中的$9\times9$棋盘中的142个计算机围棋中排名第一；并且它在2006年10月和11月的国际Kiseido围棋服务器中赢得了所有的比赛（$9\times9$和$13\times13$）。

本文的组织结构如下。

第二部分简要的介绍了一下相关的工作，我们假设读者了解基本的围棋知识。

第三部分描述了MoGo，主要集中于我们的贡献：在大规模搜索空间中UCT的实现，and the use of prior, pattern-based, knowledge to bias the Monte-Carlo evaluation。

第四部分报告和讨论了实验结果。

本文以讨论如何从知识以及计算机密集的角度来提高MoGo。

2 前期的相关工作

我们的方法是基于Monte-Carlo围棋以及多臂赌博机问题，它们分别在2.1部分和2.2部分描述

多臂赌博机 multi-armed bandit problem

UCB1算法

UCT算法 Upper bound Confidence for Tree

Exploration-exploitation exploration versus exploitation

Bandit Algorithms for Website Optimization

Monte-Carlo

Patterns

增强学习 Reinforcement Learning approach

sequence-like simulations

Modification of UCT with Patterns in Monte-Carlo Go(论文阅读)的更多相关文章

Introduction to Monte Carlo Tree Search （蒙特卡罗搜索树简介）
Introduction to Monte Carlo Tree Search (蒙特卡罗搜索树简介) 部分翻译自“Monte Carlo Tree Search and Its Applicati ...
Monte Carlo tree search 学习
https://en.wikipedia.org/wiki/Monte_Carlo_tree_search 蒙特卡洛树搜索(MCTS)基础 http://mcts.ai/about/index.htm ...
基于Monte Carlo方法的2048 A.I.
2048 A.I. 在 stackoverflow 上有个讨论:http://stackoverflow.com/questions/22342854/what-is-the-optimal-algo ...
Monte Carlo方法简介(转载)
Monte Carlo方法简介(转载) 今天向大家介绍一下我现在主要做的这个东东. Monte Carlo方法又称为随机抽样技巧或统计实验方法,属于计算数学的一个分支,它是在上世纪四十年代 ...
增强学习（四） ----- 蒙特卡罗方法(Monte Carlo Methods)
1. 蒙特卡罗方法的基本思想蒙特卡罗方法又叫统计模拟方法,它使用随机数(或伪随机数)来解决计算的问题,是一类重要的数值计算方法.该方法的名字来源于世界著名的赌城蒙特卡罗,而蒙特卡罗方法正是以概率为基 ...
PRML读书会第十一章 Sampling Methods（MCMC， Markov Chain Monte Carlo，细致平稳条件，Metropolis-Hastings，Gibbs Sampling，Slice Sampling，Hamiltonian MCMC）
主讲人网络上的尼采 (新浪微博: @Nietzsche_复杂网络机器学习) 网络上的尼采(813394698) 9:05:00 今天的主要内容:Markov Chain Monte Carlo,M ...
Monte Carlo Approximations
准备总结几篇关于 Markov Chain Monte Carlo 的笔记. 本系列笔记主要译自A Gentle Introduction to Markov Chain Monte Carlo (M ...
（转）Markov Chain Monte Carlo
Nice R Code Punning code better since 2013 RSS Blog Archives Guides Modules About Markov Chain Monte ...
[其他] 蒙特卡洛(Monte Carlo)模拟手把手教基于EXCEL与Crystal Ball的蒙特卡洛成本模拟过程实例：
http://www.cqt8.com/soft/html/723.html下载,官网下载 (转帖)1.定义: 蒙特卡洛(Monte Carlo)模拟是一种通过设定随机过程,反复生成时间序列,计算参数 ...

随机推荐

Jenkins持续集成实战总结
原文:https://my.oschina.net/CandyDesire/blog/341331#comment-list 持续集成什么是持续集成随着软件开发复杂度的不断提高,团队开发成员间如何 ...
Merge的山寨版“联机帮助”
IF NOT OBJECT_ID('Demo_AllProducts') IS NULL DROP TABLE Demo_AllProducts GO CREATE TABLE Demo_AllPro ...
adb logcat通过包名过滤（dos命令find后跟变量）
adb命令中似乎没有直接通过报名来过滤的功能,可是能够通过过滤进程的pid来过滤该应用的日志过滤条件:该app在执行实现原理: 1.获取该app执行时的pid 2.通过find命令,过滤pid的日 ...
DEDECMS之0day入侵总结
1.查看dedecms最后升级版本:http://xxx.com/data/admin/ver.txt 2.利用网上公开之0day进行对应版本之入侵 ps:dedecms默认CMS后台:http:// ...
float：center？？？
老规矩,先上图(请忽略图中文字^V^): 乍一看感觉是对中间的图片使用了float:center;可是细致一想float属性是没有center这个值的. 那是怎么实现的呢?我一步一步拆给大家看. 1. ...
Druid对比Hadoop
Druid对比Hadoop Hadoop 向世界证明, 花费很少的钱实现典型的解决方案, 将数据保存在一般的商用机器的数据仓库里是可行的. 当人们将自己的数据保存在Hadoop, 他们发现两个问题 ...
appium自动化，失败自动截图
1.创建监听器类TestNGListener,重写onTestFailure方法,里面定义了监听的driver ,截图文件路径和名称 package utils; import cases.Appi ...
【转载】tcp窗口滑动以及拥塞控制
转自:http://blog.chinaunix.net/uid-26275986-id-4109679.html TCP协议作为一个可靠的面向流的传输协议,其可靠性和流量控制由滑动窗口协议保证,而拥 ...
【招聘App】—— React/Nodejs/MongoDB全栈项目：socket.io&聊天实现
前言:最近在学习Redux+react+Router+Nodejs全栈开发高级课程,这里对实践过程作个记录,方便自己和大家翻阅.最终成果github地址:https://github.com/66We ...
subscription group permisson

Modification of UCT with Patterns in Monte-Carlo Go(论文阅读)

1 引言

2 前期的相关工作

Modification of UCT with Patterns in Monte-Carlo Go(论文阅读)的更多相关文章

随机推荐

热门专题