长久以来,人工智能的一个目标是在那些具有挑战性的领域实现超过人类表现的算法。最近,AlphaGo成为了在围棋上第一个打败了世界冠军的程序。在AlphaGo中,使用深度神经网络来进行树搜索,评估位置,和选择下一步动作。这些神经网络使用人类的专家数据进行监督学习,以及通过自我对弈进行强化学习。在这里,我们介绍一个仅仅基于强化学习的算法,除了游戏规则外没有任何的人类数据,指导,或领域知识。AlphaGo成为了它自己的老师:训练一个神经网络来预测AlphaGo自己的动作,和游戏的胜利者。这个神经网络提高了树搜索的能力,使它在下一次迭代时有更好的选择以及更强的自我博弈。从一片空白开始,我们的新程序 AlphaGo Zero达到了超人般的表现,以100-0的成绩战胜了先前公布的AlphaGo。

人工智能中的许多进展是通过训练监督式学习系统来模仿人类专家的决策。然而,专家数据通常是昂贵的,不可靠的,或难以获得的。即使可以很容易的获得可靠数据,通过这种方式训练的系统,表现也可能到达天花板。相比之下,强化学习系统通过它们自己的经验来训练,在原则上它们具有超越人类的能力,以及在人类不擅长的领域工作。最近,在这方面有了迅速的进展,通过强化学习来训练深度神经网络。这些系统在3D虚拟环境,电脑游戏中有比人类更好的表现。然而,在人类智力最受挑战的地方——比如围棋,广泛地认为这对于人工智能是一个巨大的挑战,因为这需要在巨大的搜索空间中进行精确而复杂的考虑。通用方法从未在这些领域达到人类的水平。

AlphaGo是第一个在围棋中有着超人表现的程序。那个我们称之为AlphaGo Fan的发布的版本,在2015.10打败了欧洲的冠军Fan Hui。AlphaGo Fan利用了两个深度神经网络:一个输出移动概率的策略网络,一个输出位置评估的价值网络。策略网络最初通过监督式学习训练,以此来准确预测人类专家的行动,随后通过策略梯度强化学习重新定义。训练价值网络来预测自我对弈的胜利者。一旦经过训练,这些网络就会和一个蒙特卡洛树搜索(MCTS)结合,以此来提供前瞻搜索,使用策略网络来减小搜索范围,并向高胜率方向移动,然后使用价值网络(结合了快速走子策略的MCTS)来评估在树中的位置。在一个随后的我们称之为AlphaGo Lee的版本中,使用相似的方法,在2016年4月击败了有18个国际头衔的冠军——李世石。

我们的程序,AlphaGo Zero,在几个重要的方面与AlphaGo Fan和AlphaGo Lee有所区别。第一个也是最重要的一个,它仅仅通过自我对弈强化学习实现,从随意的下棋开始,没有任何监督或使用人类数据。第二,它只使用棋盘上的黑白子作为输入特征。第三,它只使用了一个神经网络,而不是分开的策略网络和价值网络。最后,依靠于这个单神经网络,它使用了一个更简单的树搜索,来评价位置和采样动作,没有使用蒙特卡洛走子。为了达到这些结果,我们介绍一个全新的强化深度学习算法——在训练过程中包含前向搜索,来达到快速的进步和精确、稳定的学习。在搜索算法,训练步骤以及网络结构上的进一步的不同将在Methods中描述。

论文翻译:Mastering the Game of Go without Human Knowledge (第一部分)的更多相关文章

  1. [原创]Faster R-CNN论文翻译

    Faster R-CNN论文翻译   Faster R-CNN是互怼完了的好基友一起合作出来的巅峰之作,本文翻译的比例比较小,主要因为本paper是前述paper的一个简单改进,方法清晰,想法自然.什 ...

  2. R-CNN论文翻译

    R-CNN论文翻译 Rich feature hierarchies for accurate object detection and semantic segmentation 用于精确物体定位和 ...

  3. SSD: Single Shot MultiBoxDetector英文论文翻译

    SSD英文论文翻译 SSD: Single Shot MultiBoxDetector 2017.12.08    摘要:我们提出了一种使用单个深层神经网络检测图像中对象的方法.我们的方法,名为SSD ...

  4. R-FCN论文翻译

    R-FCN论文翻译 R-FCN: Object Detection viaRegion-based Fully Convolutional Networks 2018.2.6   论文地址:R-FCN ...

  5. 深度学习论文翻译解析(四):Faster R-CNN: Down the rabbit hole of modern object detection

    论文标题:Faster R-CNN: Down the rabbit hole of modern object detection 论文作者:Zhi Tian , Weilin Huang, Ton ...

  6. 深度学习论文翻译解析(三):Detecting Text in Natural Image with Connectionist Text Proposal Network

    论文标题:Detecting Text in Natural Image with Connectionist Text Proposal Network 论文作者:Zhi Tian , Weilin ...

  7. 深度学习论文翻译解析(二):An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

    论文标题:An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application ...

  8. 深度学习论文翻译解析(一):YOLOv3: An Incremental Improvement

    论文标题: YOLOv3: An Incremental Improvement 论文作者: Joseph Redmon Ali Farhadi YOLO官网:YOLO: Real-Time Obje ...

  9. 【转】分布式一致性算法:Raft 算法(Raft 论文翻译)

    编者按:这篇文章来自简书的一个位博主Jeffbond,读了好几遍,翻译的质量比较高,原文链接:分布式一致性算法:Raft 算法(Raft 论文翻译),版权一切归原译者. 同时,第6部分的集群成员变更读 ...

随机推荐

  1. Linux下搭建实现HttpRunnerManager的异步执行、定时任务及任务监控

    前言 在之前搭建的HttpRunnerManager接口测试平台,我们还有一些功能没有实现,比如异步执行.定时任务.任务监控等,要完成异步执行,需要搭建 RabbitMQ 等环境,今天我们就来实现这些 ...

  2. 一张图帮你记忆,Spring Boot 应用在启动阶段执行代码的几种方式

    前言 有时候我们需要在应用启动时执行一些代码片段,这些片段可能是仅仅是为了记录 log,也可能是在启动时检查与安装证书 ,诸如上述业务要求我们可能会经常碰到 Spring Boot 提供了至少 5 种 ...

  3. Java 从入门到进阶之路(十九)

    在之前的文章我们介绍了一下 Java 中的Object,本章我们来看一下 Java 中的包装类. 在 Java 中有八个基本类型:byte,short,int,long,float,double,ch ...

  4. PAC 代理自动发现简介

    一 简介 1.1 什么是PAC文件 代理自动配置(PAC)文件包含一组用javaScript编码的规则,允许web浏览器确定是将Web流量直接发送到Internet还是通过代理服务器发送        ...

  5. $Poj1821\ Fence\ $单调队列优化$DP$

    Poj   Acwing Description 有N块木板等待被M个工匠粉刷,每块木板至多被刷一次.第i个工匠要么不粉刷,要么粉刷包含木块Si的,长度不超过Li的连续的一段木板,每粉刷一块可以得到P ...

  6. (推荐)linux用一键安装包

    linux一键安装包内置了XXD.apache, php, mysql这些应用程序,不需要再单独安装部署. 从7.3版本开始,linux一键安装包分为32位和64位两个包,请大家根据操作系统的情况下载 ...

  7. 啊哈!C语言课后参考答案上

    最近看到一本好评量很高的的C语言入门书,课本真的很好,入门的话.专业性没有那么强,但入门足够了!!好评!看着看着就想把这本书的题课后习题都写出来,最后就有了这个小结.可能有的不是最好,不那么专业,但主 ...

  8. MATLAB实例:PCA(主成成分分析)详解

    MATLAB实例:PCA(主成成分分析)详解 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 1. 主成成分分析 2. MATLAB解释 详细信息请看: ...

  9. 14.python案例:爬取电影天堂中所有电视剧信息

    1.python案例:爬取电影天堂中所有电视剧信息 #!/usr/bin/env python3 # -*- coding: UTF-8 -*- '''======================== ...

  10. 我们为什么会删除不了集群的 Namespace?

    作者 | 声东  阿里云售后技术专家 导读:阿里云售后技术团队的同学,每天都在处理各式各样千奇百怪的线上问题.常见的有网络连接失败.服务器宕机.性能不达标及请求响应慢等.但如果要评选的话,什么问题看起 ...