【转载】 AI与人类首次空战，5:0大胜！40亿次模拟造美国怪兽，谁与争锋？（再次证明深度强化学习路线的正确性）

原文：

https://mbd.baidu.com/newspage/data/landingsuper?context=%7B%22nid%22%3A%22news_10034789533555722477%22%7D&n_type=1&p_from=4

------------------------------------------------

8月20日，美国苍鹭系统公司的人工智能空战系统，与一名坐在模拟器中、戴着虚拟现实头盔的人类战斗机飞行员进行空战格斗对抗，最后以5:0的绝对优势获胜。这场世界首次人工智能和人类的空战大赛，表明在空战近距格斗领域，人工智能可以超越人类。那么，人工智能是否会在空军作战中获得巨大发展呢？

2019年8月，国防高级研究开发局DARPA选择了八个团队，包括洛克希德·马丁公司这样的大型传统国防承包商到苍鹭系统公司(Heron Systems)这样的小公司，在11月和2020年1月的一系列试验中展开一系列竞争，最后苍鹭系统公司在与其他七支球队的较量中脱颖而出获得冠军，亚军洛克希德·马丁公司获得亚军。而20日人工智能对人类的胜利，再次证明 深度强化学习路线的正确性 。即人工智能算法可以在虚拟战争环境中一遍又一遍地训练一项空战任务，最终发展“理解”空战的层次。

来自洛克希德·马丁公司的人工智能副总裁马特·塔拉西奥和人工智能总监兼首席架构师李·里索尔茨表示，试图让算法在空战中表现良好，与简单地教软件“飞”或保持特定的方向、高度和速度有很大的不同。人工智能软件一开始甚至 对非常基本的飞行任务都完全缺乏理解，这使得它一开始十分“菜”。一个最普通的人也知道飞机它不应该撞到地面，但是算法不知道。在训练一开始，人工智能经常把飞机开到地面自杀，就像婴儿一样。

克服这种无知的“人工智能”，需要算法训练，每个错误都有代价，但这些代价并不相等。当算法基于仿真后的分析，能够为每个动作分配权重，然后随着经验的不断更新，能够重新分配这些权重，就能够逐渐加固人工智能的“战斗意识”。但是程序员在如何构建模拟方面的，存在有意识和无意识巨大争论。是 基于人类知识编写软件规则来约束人工智能，还是让 人工智能通过试错自我学习？这是一场激烈的辩论。最后美方选择第二种，因为人类的经验有可能限制了它的性能。

尽管已开始是菜鸟，但人工智能可以学习的速度有多快是令人震惊的，因为它可以在多台机器上一遍又一遍地重复训练。洛克希德公司和其他几个团队一样，有一名战斗机飞行员提供建议，还能够一次在多达25台服务器上训练人工智能。而苍鹭系统公司的人工智能算法，竟然经历了40亿次模拟，等于在1年的时间中获得了至少“12年资深战斗机飞行员的经验”。美国目标是最终生产的人工智能产品可以运行在一块GPU芯片上。

这不是人工智能第一次在比赛中击败人类战斗机飞行员。2016年的一次演示显示，一名为阿尔法的人工智能特工可以击败一名经验丰富的人类战斗飞行教官。但8月20日的模拟对抗意义更大，因为它让各种人工智能在高度结构化的框架中相互对抗，然后具备与人类对抗的能力。

而且人工智能厂商还认为，即便是5:0的结果，但实际上对他们来说并不公平，因为规则不允许在实际对抗中，人工智能来学习对手的经验。实际的比赛确实证实了这一点。在了第五轮也是最后一轮比赛时，匿名的人类飞行员已经能够显著改变他的战术，尽管最后失败了但持续的时间要长得多。显然人类战斗机飞行员也在学习，但是他学的而不够快，还是失败了。而人工智能公司认为，如果AI也能在战斗中学习人类对手，那么人类败得会更快更惨。

这一比赛，将促使美国军方将不得不对未来做出的重大选择。企业界建议，美国军方应该 允许人工智能在实战中学习更多，而不是简单计算机模拟，这样从而在人类的直接监督下，人工智能学习速度可能更快，并帮助无人驾驶战斗机更好地与人类飞行员或其他形态人工智能竞争。但这需要军方的决定，特别是在这一关键时刻做出决定。至少现在，美军应该训练算法，部署人工智能战机， 然后把数据带回来，加强学习，然后再次重新部署，不断循环这一过程。

DARPA战略技术办公室主任蒂莫西·格雷森认为，这场试验并不简单是人工智能的胜利，更准确的描述是更好的人机合作的胜利，格雷森说：“我认为我们今天看到的是一种我将称之为人机共生时代的开始。让我们想象一下，坐在驾驶舱里的人类，被这些人工智能算法看做武器系统飞行的一部分。人工智能正在做人工智能最擅长的战斗。人类专注于人类最擅长的事情，比如更高层次的战略思维。”

----------------------------------------

【转载】 AI与人类首次空战，5:0大胜！40亿次模拟造美国怪兽，谁与争锋？（再次证明深度强化学习路线的正确性）的更多相关文章

【转载】深度强化学习处理cartpole为什么reward很难超过200?
原贴地址: https://www.zhihu.com/question/266493753 一直在看强化学习方面的内容,cartpole是最简单的入门实验环境,最原始的评判标准是连续100次epis ...
强化学习——如何提升样本效率（ DeepMind 综述深度强化学习：智能体和人类相似度竟然如此高！）
强化学习如何提升样本效率参考文章: https://news.html5.qq.com/article?ch=901201&tabId=0&tagId=0&docI ...
【转载】 “强化学习之父”萨顿：预测学习马上要火，AI将帮我们理解人类意识
原文地址: https://yq.aliyun.com/articles/400366 本文来自AI新媒体量子位(QbitAI) ------------------------------- ...
【转载】准人工智能分享Deep Mind报告 ——AI“元强化学习”
原文地址: https://www.sohu.com/a/231895305_200424 ------------------------------------------------------ ...
AI 学习路线
[导读] 本文由知名开源平台,AI技术平台以及领域专家:Datawhale,ApacheCN,AI有道和黄海广博士联合整理贡献,内容涵盖AI入门基础知识.数据分析挖掘.机器学习.深度学习.强化学习.前 ...
【转载】强化学习（八）价值函数的近似表示与Deep Q-Learning
原文地址: https://www.cnblogs.com/pinard/p/9714655.html ------------------------------------------------ ...
【转载】强化学习（七）时序差分离线控制算法Q-Learning
原文地址: https://www.cnblogs.com/pinard/p/9669263.html ------------------------------------------------ ...
【转载】强化学习（五）用时序差分法（TD）求解
原文地址: https://www.cnblogs.com/pinard/p/9529828.html ------------------------------------------------ ...
ICML论文｜阿尔法狗CTO讲座： AI如何用新型强化学习玩转围棋扑克游戏
今年8月,Demis Hassabis等人工智能技术先驱们将来到雷锋网“人工智能与机器人创新大会”.在此,我们为大家分享David Silver的论文<不完美信息游戏中的深度强化学习自我对战&g ...
【转载】 DeepMind发表Nature子刊新论文：连接多巴胺与元强化学习的新方法
原文地址: baijiahao.baidu.com/s?id=1600509777750939986&wfr=spider&for=pc 机器之心 18-05-15 14:26 - ...

随机推荐

Elasticsearch之Nested Query nestedQuery查询数组
es是通过符合条件的json记录找出来,本身并不是将数据中的记录filter过滤.es nestedQuery不是过滤的结果,是匹配的这条es记录,所以数组中的其他的记录也会查询出来1.方法1:可以在 ...
idea为什么提示：Duplicated code fragment (**lines long)
idea为什么提示:Duplicated code fragment (**lines long) 原因是有相同的代码块在类里,可以把这部分代码封装成一个方法,提高代码可读性.
OFBiz RCE漏洞复现（CVE-2023-51467）
漏洞名称 Apache OFBiz 鉴权绕过导致命令执行漏洞描述 Apache OFBiz是一个非常著名的电子商务平台,是一个非常著名的开源项目,提供了创建基于最新J2EE/XML规范和技术标准,构 ...
阅读mmdetection3d框架的源码探索其构建dataset的流程
在查看一些基于mmdetection3d构建的代码的时候,一开始会摸不着头脑,它的dataset到底是怎么构造的? 接下来就直接下载mmdetection3d这个仓库,然后去分析里面的代码. 可以看到 ...
Linux特殊权限之SUID，SGID
SUID定义暂时借用属主身份运行二进制程序.(SGID则是借用属组) 应用场景某些用户在运行二进制程序的过程中,没有权限访问此二进制程序中其他的一些文件.给此用户过高的权限又不安全. 比如,每个用 ...
原生js实现下拉框可输入
js实现下拉框可输入前言众所周知,html默认的下拉框是无法输入值的,然后最新的办法是用datalist和输入框绑定,但是很多浏览器不支持.然后还有很多框架提供的下拉框都是可输入的.但是公司的项目 ...
STM32 CubeMX 学习：000-搭建开发环境
背景了解了 STM32 标准库以后,为了紧跟发展的潮流,我们以 CubeMx为基础开始进行 Hal(Hardware Abstract Layer, 硬件抽象层)库的学习. CubeMx 是一个 ...
题解：洛谷 P1165 日志分析
标签:栈,模拟题意对于一个栈,给定三种操作: 0 x,将 \(x\) 入栈: 1,出栈,栈空时忽略: 2,查询当前栈内最大值. 思路前两个都是栈的基本操作,关键在于查最大值. 每次询问暴力找肯定 ...
tcp_tw_reuse、tcp_tw_recycle、tcp_fin_timeout参数介绍
参数介绍 net.ipv4.tcp_tw_reuse = 1 表示开启重用.允许将TIME-WAIT sockets重新用于新的TCP连接,默认为0,表示关闭: net.ipv4.tcp_tw_rec ...
请查收“国产化率认证报告”(100%)——RK3568J工业核心板
创龙科技RK3568J核心板获得"100%国产化"认证日前,创龙科技"国产化率100%认证"的核心板再添一员!RK3568J工业核心板(SOM-TL3568)获 ...

【转载】 AI与人类首次空战，5:0大胜！40亿次模拟造美国怪兽，谁与争锋？ （再次证明深度强化学习路线的正确性）

【转载】 AI与人类首次空战，5:0大胜！40亿次模拟造美国怪兽，谁与争锋？ （再次证明深度强化学习路线的正确性）的更多相关文章

随机推荐

热门专题

【转载】 AI与人类首次空战，5:0大胜！40亿次模拟造美国怪兽，谁与争锋？（再次证明深度强化学习路线的正确性）

【转载】 AI与人类首次空战，5:0大胜！40亿次模拟造美国怪兽，谁与争锋？（再次证明深度强化学习路线的正确性）的更多相关文章