【转载】 AI与人类首次空战,5:0大胜!40亿次模拟造美国怪兽,谁与争锋? (再次证明深度强化学习路线的正确性)
原文:

------------------------------------------------

8月20日,美国苍鹭系统公司的人工智能空战系统,与一名坐在模拟器中、戴着虚拟现实头盔的人类战斗机飞行员进行空战格斗对抗,最后以5:0的绝对优势获胜。这场世界首次人工智能和人类的空战大赛,表明在空战近距格斗领域,人工智能可以超越人类。那么,人工智能是否会在空军作战中获得巨大发展呢?

2019年8月,国防高级研究开发局DARPA选择了八个团队,包括洛克希德·马丁公司这样的大型传统国防承包商到苍鹭系统公司(Heron Systems)这样的小公司,在11月和2020年1月的一系列试验中展开一系列竞争,最后苍鹭系统公司在与其他七支球队的较量中脱颖而出获得冠军,亚军洛克希德·马丁公司获得亚军。而20日人工智能对人类的胜利,再次证明 深度强化学习路线的正确性 。即人工智能算法可以在虚拟战争环境中一遍又一遍地训练一项空战任务,最终发展“理解”空战的层次。

来自洛克希德·马丁公司的人工智能副总裁马特·塔拉西奥和人工智能总监兼首席架构师李·里索尔茨表示,试图让算法在空战中表现良好,与简单地教软件“飞”或保持特定的方向、高度和速度有很大的不同。人工智能软件一开始甚至 对非常基本的飞行任务都完全缺乏理解,这使得它一开始十分“菜”。一个最普通的人也知道飞机它不应该撞到地面,但是算法不知道。在训练一开始,人工智能经常把飞机开到地面自杀,就像婴儿一样。

克服这种无知的“人工智能”,需要算法训练,每个错误都有代价,但这些代价并不相等。当算法基于仿真后的分析,能够为每个动作分配权重,然后随着经验的不断更新,能够重新分配这些权重,就能够逐渐加固人工智能的“战斗意识”。但是程序员在如何构建模拟方面的,存在有意识和无意识巨大争论。是 基于人类知识编写软件规则来约束人工智能,还是让 人工智能通过试错自我学习?这是一场激烈的辩论。最后美方选择第二种,因为人类的经验有可能限制了它的性能。

尽管已开始是菜鸟,但人工智能可以学习的速度有多快是令人震惊的,因为它可以在多台机器上一遍又一遍地重复训练。洛克希德公司和其他几个团队一样,有一名战斗机飞行员提供建议,还能够一次在多达25台服务器上训练人工智能。而苍鹭系统公司的人工智能算法,竟然经历了40亿次模拟,等于在1年的时间中获得了至少“12年资深战斗机飞行员的经验”。美国目标是最终生产的人工智能产品可以运行在一块GPU芯片上。
这不是人工智能第一次在比赛中击败人类战斗机飞行员。2016年的一次演示显示,一名为阿尔法的人工智能特工可以击败一名经验丰富的人类战斗飞行教官。但8月20日的模拟对抗意义更大,因为它让各种人工智能在高度结构化的框架中相互对抗,然后具备与人类对抗的能力。

而且人工智能厂商还认为,即便是5:0的结果,但实际上对他们来说并不公平,因为规则不允许在实际对抗中,人工智能来学习对手的经验。实际的比赛确实证实了这一点。在了第五轮也是最后一轮比赛时,匿名的人类飞行员已经能够显著改变他的战术,尽管最后失败了但持续的时间要长得多。显然人类战斗机飞行员也在学习,但是他学的而不够快,还是失败了。而人工智能公司认为,如果AI也能在战斗中学习人类对手,那么人类败得会更快更惨。

这一比赛,将促使美国军方将不得不对未来做出的重大选择。企业界建议,美国军方应该 允许人工智能在实战中学习更多,而不是简单计算机模拟,这样从而在人类的直接监督下,人工智能学习速度可能更快,并帮助无人驾驶战斗机更好地与人类飞行员或其他形态人工智能竞争。但这需要军方的决定,特别是在这一关键时刻做出决定。至少现在,美军应该训练算法,部署人工智能战机, 然后把数据带回来,加强学习,然后再次重新部署,不断循环这一过程。

DARPA战略技术办公室主任蒂莫西·格雷森认为,这场试验并不简单是人工智能的胜利,更准确的描述是更好的人机合作的胜利,格雷森说:“我认为我们今天看到的是一种我将称之为人机共生时代的开始。让我们想象一下,坐在驾驶舱里的 人类,被这些人工智能算法看做武器系统飞行的一部分。人工智能正在做人工智能最擅长的战斗。人类专注于人类最擅长的事情,比如更高层次的战略思维。”
----------------------------------------
【转载】 AI与人类首次空战,5:0大胜!40亿次模拟造美国怪兽,谁与争锋? (再次证明深度强化学习路线的正确性)的更多相关文章
- 【转载】 深度强化学习处理cartpole为什么reward很难超过200?
原贴地址: https://www.zhihu.com/question/266493753 一直在看强化学习方面的内容,cartpole是最简单的入门实验环境,最原始的评判标准是连续100次epis ...
- 强化学习——如何提升样本效率 ( DeepMind 综述深度强化学习:智能体和人类相似度竟然如此高!)
强化学习 如何提升样本效率 参考文章: https://news.html5.qq.com/article?ch=901201&tabId=0&tagId=0&docI ...
- 【转载】 “强化学习之父”萨顿:预测学习马上要火,AI将帮我们理解人类意识
原文地址: https://yq.aliyun.com/articles/400366 本文来自AI新媒体量子位(QbitAI) ------------------------------- ...
- 【转载】 准人工智能分享Deep Mind报告 ——AI“元强化学习”
原文地址: https://www.sohu.com/a/231895305_200424 ------------------------------------------------------ ...
- AI 学习路线
[导读] 本文由知名开源平台,AI技术平台以及领域专家:Datawhale,ApacheCN,AI有道和黄海广博士联合整理贡献,内容涵盖AI入门基础知识.数据分析挖掘.机器学习.深度学习.强化学习.前 ...
- 【转载】 强化学习(八)价值函数的近似表示与Deep Q-Learning
原文地址: https://www.cnblogs.com/pinard/p/9714655.html ------------------------------------------------ ...
- 【转载】 强化学习(七)时序差分离线控制算法Q-Learning
原文地址: https://www.cnblogs.com/pinard/p/9669263.html ------------------------------------------------ ...
- 【转载】 强化学习(五)用时序差分法(TD)求解
原文地址: https://www.cnblogs.com/pinard/p/9529828.html ------------------------------------------------ ...
- ICML论文|阿尔法狗CTO讲座: AI如何用新型强化学习玩转围棋扑克游戏
今年8月,Demis Hassabis等人工智能技术先驱们将来到雷锋网“人工智能与机器人创新大会”.在此,我们为大家分享David Silver的论文<不完美信息游戏中的深度强化学习自我对战&g ...
- 【转载】 DeepMind发表Nature子刊新论文:连接多巴胺与元强化学习的新方法
原文地址: baijiahao.baidu.com/s?id=1600509777750939986&wfr=spider&for=pc 机器之心 18-05-15 14:26 - ...
随机推荐
- Vue第三方库与插件实战手册
title: Vue第三方库与插件实战手册 date: 2024/6/8 updated: 2024/6/8 excerpt: 这篇文章介绍了如何在Vue框架中实现数据的高效验证与处理,以及如何集成E ...
- graylog 大于等于 查询
graylog 大于等于 查询 :>=1000 不要有空格 如下: pay_channel:PSBC AND hs:>=4
- 利用夜莺开源版对H3C无线设备监控
编者荐语:真正搞监控的人肯定知道 SNMP 水有多深,有时我甚至腹黑猜测,这些厂商是故意的吧,,,指标不标准,格式各异,只能靠一款灵活的采集器了,本文是夜莺社区用户写的文章,转给大家参考. autho ...
- 项目管理--PMBOK 读书笔记(12)【项目采购管理】
1.采购计划三要素 1)采购管理计划:预审合格的卖方,供方选择标准: 2)采购 SOW:采购工作说明书应详细描述拟采购的产品.服务或成果: 3)采购文件 2.合同类型 1)总价合同:范围清楚, ...
- [DP] DP优化总结
写在前面 $ DP $,是每个信息学竞赛选手所必会的算法,而 $ DP $ 中状态的转移又显得尤为关键.本文主要从状态的设计和转移入手,利用各种方法对朴素 $ DP $ 的时间复杂度和空间复杂度进行优 ...
- 字符数组转换及数字求和 java8 lambda表达式 demo
public static void main(String[] args) throws IllegalAccessException { //字符串转换为数字且每个加上100,输出. String ...
- python 文件查找及截取字符串 (替换,分割) demo
#"F:\\test.txt" ''' # 例1:字符串截取 str = '12345678' print str[0:1] # 例2:字符串替换 str = 'akakak' s ...
- parsel的使用
介绍 parsel这个库可以解析HTML和XML,并支持使用XPath和CSS选择器对内容进行提取和修改,同时还融合了正则表达式的提取功能.parsel灵活强大,同时也是Python最流行的爬虫框架的 ...
- 解读MySQL 8.0数据字典的初始化与启动
本文分享自华为云社区<MySQL全文索引源码剖析之Insert语句执行过程>,作者:GaussDB 数据库. 本文主要介绍MySQL 8.0数据字典的基本概念和数据字典的初始化与启动加载的 ...
- EthernetIP IO从站设备数据 转opc ua项目案例
1 案例说明 设置网关采集EthernetIP IO设备数据 把采集的数据转成opc ua协议转发给其他系统. 2 VFBOX网关工作原理 VFBOX网关是协议转换网关,是把一种协议转换成另外一种协议 ...