【转载】 AI与人类首次空战,5:0大胜!40亿次模拟造美国怪兽,谁与争锋? (再次证明深度强化学习路线的正确性)
原文:

------------------------------------------------

8月20日,美国苍鹭系统公司的人工智能空战系统,与一名坐在模拟器中、戴着虚拟现实头盔的人类战斗机飞行员进行空战格斗对抗,最后以5:0的绝对优势获胜。这场世界首次人工智能和人类的空战大赛,表明在空战近距格斗领域,人工智能可以超越人类。那么,人工智能是否会在空军作战中获得巨大发展呢?

2019年8月,国防高级研究开发局DARPA选择了八个团队,包括洛克希德·马丁公司这样的大型传统国防承包商到苍鹭系统公司(Heron Systems)这样的小公司,在11月和2020年1月的一系列试验中展开一系列竞争,最后苍鹭系统公司在与其他七支球队的较量中脱颖而出获得冠军,亚军洛克希德·马丁公司获得亚军。而20日人工智能对人类的胜利,再次证明 深度强化学习路线的正确性 。即人工智能算法可以在虚拟战争环境中一遍又一遍地训练一项空战任务,最终发展“理解”空战的层次。

来自洛克希德·马丁公司的人工智能副总裁马特·塔拉西奥和人工智能总监兼首席架构师李·里索尔茨表示,试图让算法在空战中表现良好,与简单地教软件“飞”或保持特定的方向、高度和速度有很大的不同。人工智能软件一开始甚至 对非常基本的飞行任务都完全缺乏理解,这使得它一开始十分“菜”。一个最普通的人也知道飞机它不应该撞到地面,但是算法不知道。在训练一开始,人工智能经常把飞机开到地面自杀,就像婴儿一样。

克服这种无知的“人工智能”,需要算法训练,每个错误都有代价,但这些代价并不相等。当算法基于仿真后的分析,能够为每个动作分配权重,然后随着经验的不断更新,能够重新分配这些权重,就能够逐渐加固人工智能的“战斗意识”。但是程序员在如何构建模拟方面的,存在有意识和无意识巨大争论。是 基于人类知识编写软件规则来约束人工智能,还是让 人工智能通过试错自我学习?这是一场激烈的辩论。最后美方选择第二种,因为人类的经验有可能限制了它的性能。

尽管已开始是菜鸟,但人工智能可以学习的速度有多快是令人震惊的,因为它可以在多台机器上一遍又一遍地重复训练。洛克希德公司和其他几个团队一样,有一名战斗机飞行员提供建议,还能够一次在多达25台服务器上训练人工智能。而苍鹭系统公司的人工智能算法,竟然经历了40亿次模拟,等于在1年的时间中获得了至少“12年资深战斗机飞行员的经验”。美国目标是最终生产的人工智能产品可以运行在一块GPU芯片上。
这不是人工智能第一次在比赛中击败人类战斗机飞行员。2016年的一次演示显示,一名为阿尔法的人工智能特工可以击败一名经验丰富的人类战斗飞行教官。但8月20日的模拟对抗意义更大,因为它让各种人工智能在高度结构化的框架中相互对抗,然后具备与人类对抗的能力。

而且人工智能厂商还认为,即便是5:0的结果,但实际上对他们来说并不公平,因为规则不允许在实际对抗中,人工智能来学习对手的经验。实际的比赛确实证实了这一点。在了第五轮也是最后一轮比赛时,匿名的人类飞行员已经能够显著改变他的战术,尽管最后失败了但持续的时间要长得多。显然人类战斗机飞行员也在学习,但是他学的而不够快,还是失败了。而人工智能公司认为,如果AI也能在战斗中学习人类对手,那么人类败得会更快更惨。

这一比赛,将促使美国军方将不得不对未来做出的重大选择。企业界建议,美国军方应该 允许人工智能在实战中学习更多,而不是简单计算机模拟,这样从而在人类的直接监督下,人工智能学习速度可能更快,并帮助无人驾驶战斗机更好地与人类飞行员或其他形态人工智能竞争。但这需要军方的决定,特别是在这一关键时刻做出决定。至少现在,美军应该训练算法,部署人工智能战机, 然后把数据带回来,加强学习,然后再次重新部署,不断循环这一过程。

DARPA战略技术办公室主任蒂莫西·格雷森认为,这场试验并不简单是人工智能的胜利,更准确的描述是更好的人机合作的胜利,格雷森说:“我认为我们今天看到的是一种我将称之为人机共生时代的开始。让我们想象一下,坐在驾驶舱里的 人类,被这些人工智能算法看做武器系统飞行的一部分。人工智能正在做人工智能最擅长的战斗。人类专注于人类最擅长的事情,比如更高层次的战略思维。”
----------------------------------------
【转载】 AI与人类首次空战,5:0大胜!40亿次模拟造美国怪兽,谁与争锋? (再次证明深度强化学习路线的正确性)的更多相关文章
- 【转载】 深度强化学习处理cartpole为什么reward很难超过200?
原贴地址: https://www.zhihu.com/question/266493753 一直在看强化学习方面的内容,cartpole是最简单的入门实验环境,最原始的评判标准是连续100次epis ...
- 强化学习——如何提升样本效率 ( DeepMind 综述深度强化学习:智能体和人类相似度竟然如此高!)
强化学习 如何提升样本效率 参考文章: https://news.html5.qq.com/article?ch=901201&tabId=0&tagId=0&docI ...
- 【转载】 “强化学习之父”萨顿:预测学习马上要火,AI将帮我们理解人类意识
原文地址: https://yq.aliyun.com/articles/400366 本文来自AI新媒体量子位(QbitAI) ------------------------------- ...
- 【转载】 准人工智能分享Deep Mind报告 ——AI“元强化学习”
原文地址: https://www.sohu.com/a/231895305_200424 ------------------------------------------------------ ...
- AI 学习路线
[导读] 本文由知名开源平台,AI技术平台以及领域专家:Datawhale,ApacheCN,AI有道和黄海广博士联合整理贡献,内容涵盖AI入门基础知识.数据分析挖掘.机器学习.深度学习.强化学习.前 ...
- 【转载】 强化学习(八)价值函数的近似表示与Deep Q-Learning
原文地址: https://www.cnblogs.com/pinard/p/9714655.html ------------------------------------------------ ...
- 【转载】 强化学习(七)时序差分离线控制算法Q-Learning
原文地址: https://www.cnblogs.com/pinard/p/9669263.html ------------------------------------------------ ...
- 【转载】 强化学习(五)用时序差分法(TD)求解
原文地址: https://www.cnblogs.com/pinard/p/9529828.html ------------------------------------------------ ...
- ICML论文|阿尔法狗CTO讲座: AI如何用新型强化学习玩转围棋扑克游戏
今年8月,Demis Hassabis等人工智能技术先驱们将来到雷锋网“人工智能与机器人创新大会”.在此,我们为大家分享David Silver的论文<不完美信息游戏中的深度强化学习自我对战&g ...
- 【转载】 DeepMind发表Nature子刊新论文:连接多巴胺与元强化学习的新方法
原文地址: baijiahao.baidu.com/s?id=1600509777750939986&wfr=spider&for=pc 机器之心 18-05-15 14:26 - ...
随机推荐
- 一文搞懂 ARM 64 系列: 寄存器
ARM 64中包含多种寄存器,下面介绍一些常见的寄存器. 1 通用寄存器 ARM 64包含31个64bit寄存器,记为X0~X30. 每一个通用寄存器,它的低32bit都可以被访问,记为W0~W30. ...
- 由于找不到 XINPUT1_3.dll,无法继续执行代码。重新安装程序可能会解决此问题。
---------------------------EpicGamesLauncher.exe - 系统错误---------------------------由于找不到 XINPUT1_3.dl ...
- Truncate的使用详解
删除表中数据的方法有 delete 和 truncate, 其中TRUNCATE TABLE用于删除表中的所有行,而不记录单个行删除操作:TRUNCATE TABLE 与没有 WHERE 子句的 DE ...
- redis 锁
demo1 public ErrorCode initDemo1(@RequestParam("orderNo") String orderNo) throws IOExcepti ...
- Java跳动爱心代码
1.计算爱心曲线上的点的公式 计算爱心曲线上的点的公式通常基于参数方程.以下是两种常见的参数方程表示方法,用于绘制爱心曲线: 1.1基于 (x, y) 坐标的参数方程 x = a * (2 * cos ...
- Kotlin 变量详解:声明、赋值与最佳实践指南
Kotlin 变量 变量是用于存储数据值的容器. 要创建一个变量,使用 var 或 val,然后使用等号(=)给它赋值: 语法 var 变量名 = 值 val 变量名 = 值 示例 var name ...
- C#去除时间格式化之后中间的T字母
需求是这样的, 前后端传参,然后后端序列化把字符串存在数据库. 然后发现时间类型的字段,序列化之后 ,有个字母T, DateTime dt = DateTime.Parse("2024-05 ...
- DAX 自动生成日期表-与订单表(业绩表)相同日期区间
日期表 = ADDCOLUMNS ( CALENDAR (MIN('业绩表'[日期]), MAX('业绩表'[日期])), //关键在于MIN函数和MAX函数的使用 "年度", Y ...
- test20230824总结
A 怎么是重构树板子,放在图上都是水题. B 考场上只打了一个暴力,赛后发现似乎是很可做的 C 是一个考察状态设计的 dp 以后要多刷 D 是一道数据结构优化 dp 考场上写出来了却因为空间问题挂了 ...
- WSL2连接USB设备(以USRP B210为例)
使用WSL2时,发现其无法直接识别到宿主机上插入的USB设备. 可利用USPIPD-WIN项目进行连接. 以下以USRP B210设备连接为例,展示连接过程: 安装USBIPD-WIN 项目 参考连接 ...