人工智能在“阿尔法格斗”竞赛中完胜顶尖F-16飞行员

mikate · 发表于 2022-12-28 11:19:22

本文已发表于《国际航空》杂志2020年第9期。

2020年8月18日至20日，美国国防高级计划研究局（DARPA）联合美空军研究实验室（AFRL）以及约翰·霍普金斯大学应用物理实验室共同举办了阿尔法空战格斗系列比赛（AlphaDogfight Trials）的第三轮和最后一轮比赛。这一系列赛隶属于DARPA战略技术办公室（STO）提出的“空战进化”项目（Air Combat Evolution，ACE），在DARPA基于自主和人工智能技术的快速发展提出全新的作战概念——“马赛克战”的背景下举办，旨在在仿真模拟环境中提升人工智能进行视距内空战的水平，提升飞行员对人工智能的信任程度，并通过举办比赛的方式吸引来自社会各界的人才团队参与项目研发。经过前期的筛选，第三轮共有八支团队进入比赛名单，他们分别是极光飞行科学公司（Aurora Flight Sciences）、埃皮西斯科技公司（EpiSys Science）、佐治亚理工研究所（Georgia Tech Research Institute）、苍鹭系统公司（Heron Systems）、洛克希德·马丁公司（Lockheed Martin）、佩斯佩克塔实验公司（Perspecta Labs）、物理人工智能公司（Physics AI）和翱翔科技公司（SoarTech）。经过一系列比赛，在第三阶段的总决赛中，苍鹭系统公司的智能空战代理“隼”（Falco）以16：4的比分击败洛克希德·马丁公司成为本次AlphaDogfight系列赛的冠军。在紧随其后的人机大战中，Falco凭借凌厉的攻势以5：0的成绩战胜了顶尖的F-16人类飞行员。
人工智能在“阿尔法格斗”竞赛中完胜顶尖F-16飞行员-7505

图 1 AlphaDogfight系列赛赛况直播画面一、此次AI战胜人类称不上里程碑事件但依然看点颇多实际上，人工智能在仿真模拟环境中进行视距内空战并完胜顶尖人类飞行员并不意外，也无需过分解读将其当作人工智能又一次战胜人类的里程碑事件。笔者个人认为其他七个参赛队伍研发的人工智能算法都可能在同样的情况下战胜顶尖人类飞行员。其原因是所有参赛队伍使用的均是已有的人工智能算法和工具，只是根据具体的场景和任务做了相应的适应性改造。此外，AlphaDogfight比赛在游戏复杂度、信息可观测性和反应速度等方面所展现出的难度和特殊性相比围棋、星际争霸、Dota2等典型案例都并不突出。
人工智能在“阿尔法格斗”竞赛中完胜顶尖F-16飞行员-6565

图 2 ACE项目在游戏复杂度、信息可观测性和速度等方面的要求和难度并非顶尖正如古语云：“凡事预则立，不预则废”。AlphaDogfight比赛的强势宣传从一个侧面反映出DARPA希望通过举办话题性强且备受各界瞩目的比赛来吸引更多工业界、学界和商业界人才团队加入其研发工作，从而带动本领域快速发展的目的。类似的案例还有本世纪初DARPA于2004年、2005年和2007年举办的三届DARPA挑战赛，该系列赛事旨在促进汽车自动驾驶技术发展，它们极大地激发了本领域的竞争态势和创新热情，并为近几年来火爆的自动驾驶领域奠定了一定基础，并培养了一批中坚力量。即便如上所述人工智能算法在模拟环境中战胜人类顶尖飞行员并非顶尖难题，但此次比赛依然有很多值得关注的看点。（1）深度强化学习算法辅以新型训练方式最终战胜其他人工智能方法。本次参赛的八只代表团队采用了不同的思路和方法来解决仿真模拟环境中视距内空战这一特定问题，比如有基于规则的方法、强化学习方法、混合人工智能方法等。这些不同的思路给ACE项目带来极大活力的同时也为技术方案选型提供了一定数量的样本。在几个阶段的比赛中始终体现优势并最终胜出的是苍鹭系统公司基于深度强化学习算法的Falco，深度强化学习算法可以简单描述为是一种随着时间的推移从其所在环境中不断学习的代理，它同时融合利用了深度学习和强化学习的优势，在展现出巨大潜力的同时也成为支撑人工智能在围棋、星际争霸、 Dota2中大杀四方的核心关键。（2）针对模拟环境下视距内空战这一特定问题，研发训练不足一年的AI算法完胜拥有数十年飞行经验的顶尖飞行员。早在2019年11月第一阶段的比赛中，Falco仅仅能够勉强进行简单的基本驾驶操作；进入2020年1月的第二阶段比赛，Falco已经能够像人类飞行员一样进行一些基本的机动飞行动作；时间进入2020年8月，在经过至少40亿次仿真训练后，Falco已经相当于拥有30年的F-16驾驶经验并可以凭借凌厉的攻势完胜顶尖人类飞行员。类似人工智能战胜人类的案例我们仿佛早已司空见惯，但能够在这样短的时间和较少的人力物力财力投入情况下获得如此成功也实属不易。（3）年轻人战胜老专家，小公司战胜大公司。苍鹭系统公司Falco的技术负责人是两位年轻的工程师本杰明·贝尔和乔·塔图斯科，其中前者2017年从密苏里大学获得计算机工程硕士学位，后者于2011年从弗吉尼亚理工大学获得电子工程学士学位，他们进入防务领域并为该公司工作的时间并不很长。其中乔·塔图斯科还在开源社区GitHub上开源和维护了其编写的深度强化学习框架AdeptRL，这也是赢得此次比赛的训练框架的主体。如何利用好开源社区的开源算法也是人工智能在行业应用中发挥作用需要重点关注的问题之一。相比其他参赛组织而言，1993年成立的苍鹭系统公司实属是一个小公司，它自2012年开始积极地探索人工智能在传感器开发、机器人控制和战略推理等方面的应用。它开发的多智能体深度学习框架在雅达利（Atari）、毁灭战士（Doom）和星际争霸2（StarCraft2）等游戏以及仿真环境下的视距内空战和超视距空战等广泛范围内都展现出了超越人类表现的水平。除了参与ACE项目中的AlphaDogfight比赛之外，苍鹭系统公司还深度参与了DARPA的“进攻性蜂群战术”项目（OFFSET）和“游戏平衡破坏者”项目（Gamebreaker）以及美空军研究实验室的“空中博格”项目（Skyborg）等近十项美军人工智能项目，展现出了较强的创新能力。所以它能在这一系列比赛中打败其他参赛队伍，尤其是F-16的研制方洛克希德·马丁公司并不稀奇。或许未来在新兴交叉领域中这种年轻人战胜老专家、小公司战胜大公司的奇特现象仍将不断上演，锐意创新始终是取得商业成功和军事优势的动力源泉。
人工智能在“阿尔法格斗”竞赛中完胜顶尖F-16飞行员-876

图 3 在AlphaDogfight比赛中获胜的Falco的项目负责人本杰明·贝尔（左）和乔·塔图斯科（右），其中后者在开源社区GitHub上开源和维护的深度强化学习框架AdeptRL是赢得此次比赛的主要训练框架二、AlphaDogfight与“阿尔法”（ALPHA）模拟空战程序的区别早在2016年，一个名叫ALPHA的模拟空战程序就在模拟环境中完胜了退休的美空军上校，后者自1980年代开始就在各种仿真模拟器中与AI程序对战。当时ALPHA仅在价值35美元的“树莓派”（Raspberry Pi）计算机上运行，还被严格削减了速度、过载、导弹能力和传感器使用等性能。ALPHA与AlphaDogfight赛事中获胜的Falco存在以下区别：（1）仿真环境不同，ALPHA属于波音公司为AFRL开发的“仿真、集成和建模高级框架”（Advanced Framework for Simulation， Integration and Modelling，AFSIM）项目的一部分，该程序在这一专有框架中运行，而AlphaDogfight将开源飞行动力学模型JSBSim作为仿真环境并使用开源的飞行模拟器flightgear作为视觉系统，仿真环境的不同给两种算法带来的影响是整体性的；（2）目的不同，ALPHA旨在AFSIM环境中改善假想敌算法，AlphaDogfight比赛则仅是DARPA提升空战自主能力的一个比较基础和早期的尝试；（3）核心机理不同，ALPHA使用一种被称为遗传模糊树的方法训练模糊推理系统，这种方法可以创建一系列有效的规则，并在复杂问题中产生确定性的控制指令，AlphaDogfight中获胜的Falco则使用深度强化学习，对计算资源的要求要高得多；（4）切入点不同，ALPHA首先掌握的是视距外空战，且不限于1对1的空战场景，后来才逐渐掌握视距内空战，AlphaDogfight举办方则首先以视距内空战为切入点，从更为宏观和整体的层面上思考技术演进的路线；（5）制胜方式不同，ALPHA主要凭借快于人类250倍的速度决策速度调整最佳的战术计划来取得胜利，而Falco则凭借短期内超过40亿次的模拟对抗训练获得超过人类的驾驶水平。三、AlphaDogfight仅仅是个开头，自主空战还有很长的路要走像围棋、Dota2和星际争霸一样，深度强化学习以毋庸置疑的优势在AlphaDogfight系列比赛中战胜人类取得最后的胜利，但这种胜利仅仅局限在游戏和仿真模拟中，目前为止还没有深度强化学习方法在现实任务场景中取得类似成就的案例。相比仿真模拟环境下的空战，真实的作战场景涉及人-机-环三个复杂实体以及它们之间两两关系和三者之间复杂的相互作用关系，从场景封闭的简化数字环境到多域开放人机协同的现实对抗世界，人工智能空战还有很长的路要走。
人工智能在“阿尔法格斗”竞赛中完胜顶尖F-16飞行员-5845

图 4 ACE项目是空战自主从基于物理的机动系统通往非线性交互系统的最佳切入点AlphaDogfight系列比赛的召集人同时也是ACE项目的负责人丹尼尔上校认为ACE项目是空战自主从基于物理的机动系统通往非线性交互系统的最佳切入点，伴随着认知负荷的提升和问题复杂性的不断提高，该项目将逐渐增强飞行员团体对人工智能的信任程度，并完成飞行员角色从单纯飞行器操纵者到战场指挥官的转变，相应成果将为“马赛克战”得以实现提供有力支撑。而AlphaDogfight则是ACE项目由局部行为向全局行为演进，由仿真环境向全尺寸实体发展的良好开端。
人工智能在“阿尔法格斗”竞赛中完胜顶尖F-16飞行员-9679

图 5 ACE项目认为目前的空战自主处于较低水平，并为项目设计了非线性程度不断提升，越来越符合空战实际的技术发展路线为促进空战自主技术发展，ACE项目设置了四个技术领域：技术领域1旨在为仿真模拟环境、商用无人机和全尺寸战斗机提供1对1和多对多的视距内空战算法；技术领域2旨在为空战自主研发对飞行员信任进行建模和测量的试验方法以及设计相应的人机接口；技术领域3旨在为将空战自主的局部行为拓展到全局行为做模型、数据、机理上的研究积累；技术领域4旨在将空战算法、人机接口等技术与全尺寸战斗机结合，通过试验验证技术可行性并进行信任和安全/适航评估。
人工智能在“阿尔法格斗”竞赛中完胜顶尖F-16飞行员-7374

图 6 ACE项目的技术领域与内部衔接关系有鉴于任务场景的开放性、作战环境的对抗性、武器客体的复杂性，要素交互的关联性，即使ACE项目最终取得圆满成功，人工智能离取代人类飞行员进行空战依然有很长的路要走。杨伟院士在其近期发表的论文《关于未来战斗机发展的若干讨论》中论述到“由于空战所具有的信息不完全、干扰不确定、实战检验少、可信性要求高等复杂性限制，在可预见的时期内，人工智能不太能够完全取代人，全自主地承担复杂的空战任务”。“自主系统带来的变革尚不足以将有人空战平台变为无人空战平台。基于对战斗机自主控制能力的认识与发展预判，对于下一代战斗机是否将取消飞行员这个问题，目前国外的主流观点仍然重视人的作用”。
本文来源：空天防务观察
C2

如何加入学会

注册学会会员：

个人会员：

关注学会微信：中国指挥与控制学会（c2_china），回复“个人会员”获取入会申请表，按要求填写申请表即可，如有问题，可在联盟号内进行留言。通过学会审核后方可在线进行支付宝缴纳会费。

单位会员：

关注学会微信：中国指挥与控制学会（c2_china），回复“单位会员”获取入会申请表，按要求填写申请表即可，如有问题，可在联盟号内进行留言。通过学会审核后方可缴纳会费。

长按下方学会二维码，关注学会微信

航空人生

空管人生

WEFLY

人工智能在“阿尔法格斗”竞赛中完胜顶尖F-16飞行员

相关帖子

关于我们

客服QQ

Email

快捷入口

关注我们

认证信息