图 3 在AlphaDogfight比赛中获胜的Falco的项目负责人本杰明·贝尔(左)和乔·塔图斯科(右),其中后者在开源社区GitHub上开源和维护的深度强化学习框架AdeptRL是赢得此次比赛的主要训练框架二、AlphaDogfight与“阿尔法”(ALPHA)模拟空战程序的区别早在2016年,一个名叫ALPHA的模拟空战程序就在模拟环境中完胜了退休的美空军上校,后者自1980年代开始就在各种仿真模拟器中与AI程序对战。当时ALPHA仅在价值35美元的“树莓派”(Raspberry Pi)计算机上运行,还被严格削减了速度、过载、导弹能力和传感器使用等性能。ALPHA与AlphaDogfight赛事中获胜的Falco存在以下区别:(1)仿真环境不同,ALPHA属于波音公司为AFRL开发的“仿真、集成和建模高级框架”(Advanced Framework for Simulation, Integration and Modelling,AFSIM)项目的一部分,该程序在这一专有框架中运行,而AlphaDogfight将开源飞行动力学模型JSBSim作为仿真环境并使用开源的飞行模拟器flightgear作为视觉系统,仿真环境的不同给两种算法带来的影响是整体性的;(2)目的不同,ALPHA旨在AFSIM环境中改善假想敌算法,AlphaDogfight比赛则仅是DARPA提升空战自主能力的一个比较基础和早期的尝试;(3)核心机理不同,ALPHA使用一种被称为遗传模糊树的方法训练模糊推理系统,这种方法可以创建一系列有效的规则,并在复杂问题中产生确定性的控制指令,AlphaDogfight中获胜的Falco则使用深度强化学习,对计算资源的要求要高得多;(4)切入点不同,ALPHA首先掌握的是视距外空战,且不限于1对1的空战场景,后来才逐渐掌握视距内空战,AlphaDogfight举办方则首先以视距内空战为切入点,从更为宏观和整体的层面上思考技术演进的路线;(5)制胜方式不同,ALPHA主要凭借快于人类250倍的速度决策速度调整最佳的战术计划来取得胜利,而Falco则凭借短期内超过40亿次的模拟对抗训练获得超过人类的驾驶水平。三、AlphaDogfight仅仅是个开头,自主空战还有很长的路要走像围棋、Dota2和星际争霸一样,深度强化学习以毋庸置疑的优势在AlphaDogfight系列比赛中战胜人类取得最后的胜利,但这种胜利仅仅局限在游戏和仿真模拟中,目前为止还没有深度强化学习方法在现实任务场景中取得类似成就的案例。相比仿真模拟环境下的空战,真实的作战场景涉及人-机-环三个复杂实体以及它们之间两两关系和三者之间复杂的相互作用关系,从场景封闭的简化数字环境到多域开放人机协同的现实对抗世界,人工智能空战还有很长的路要走。