1.2 博弈学习通信抗干扰的来源
面对通信抗干扰在新型干扰环境中面临的诸多挑战,本书采用博弈学习的思路,设计有效的通信抗干扰方法。
(1)传统的通信抗干扰方法难以满足新型干扰环境中的抗干扰使用需求。一方面,随着通信对抗与认知无线电以及人工智能等新兴技术的深度融合,干扰样式不断增加,智能化水平不断提升。例如,美军的认知干扰机、“城市军刀”以及自适应电子战行为学习等项目,都无一例外将智能干扰作为一种主要的攻击方式[41]。另一方面,随着无线技术的迅猛发展,无线业务需求日益增长,各种类型的无线设备密集部署,使得频谱资源更加紧缺,用户间互扰问题显得异常严重。因此,抗干扰决策需要面对智能干扰和同时存在外部恶意干扰与用户间互扰的新型干扰环境。传统的抗干扰方法难以灵活应对干扰环境的动态变化,智能决策能力不足。此外,传统的抗干扰方法,如跳频扩谱(Frequency Hopping Spread Spectrum,FHSS)、直接序列扩谱(Direct Sequence Spread Spectrum,DSSS)以及异步跳频(Uncoordinated Frequency Hopping,UFH)[42]等,频谱利用效率较低,难以在频谱资源比较紧张的场景中使用[43,114]。因此,亟需从新型干扰环境呈现的新特征和面临的新问题出发,深入研究高效的抗干扰方法。
(2)博弈论和机器学习技术的发展为研究通信抗干扰提供了理论支撑和技术支持。近年来,人工智能技术得到迅速发展,已发展为涵盖多学科的技术,如博弈论、博弈学习、强化学习等,这些理论和技术在无线通信领域的广泛应用为通信抗干扰提供了可借鉴的思路。将人工智能领域相关技术引入到通信抗干扰领域,赋予用户智能的决策能力,使得用户能够根据干扰环境的动态变化进行策略调整。面对电磁环境的日益复杂和电子进攻技术的不断进步,以机器学习为代表的人工智能技术将在通信抗干扰领域中表现出很强的生命力,提高通信抗干扰的智能化程度,将推动通信抗干扰进入新的发展阶段——智能抗干扰时代。博弈论和机器学习在通信抗干扰领域相结合,为新一代智能抗干扰技术的发展增添了活力。博弈学习抗干扰体系结构示意图如图1-2所示。博弈论[44]能够建模分析博弈参与者之间的竞争、冲突以及合作等相互关系,可用来分析建模用户和干扰之间的对抗行为,预测博弈均衡解,为分析求解通信抗干扰问题提供了一种理论框架。因此,博弈论为通信抗干扰提供了完美的理论分析框架,可以深入分析用户与干扰间以及用户间的对抗或竞争关系。考虑到通信抗干扰面临的技术挑战,机器学习方法(如强化学习、博弈学习)成为一种求解问题的有效工具,可在动态不完全信息约束条件下,通过历史信息或环境反馈对策略进行优化,采用试错的方式与环境进行不断交互,调整自身行为实现自身策略与环境的匹配。基于博弈论和通信抗干扰之间的天然联系,博弈学习在两者之间架起一座桥梁,为设计有效的通信抗干扰方法提供了一种新的途径。相应地,博弈学习通信抗干扰也成为通信抗干扰的一种新范式。
图1-2 博弈学习抗干扰体系结构示意图
一个非合作博弈可表示为一个三元组G={N,Sn,μn},其中,N 表示博弈参与者集合,Sn表示参与者n的策略集,μn表示参与者n的效用函数。纳什均衡(Nash Equilibrium,NE)是非合作博弈常用的稳态解,它意味着没有用户能够通过单方面地改变策略而提升效用[44]。除了纳什均衡,还有一些其他稳态解的概念,如相关均衡(Correlated Equilibrium,CE)[44]、演化稳定策略(Evolutionary Stable Strategy,ESS)[45]、Stackelberg均衡(Stackelberg Equilibrium,SE)[44]等。在众多的非合作博弈模型中,Stackelberg 博弈在抗干扰领域中具有独特的优势,其原因为:①干扰和通信用户属于不同类型的博弈参与者,它们具有不同的身份属性,Stackelberg博弈可以建模分析不同类型参与者(领导者和跟随者)之间的相互影响关系;②干扰为了获得更好的干扰效用需要学习通信用户的传输策略,或者通信用户为了有效应对干扰需要进行干扰检测,通信抗干扰存在一种天然的分层架构,而 Stackelberg 博弈可以很好地建模博弈参与者之间的分层行为特性;③在通信用户密集部署的场景中,抗干扰问题存在两个层面的竞争,即通信用户与干扰之间的竞争和通信用户间的内部竞争,而 Stackelberg 博弈能够同时建模表征这两个层面的竞争。此外,优化理论(如凸优化理论[46])以及学习方法(如强化学习[47]、博弈学习[38]等)为Stackelberg均衡提供了有效的求解途径。
多臂老虎机作为一种有效的在线学习方法,可在统计信息未知的条件下进行决策,能够实现“利用”(根据已有知识最大化收益)和“探索”(尝试新策略进一步提高知识)的折中[48-49]。它提供了一种统计信息未知场景中进行决策优化的数学架构,其中,它的臂(Arm)对应决策策略,如可用信道、发射功率等。在无线通信网络中,由于干扰动态占用信道以及信道衰落等因素,信道的可用状态动态变化。同时,估计信道的可用状态统计信息需要巨大的开销,并且可能存在误差。此时,多臂老虎机为有效的信道选择提供了一种可选的方案,每个信道可看作一个臂。
马尔可夫博弈[50-51]作为马尔可夫决策(Markov Decision Process,MDP)问题在多用户场景中的扩展。马尔可夫博弈在通信抗干扰领域具有独特的优势。①马尔可夫博弈可以表征干扰环境的动态变化特性。在干扰环境中,由于干扰活动导致信道质量在“好”与“坏”之间动态变化,而马尔可夫博弈提供了一种可在信道状态动态变化场景中进行决策优化的数学架构。②马尔可夫博弈可以表征用户间的相互关系,可根据效用函数的设计刻画博弈参与者之间的协作和竞争关系。根据回报函数的特征可分为完全协作、完全竞争和混合模型[52]。此外,多智能体强化学习[52]为马尔可夫博弈求解提供了有效的方法。
本书聚焦博弈学习通信抗干扰方法,针对通信抗干扰智能决策面临的难题和技术挑战,即对抗性、不完全性、不确定性、动态性、密集性和异构性等,综合运用博弈论、博弈学习、强化学习、超图等理论和技术,设计有效的通信抗干扰智能决策方法,着力为解决以下两个科学问题提供有效的思路。本书研究思路总体框架如图1-3所示。
图1-3 本书研究思路总体框架
(1)不完全、不确定和动态信息条件下的稳健决策。在干扰环境中,由于通信用户和干扰之间的对抗特性,以及无线环境固有的本质特征,难以获得环境和对方的完全信息,而只能获得部分信息。不确定是指环境的诸多参数是不确定的,如信道增益。为了应对不完全和不确定信息约束,贝叶斯博弈架构和学习方法(如强化学习、博弈学习等)是两种有效的解决方案。在贝叶斯博弈架构中,只需要知道状态分布信息,而不需要知道精确的信息,就可以对博弈参与者的效用函数进行统计意义上的优化,如数学期望。学习是另一种应对不确定和不完全信息约束的有效手段,根据与环境交互的反馈回报,实现自身策略与环境的匹配。动态是指环境的动态变化,如信道状态、业务需求等,并且统计信息未知。在这种情况下,学习提供了一种有效的解决方法,即通过与环境以试错的方式进行交互,通过“决策—反馈—调整”的方式获得最佳策略。
(2)复杂干扰条件下的有效决策。新型干扰环境中的干扰构成比较复杂,需要同时考虑通信用户间互扰和外部恶意干扰。因此,需要研究复杂干扰条件下的抗干扰决策,它需要同时应对通信用户间互扰和外部恶意干扰。为此,本书考虑了两种类型的处理方式:①将通信用户间互扰和外部恶意干扰通过一定的函数关系映射为广义干扰,再根据博弈模型的相关特性和博弈学习方法求解广义干扰最小化问题;②通过通信用户间协作机制,采用学习方法(如多智能体强化学习)对干扰行为进行学习,实现避开外部恶意干扰的同时消除通信用户间互扰。