基于博弈论的无人艇探查策略研究

时间：2023-06-11 20:20:17　来源：雅意学习网本文已影响人

郭苗,徐琰锋,陈铢蕾

(上海船舶电子设备研究所,上海,201108)

近几年来,随着水下小目标无人装备的现代化和智能化程度的发展,其对我国港口要地的侦察破坏愈加频繁,严重威胁我国海域安全。典型小目标无人装备如无人水下航行器(unmanned undersea vehicle,UUV)等具备自主探测、感知、分析和决策的能力,主要执行的任务包括监视侦查、突袭、海底地形测绘、传感器植入以及物资补给等[1]。

敌方小目标无人装备行动具有规律性,能根据我方行动进行决策,在发现我方靠近时可以采取规避动作,不利于追踪。此外,常规声呐在探查小目标时,因为敌方目标强度弱,且行进过程中相对于声呐的方位角度起伏性较大,很难探查,所以对敌方目标的探测是港口要地防御的难题。现有的港口近程安防系统如磁栅栏、固定式声呐等虽然能起到防护作用,但其无法区分鱼群与目标,虚警率较高。为此,文中基于目标进入港口要地执行侦察任务的场景,通过固定式声呐获取数据,引入无人艇(unmanned surface vehicle,USV)对目标进行近距离探测。敌方目标需要向港口要地靠近并避开我方的USV,我方USV 需要尽可能接近目标以便探查或拦截,由此双方形成对抗形态。

USV 在探查过程中,为了能快速接近目标且不被发现,需要制定合理的探查策略。现有的无人平台探查策略研究方法主要有如下3 种。1)设定探查策略,建立搜潜模型[2]。无人平台通过获得的目标信息,建立相应探查模式如扩展圆形阵、扩展螺旋阵、扩展直线阵等,然后通过蒙特卡洛方法验证双方距离、航速等因素变化时,不同探查模式对探查结果的影响,由此选出最佳探查模式。2)建立水声传感网络系统[3]。提前布放传感器,利用节点感应形成水下监视网,根据反馈的目标信息,由多个UUV 组成编队,自上而下接力探测形成对应探查策略。3)利用人工智能强化学习寻找最优探查策略[4-7]。依据建立的人工神经网络模型,在无人平台任务中预测其行为并制定策略,实现最优决策。

上述方法需要试验数据足够充足,但是由于水下环境的复杂性以及双方态势的不确定性,需要不断耗费人力、物力去获取大量数据;此外,上述方法没有综合考虑敌我双方的行动方式,我方无法根据敌方行动及时修正策略。对此,有研究者引入博弈论进行建模。博弈论是研究多个个体或集体之间在对局中利用相关方的策略而实施对应策略的学科,它考虑博弈中个体的预测行为和实际行为,并研究各方的优化策略,依赖的试验数据较少,被广泛应用于军事研究。

文献[8]研究了多无人机协同作战问题,介绍了以博弈论为基础的算法子系统,完成了一定态势下敌我双方的作战策略求解;文献[9-11]建立了无人机攻防对抗问题的不完全信息动态博弈模型,利用零和博弈求解方法或粒子群算法求解得到混合策略纳什均衡解,即最优策略序列;文献[12]将反映敌方决策态度的多个博弈子情景综合得到全时域情景,通过分析各个情景的纳什均衡预测敌方采取的均衡策略。

文中通过固定式声呐获取一段时间内敌方目标的行驶路径,利用粒子滤波方法预测一段轨迹,而后建立USV 与目标的博弈模型,模拟双方在每一时刻的决策,随后用算例仿真USV 与入侵目标的接近过程,找到USV 的目标点与探查策略,最后通过目标的实际轨迹验证目标点以及探查策略的准确性。

USV 探查敌方目标的过程可以看作二人零和博弈过程,双方只有一方能获胜,即USV 成功探查敌方目标或者敌方目标逃脱。

1.1 博弈模型

博弈模型中包括参与者、行动策略集以及支付函数,每项具体含义如下。

参与者N: {USVr,敌方目标b};

行动策略集S: 包括USV 的速度变化和角度变化。

1)速度变化: {加速,减速,不变}(每次变化0.1 m/s,速度范围为0～1.6 m/s);

2)角度变化: 以USV 现在的位置坐标为原点,横、纵坐标与以固定式声呐为原点建立的直角坐标系平行。在4 个象限中,可选的角度为{0°,15°,30°,45°,60°以及一个可按照实际情况调整的角度θ}。角度示意图如图1 所示。

图1 角度变化示意图Fig.1 Schematic diagram of angle change

支付函数fr: 当我方选择第i种行动策略,敌方选择第j种行动策略后,可以计算得出我方USV的支付值fr(i,j)。

1.2 态势函数

不同行动策略组合对应的支付值表示采取该策略组合后形成的对抗态势对我方的有利程度,支付值越大表示对我方越有利。因此,支付值应该以对抗态势为依据,通过建立态势函数评估不同态势对我方的有利程度。文中的态势函数考虑敌我双方距离和相对角度。

1)距离优势函数

设我方初始位置坐标为(xr0,yr0),敌方初始坐标为(xb0,yb0),则有

其中,d表示r与b的直线距离,考虑到USV 携载声呐可探测的极限距离,文中以dmax作为最远距离进行归一化处理。对于USV 来说,d越短,距离优势函数Sd越大,即越有利于我方USV 探查目标。

2)角度优势函数

USV 携载的声呐探测范围就是以行驶方向(基准线)为对称轴的αmax扇面(见图2)。将USV 与目标连线形成向量,分析该向量与USV 行驶方向向量的夹角。当图中目标1 的夹角α1＞αmax/2时,目标不在探测范围,USV 无法查证目标,角度优势函数为0;当目标2 的夹角0 ≤α2≤αmax/2时,目标在探测范围内,USV 可以查证目标,且夹角越小,查证效果越好。

图2 无人艇可探测范围Fig.2 Detectable range of USV

由此,角度优势函数表达式为

从式(3)看出,随着 α不断减小,角度优势函数Sα越来越大,当α=0时,达到最大值1。

综上,给出博弈前的态势函数

其中,ε1,ε2为权重系数,且满足ε1+ε2=1,具体取值可以根据实际情况调整。

随后,USV 选择第i个行动策略,目标选择第j个行动策略,设行动后USV 和目标的位置坐标为(xr,yr)和 (xb,yb),可以计算得出此时的态势函数S2。则我方支付值为

对应不同的行动策略组合有不同的支付值,由此得到我方USV 的支付函数。每次决策时,USV根据敌方的行动,选择使得自己支付值最大的行动策略进行实施。

1.3 探查策略

根据USV 携载的声呐及摄像头识别范围,假设目标与USV 的距离在Krb范围内时可被成功探查。基于此，文中设定若USV 在某一位置进行查证时，目标一定会进入USV 查证范围，就称该查证位置为目标点。显然,目标行驶路径周围的点都满足该条件,因此目标点不唯一。

文中根据USV 行动机制共设定3 种探查策略。

1)迎击策略: 该策略是向目标驶来方向的正前方靠近,主要探查到目标的首部位置,我方可能会在目标的探查范围内,该策略行驶路径最短,但在行驶中,目标容易发现我方靠近从而采取规避动作,导致目标丢失。

2)侧向策略: 该策略是从侧边向目标靠近,主要探查到目标的侧向位置,可以获得较多目标特征,便于判断目标种类,该策略路径适中,同时可以避免USV 行驶中产生的尾流对固定式声呐识别目标行驶轨迹产生影响。

3)尾追策略: 该策略采取绕远方式,从目标后方靠近,行驶路径最长,但在行驶过程中避开目标,不易被发现,方便追踪处置。

当3 种策略都可以按时接近目标点时,为了避免目标发现USV 从而采取规避动作,优先选择侧向或尾追的隐蔽策略。其中,侧向策略主要用于识别目标,尾追策略主要用于跟踪目标。

3 种探查策略见图3。目标在报警点时,固定式声呐发现目标,随后开始追踪记录目标轨迹,同时我方USV 接收指令前往目标点;蓝色线为目标的行驶轨迹,红色线为目标采取不同策略时的行驶轨迹;当目标行驶在目标点附近时,我方USV 采取不同策略,相对于目标的位置也不同。

图3 探查策略图Fig.3 Diagram of detection strategies

文中主要以到达目标点时USV 与目标的相对位置来分辨探查策略。将目标与USV 连线形成向量,根据该向量与目标行驶方向的夹角大小判断策略。如图4 所示,设目标行驶方向与USV 连线方向的夹角为 α,当α ≤30o时,USV 在目标的正前方,能够探查目标的首部方向,认定为迎击策略;当30o＜α ≤120o时,USV 在目标的两侧,能探查到目标的侧向位置,同时能保证接近过程不在目标探测范围内,认定为侧向策略;当120o＜α ≤180o时,USV 在目标后方,认定为尾追策略。

图4 探查策略与夹角对应图Fig.4 Diagram of detection strategy and angle

粒子滤波方法是通过一组具有权重的随机样本(粒子)来表示随机事件的后验概率,从含有噪声或不完整的观测序列估计出动态系统的状态。该方法在非线性系统表现出的优越性使得其被广泛应用于雷达跟踪、全局定位等方面。

2.1 粒子滤波方法

粒子滤波方法在t=0 时对粒子进行初始化,随机生成粒子并设置权重。然后重复以下步骤: 预测—更新粒子—权重—重采样—输出。每一步具体过程如下。

1)预测。根据系统的变化过程,预测各个粒子的状态。

2)更新粒子权重。根据观测值更新粒子的权重。假设观测值为(x,y),其噪声为高斯分布,第i个粒子的坐标为(xi,yi),则其权重的计算公式为

其中,dist是第i个粒子与观测值的距离,权重公式中R为观测值的协方差。所有粒子权重计算完后,对权重进行归一化处理。

3)重采样。复制一部分权重高的粒子,同时去掉一部分权重低的粒子。考虑第i个粒子,先产生1 个随机权重,从第1 个粒子权重开始相加,若一部分连续粒子的权重之和能够大于随机权重,就把权重之和中最后1 个粒子对应的位置赋值给第i个粒子。该方法如同转转盘,按照权重比例对转盘进行分割,当某个粒子权重较大时,产生的随机权重落在相应区间的概率就大,被复制的概率也较大。此外,需要说明的是,这样的重采样过程不是都复制权重大的粒子,也有可能复制权重小的粒子,在一定程度上保证了粒子的多样性。

4)输出。通过粒子的几何中心位置确定当前的状态估计值。假设共有N个粒子,第i个粒子的坐标为(xi,yi),则所有粒子的几何中心位置坐标为

最后通过不断重复上述过程直到某一时刻T终止,由此得到粒子滤波估计值的变化过程。

2.2 预测轨迹过程

通过固定式声呐获取目标在一段时间内的行动轨迹,数据形式为目标相对声呐的(方位,距离)。为方便计算,以声呐为原点,声呐图像的0°方向为x轴正向建立直角坐标系,将(方位,距离)转换为一系列的xy直角坐标。然后以真实轨迹为依据,用粒子滤波方法对xy坐标进行预测,得出目标后续的可能行驶轨迹。

以下述轨迹为例进行计算(该轨迹为200 s 真实试验数据)。如图5 所示,目标在(-99.65,-468.80)处被固定式声呐发现,随后持续追踪。目标为了不被发现,采用规避动作,故行动轨迹呈“S”型曲线。

图5 目标轨迹图Fig.5 Diagram of target trajectory

取前30 s 真实轨迹数据,用粒子滤波方法预测40 s 数据,然后将其与真实轨迹进行对比,结果如图6 所示。图中蓝色线为采用粒子滤波方法拟合实际轨迹的结果,蓝色*为粒子滤波方法预测出的40 s 轨迹,是目标的可能行驶方向,此处近似于线性运动。通过对比可知粒子滤波方法对线性轨迹的拟合与预测效果较好。

图6 粒子滤波预测与实际轨迹图(70 s)Fig.6 Diagram of particle filter prediction and actual trajectory (70 s)

下边对目标的“S”型轨迹进行预测,仍以前30 s 真实数据为依据,预测120 s 数据,然后将其与真实轨迹进行对比,结果如图7 所示。

图7 粒子滤波预测与实际轨迹图(150 s)Fig.7 Diagram of particle filter prediction and actual trajectory (150 s)

由图7 看出,粒子滤波方法预测的结果整体与目标的“S”型轨迹基本吻合,只在转弯部分与实际轨迹有一点偏差,但通过验证,误差在可接受范围内。

综上所述,用粒子滤波方法对目标的轨迹预测与实际轨迹有较好的拟合效果。后续在仿真试验中,设定每隔30 s 重新读取实际数据进行预测,以此减少预测偏差对博弈结果的影响。

设敌方目标从远处驶来,固定式声呐发现目标并报警,随后将不断追踪的目标位置向USV 反馈。USV 根据位置信息不断向目标靠近,完成探查。通过建立直角坐标系,设定我方USV 初始位置为(0,-100)m,初始速度为1 m/s(一般USV 速度为2～3 kn);敌方目标初始位置为 (-99.65,-468.83)m。

3.1 支付函数构建

建立博弈模型,参与者集合为{我方USV,敌方目标},策略集与前述相同。根据已知条件计算博弈前的态势函数S1。

1)距离优势函数

根据固定式声呐可探测的极限距离,选取dmax=1 000m,则距离优势函数为

2)角度优势函数

USV 携载声呐的水平探测角度αmax=130°,设我方USV 的初始方向向量为(0,-100),敌我双方连线的向量为(-99.65,-368.83)(敌方初始位置与我方初始位置的差值),后续USV 行驶方向定义为当前时刻与前一时刻位置的差值。

对应的夹角 α和角度优势函数为

态势函数的权重系数可根据实际情况调整,文中更注重距离,故取系数为ε1=0.85和ε2=0.15,则博弈前态势函数S1=0.76。然后假设USV 选择策略组合{加速,向第3 象限的30°方向前进},USV速度变为1.1 m/s。相应的位置横纵坐标变化由三角函数计算得出,则下一秒位置为

再从固定式声呐处读取目标下一时刻的位置信息为(-98.59,-467.83),由此可得博弈后态势函数S2=0.57。则策略组合{加速,向第3 象限的30°方向前进}对应的支付值为fr=S2-S1=-0.19。该支付值为负表示USV 采取对应策略后,我方不好探查目标,双方对抗形势比博弈前更差。

同理,可以计算其他策略组合对应的支付值,而后USV 根据敌方行动选择支付值最高的行动策略实施,随后双方进入下一时刻博弈,以此类推。

每次试验读取目标30 s 最新轨迹数据,并用粒子滤波方法预测120 s 数据,然后USV 依据该150 s 数据不断决策,向目标靠近寻找目标点。算法设定若未找到目标点,则输出USV 博弈30 s后的位置坐标,以该点为初始条件,读取新的数据重新预测博弈;若找到目标点,则验证目标实际轨迹与预测轨迹偏差大小,若偏差大则输出USV 30 s后的行驶点重新预测博弈,若偏差小则输出目标点和对应的探查策略。

3.2 双方对抗过程

仍以2.1 节中试验数据为例模拟双方的博弈对抗过程。目标的第1 组30 s 数据读取后,双方在120 s 时间内的对抗情况如图8 所示。

图8 双方博弈图(120 s 内)Fig.8 Game image between both sides(within 120 s)

图中,红色实线为USV 行驶轨迹,蓝色实线为目标实际轨迹,蓝色虚线为预测轨迹。此时未找到目标点,则输出USV 在30 s 之后的位置坐标为(-3.99,-133.47)m。

然后利用目标新轨迹数据预测博弈(对抗图与图8 类似,此处不再赘述),因为两者距离较远,未找到目标点,试验输出30 s 后USV 位置坐标为(-11.30,-166.16)m。利用新数据预测博弈得到结果如图9 所示。

图9 利用新数据预测博弈得到的结果Fig.9 The predicted results of the game based on new data

图中绿色点为找到的目标点,其坐标为(-59.46,-310.90)m。在预测轨迹,最初目标以直线形式前进,USV 采用迎击方式靠近;随后目标执行转弯动作,为防止被目标发现,USV 采取绕远方式。在到达目标点时,USV 在目标后方,则输出探查策略为尾追策略。

将实际轨迹(图中绿色线)与预测轨迹对比得到图10。

图10 实际轨迹与预测轨迹对比图Fig.10 Comparison between actual trajectory and predicted trajectory

采用粒子滤波方法对目标轨迹进行预测,然后引入博弈模型模拟敌方目标进入我方固定式声呐可探测范围后,USV 不断接近目标的过程,最后对双方的对抗过程进行仿真研究。由结果可以看出,仿真得到的目标点与实际轨迹数据较为接近,探查策略能帮助USV 以最合适的方法接近目标而不被发现,由此验证了文中方法对无人平台近距离查证可疑目标的适用性。

从试验结果可以看出,粒子滤波方法虽然能较好的拟合“S”型曲线,但在实际操作时需要不断调整相关参数。文中目标的轨迹主要为直线型或“S”型,y坐标变化趋势一般为递增,x坐标变化趋势为先增大后减小或者先减小后增大,通过粒子滤波方法和不断修正可以得到较为准确的预测。但在实际中目标可能会采取更加复杂的路径,后续将对粒子滤波方法进行改进,使得其对目标轨迹的预测更为准确。

猜你喜欢声呐敌方探查航空声呐浮标的水下减振系统研究舰船科学技术(2022年20期)2022-11-28探索大洋的“千里眼”——声呐中学生数理化·八年级物理人教版(2022年9期)2022-10-24少林韦陀十八手少林与太极(2022年6期)2022-09-144打5，敌方还剩几个人？趣味(数学)(2022年3期)2022-06-02冀西北三马坊热储构造探查的新认知河北地质(2021年1期)2021-07-21煤矿常见隐蔽致灾因素及其探查技术分析矿产勘查(2020年11期)2020-12-25一种便携式侧扫声呐舷侧支架的设计及实现海洋信息技术与应用(2020年3期)2020-08-24声呐小学科学(学生版)(2019年10期)2019-11-16水果大作战儿童时代·快乐苗苗(2018年7期)2018-09-03杨家圈遗址水田遗迹探查东方考古(2018年0期)2018-08-28

推荐访问:探查策略博弈论