A Neighboring Optimal Adaptive Critic for Missile Guidance

文章下载链接 https://download.csdn.net/download/qq_29675093/10941949

摘要 - 我们提出了一种基于适应性评估概念的导弹制导神经网络方法。该方法源于线性最优制导律的名义解和邻域最优控制律的使用。在神经网络训练中，没有关于目标机动动力学的假定（假定动力学模型未知）。我们讨论神经网络控制器训练问题，并将神经网络控制系统结果与从最优控制方程获得的结果进行比较。给出了神经网络控制器在参考条件下和目标机动扰动下模拟的数值结果。我们还展示了当模拟导弹飞行时，控制知识从评估器网络传输到控制器网络。

1.引言

寻的导弹制导具有悠久的历史和广泛的文献基础[1]。然而，随着电子技术的复杂性和飞机性能的进步，控制工程师继续寻求提高性能和扩大导弹飞行范围的方法。有各种各样的控制法则可供选择。这些指导方案的范围从假设恒定目标速度的经典技术到更先进的控制定律，其至少假定目标加速度的统计知识。这项工作的目的是展示基于人工神经网络最新进展的技术能力。这些技术将利用并行架构实现更高的计算吞吐量。我们展示了一个能够解决导弹制导问题的邻近最优自适应评估方法。
帕特里克等人[1]提供了一篇优秀的综述文章，比较了短程战术导弹的五类制导法。经典制导法则包括视线制导，追踪制导和比例导引制导。现代技术包括最优线性制导法则和基于差分博弈理论的其他方法。该综述简要介绍了这些方法，并概述了相关参考资料。
基于比例导引的制导法因其简单性而被广泛使用。在最基本的形式中，比例导引产生的导弹加速指令与视线角速率成正比[2]。对于零滞后制导系统，比例导引最小化了零点距离所需的积分平方控制力，假设目标的速度恒定[3]。如果目标加速，则可以将额外的项添加到比例控制率中，从而产生增强的比例控制律。这种方法的细节可以在Zarchan [4]的文本中找到。我们使用Fiske [5]描述的控制律作为基础，将我们基于神经网络的结果与使用最佳制导技术获得的结果进行比较。
现代制导控制法基于存在准确的交战模型的假设。目标加速度的建模是困难的，因为无法获得目标规避机动的真实知识。我们用于比较模型的运动模型将加速度作为指数函数，并假设机动时间常数是已知的。实际上，这些时间常数可能是未知的，而且指数模型可能不合适。 Balakrishnan指出，使用状态观测器或卡尔曼滤波器来估计目标加速状态可能会导致效果不佳[6,7]。我们寻求一种替代方法，该方法不对特定目标加速模型做出限制性假设。

已发表的文献包含许多关于人工神经网络（ANNs）应用于各种控制问题的参考文献[8]。例子包括控制机器人手臂[9-11]，灵活的空间结构[12,13]等。 Werbos描述了神经网络在控制和系统识别问题中的应用[14]。 Steck和Balakrishnan之前已经在最佳指导中检验了神经网络的使用[15]。用于控制的三种最广泛使用的ANN架构是通过反向传播方法[16]，小脑模型关节控制器（CMAC）[9]和Hopfield网络[17,18]训练的多层前馈神经网络。在这些方法中，反向传播和CMAC是非重复的，这意味着网络输出和网络输入之间没有反馈。另一方面，Hopfield网络包含反馈连接，并且出现稳定性问题。我们使用基于自适应评论家概念的前馈神经网络控制组件。
基于评估的控制系统的发展可以用三个阶段来描述。第一个是20世纪60年代发生的学习控制系统的研究。 Fu将学习控制系统定义为一种控制系统，该系统能够根据经验修改其行为，以便在存在不确定性的情况下保持可接受的性能[19]。 Sklansky描述了三个反馈循环的学习控制：控制器，系统标识符和指导器[20]。它是将Sklansky的学习控制与自适应控制架构区分开来的指导器。 Nikolic和Fu表现出类似的工作，只是因为他们允许指导器不完整的知识[21]。
学习控制的早期工作为基于评估的系统的第二阶段发展奠定了基础。孟德尔和迈凯轮引入了一个学习控制的子类，他们称之为强化学习[22]。在该子类中，用于评估控制系统性能的方法被并入系统中，并且学习控制系统的教师成为强化学习控制中的批评者。评论家对当前的环境和控制行为进行评估或批评，以便控制器可以在将来提供更好的控制措施。 Widrow，Gupta和Maitra在强化学习系统中使用神经类型元素，并进一步发展“与评论家一起学习”的想法。 Barto，Sutton和Anderson [23]将这些想法应用于使用简单神经网络元素的双组分自适应评论控制体系结构中。自适应评估器用于学习在线反馈，强化学习控制系统中平衡移动车上的杆。
最近，在神经控制的背景下，自适应性评估器的概念得到了进一步发展。 Werbos [24]将强化学习的自适应评论列为神经控制系统的五种主要范例之一。 Werbos还展示了使用反向传播来训练自适应评估器。他声称自适应评估器提供了动态规划的近似[25]。 Jameson实施了Werbos的反向传播评估器，并将其与早期的强化学习工作进行了比较[26]。 Sofge和White将自适应性评估器的想法应用于热塑性复合材料制造的过程控制[27]。学习控制的主要基本前提假设是平台的知识是未知的，必须由控制系统发现。相反，传统的最优控制理论强烈依赖于平台动力学知识和嵌入式随机过程模型。我们提供工作作为弥合这一差距的手段。

我们使用上面的评估体系结构作为邻近最优自适应评估的基础，并将反馈控制任务分解为两个子任务。基于观察或估计的平台状态，由控制器网络提供对已知标称轨迹的控制。然后，评估网络对控制器动作进行评估并提供补充控制信号。来自控制器和评估器的信号加在一起形成平台输入信号。使用标称轨迹上的最佳轨迹数据训练控制器网络，并且我们使用邻域最优控制技术[3]来形成用于评估网络的训练集。结果表明，这种双部分结构在反馈回路中存在随机扰动时表现出良好的行为。实际上，控制器和评估器网络映射都不需要在轨迹的每个点上都是准确的。在训练期间建立的评估器的随机性质产生了强大的控制系统。
邻域最优自适应评估体系结构在构建评估训练集时，从领域最优控制的使用继承了其随机行为。然而，神经网络控制结构产生额外的益处。神经网络使我们能够以平滑的方式调整反馈映射，以响应系统动态的变化或系统随机性的变化。当最佳反馈映射不是唯一的时，神经网络控制架构也可以工作。在这种情况下，我们通过网络训练和正常操作中的近似最优控制自动获得最小二乘曲线拟合。此外，我们可以简单地通过替换适当的网络参数来使用相同的基础神经网络来解决各种各样的控制问题。邻域最佳自适应评估器具有并行结构，这使得高速操作成为可能。
我们在邻近最优自适应评估器的表述中使用所有可用的问题信息。这与强化学习系统中使用的试错过程形成对比。因此，我们可以获得接近最佳性能，而无需进行许多试验，这些试验在导弹制导等应用中非常重要，我们只能尝试一次。这种性能的成本是需要事先了解有关平台动力学的更多信息。然而，我们注意到，通过在评估训练集的构造中近似邻近的最优控制，可以转换为强化学习案例。例如，当平台动力学未知且只能近似时，可能会这样做。 Dalton在他的博士论文中对本文所述的基于评估器的控制方法的使用进行了广泛的研究。论文[28]。
在这项工作的其余部分，我们讨论了基于评估的神经网络方法在导航制导问题中的应用。导航问题在第2节中定义。我们的解决方案中使用的神经网络块的拓扑和训练在第3节中描述。表征神经控制系统性能的仿真结果包含在第4节中。我们总结第5节中有关进一步工作的建议。

2.问题定义

本节的内容描述了寻的导弹拦截问题，即确定导弹到达目标点的适当控制信号的确定。从视线，追踪和比例导航到基于最优控制理论和差分博弈理论的更先进技术，存在许多解决该问题的方法[1]。本节首先介绍问题的状态空间描述，然后回顾线性最优制导控制律和邻近最优控制律的发展。

2.1 状态空间描述

在导弹制导问题中，短程空对空导弹与机动目标交战。为简单起见，所有讨论都假设在平面上运动。状态向量X由六个部分组成：导弹相对于目标的相对位置，x和y，以及相对速度 $v_x$ 和 $v_y$ ，以及目标加速度 $a_{tx}$ 和 $a_{ty}$ ，

包含状态X和输入u的状态空间模型的系统矩阵A和输入矩阵B为：

其中 $a_x$ 和 $a_y$ 是机动时间常数，

在我们的工作中，我们假设尽管通过使用观测器或估计器控制系统已知相对位置和相对速度状态，但目标加速状态不可用。参与模型的状态方程由下式给出

2.2 线性最优制导律

当目标加速度已知时，可以从线性最优制导率[5]确定引导命令，具有性能指标

其中是脱靶量的平方，

$\gamma$ 是标量控制加权，u是导弹控制加速度。该制导律基于假设相对距离率不变而计算出的剩余时间，

其中R是相对距离，V是目标和导弹之间的相对速度。然后通过具有时变增益矩阵的状态反馈获得最佳导弹控制加速度，

对于控制能量增益 $\gamma$ ，假设值为 $10^{-4}$ 。线性最佳反馈控制定律是

注意，如果目标没有加速，则可以仅使用增益C1和C2以及相对位置和速度来确定最佳控制。给定（14）的反馈控制律，我们可以选择标称初始条件X（0），并产生相应的标称最佳状态轨迹。我们接下来制定一个领域最优控制律[3]。邻域最优控制可用于基于来自目标加速度，测量噪声和干扰的已知标称最佳轨迹的小偏移来提供控制中的修改。

2.3 邻域最优控制

邻域最优控制问题的解决方案涉及最小化性能指数（5）的二阶变化，由下式给出

约束条件

指定为 $\delta \dot{X}(t_0)$ 。请注意，此问题在形式上与原始最小化问题相同，只需更改变量以适应变化 $\delta X(t)$ 和 $\delta u(t)$ 。控制的变化量是

下一部分描述了用于实现具有神经网络互补控制的系统的神经网络块的架构和训练。我们使用标称最优轨迹来训练反馈回路中的控制器神经网络，并且我们使用邻域最优解来训练评估网络。

3.神经网络架构和训练

在基于评估的控制架构中使用前馈神经网络是本文的主要关注点。本节的内容定义了在本研究的其余部分中使用的神经网络术语。还介绍了神经控制系统的体系结构和训练方法。

3.1 假定神经网络结构

要讨论的神经网络类是具有三层处理元件的前馈神经网络。输入层使用由下式给出的对数激活函数

两个隐藏层使用sigmoid函数，

输出层处理元件具有线性激活函数

通过单个网络层的信号变换很容易根据三个矢量变换的组合来可视化。设层输入矢量由 $[1\: x]^\top$ 给出，其中 $x$ 这里表示输入的矢量，第一层中的常数值1用于向隐藏层元素的输入添加偏差。令 $z$ 表示中间向量，并且令 $W$ 为权重和偏差的矩阵;然后有

其中偏置项包含在矩阵 $W$ 的第一列中。激活函数 $f$ 的向量然后完成向层输出向量的变换，

其中 $y_i$ 是层输出矢量的分量， $f_i$ 是对角变换 $f$ 的分量。

3.2 神经控制系统

控制系统的框图如图1所示。它是一个闭环设计，其中平台表示（1） - （4）中给出的导弹目标交战动力学的动态。控制系统中的两个神经网络具有与上面定义的相同的前馈结构。控制器网络响应平台输出信号产生控制输出。控制器网络本身提供到工厂的状态反馈映射，并且在给定的标称最佳轨迹上进行训练。

通过匹配来自标称解的最优状态向量和最优控制向量来构建控制器网络训练集。将变换的标称状态向量和相应的控制向量的指定数量的副本随机排序以形成训练集。控制系统设计方法不依赖于训练方法。我们使用向后误差传播，因为它简单和广泛使用。
评价网络之所以如此命名是因为它评估了控制器的性能。评价网络的目的是监控平台的当前状态以及控制器对该状态的响应。然后，它产生校正信号，该信号增强控制器网络的校正信号，以产生对平台的修改的控制命令。使用来自邻近最优控制的数据训练评论网络。我们现在更详细地讨论这个问题。
在时间 $t$ 的控制器输入信号是 $X^\ast(t)+\delta X(t)$ ，其中 $X^\ast(t)$ 是给定标称轨迹上的最佳状态向量，并且 $\delta X(t)$ 是状态向量的变化。然后控制器产生 $u_c(t) = u^\ast(t)|\Delta u(t)$ 其中 $u^\ast(t)$ 是对应于 $X^\ast(t)$ 的最佳控制。控制器输出的第二项 $\Delta u(t)$ 是 $u(t)$ 的变化量，因为神经网络控制器通常不会产生远离其训练的标称轨迹的最佳控制。新状态 $X^\ast(t)+\delta X(t)$ 的控制器网络映射中的错误包含在 $\Delta u(t)$ 中。
评价网络的目的是从控制器输出中删除术语 $\Delta u(t)$ ，并在控制中加回最佳变化 $\delta u(t)$ 。因此，获得了来自状态向量分量X（t）+ bX（t）评价输入向量和来自控制器网络的建议控制动作。期望的评估器输出向量是

为了产生评估器训练集，我们从采样标称状态和控制函数开始，并在（17）中给出控制变量的表达式。在每个采样时刻t，我们选择均匀分布的 $\delta u(t)$ 和 $u(t)$ 并计算评论网络输入。还计算相应的评论输出向量。使用这种技术，我们可以根据需要选择尽可能多的训练集示例。必须选择 $\delta X(t)$ 和 $\Delta u(t)$ 的平均值和方差，以覆盖预期平台运行的状态空间和控制空间的区域。
基于前面的发展和从名义轨迹获得的数据，我们现在可以构建评估器训练集。用于创建单个训练集示例的过程仅需要选择随机扰动， $\delta X$ 和 $\Delta u$ 。然后可以使用（17）计算对应于 $\delta X$ 的对应变化 $\Delta u$ 。然后使用（23）找到所需的评估输出。
该过程在设计上很简单，但在实践中可能会出现困难。通过在交战中随机选择X和 $\Delta u$ ，有可能得到一对需要不切实际的高校正 $\delta u$ 。在这种情况下，我们的评论员训练集可以包含所需的网络输出向量，用于在实际参与中很少发生的情况。结果，批评网络可能偏向于这些罕见的情况，并且不能为经常发生的情况提供准确的表示。因此，仔细选择训练集示例非常重要，现在我们考虑一种适用于此类问题的方法。
我们从零均值均匀分布中得到 $\Delta u$ 的分量和状态变化 $\Delta X$ 的相对速度分量。 $\delta X$ 的相对位置分量均匀分布，均值为零，但方差与状态的相应位置分量成比例。这种状态下随机变化的选择具有在接合早期产生更宽覆盖区域的效果，以及接近截距的更紧密，更密集的覆盖区域，其中准确性是重要的。我们还限制评价输出信号，以便不生成不合理的大型训练样例。
出现在平台输出端和图1中控制器网络输出端的夏季，以便可以将干扰注入控制系统进行稳健性测试。两个矢量信号 $m(t)$ 和 $a(t)$ 均为零均值，并且可以从任意分布中提取。特别是， $m(t)$ 提供了一种将噪声插入系统以反映状态估计误差的方法。在这种情况下，评论者和控制器网络都使用测量的状态向量来计算控制信号。另一个噪声信号 $a(t)$ 可用于模拟控制器网络映射中的致动器噪声或不准确性。

4 数值结果分析

我们通过使用标称和邻域最佳轨迹数据描述控制器和评估器网络的离线训练来开始本节。然后，我们展示模拟，将有和没有评估网络的神经网络控制系统的表现与使用导引律获得的表现做了对比。我们还显示了允许的初始状态区域，这导致了可接受的脱靶量。我们通过演示基于评价信号的在线控制器训练来结束本节。

4.1 控制器和评估器网络训练

为了构建控制器和评估器训练集，我们首先选择标称轨迹的初始状态

然后我们基于具有时间步长的四阶Runge-Kutta积分运行模拟， $\Delta t=0.2\; \textup{s }$ .在每个时间步计算状态反馈控制。在每个步骤中假定控制是恒定的。当相对位置大小的变化率改变符号，即已经达到最小距离时，模拟结束。此时，我们退回到前一个时间步并将采样间隔除以因子200.然后我们再次向前积分以准确地确定最小距离。该最小距离称为未命中距离（脱靶量）。
来自标称状态和控制轨迹的数据用于形成控制器网络训练集。该问题的控制器网络包含四个输入元素，两个隐藏层每个有六个隐藏层元素，以及两个输出元素。控制器网络训练集是通过从标称轨迹上的每个采样时间中随机排序20个数据副本来构建的。在网络训练期间执行的后向错误传播权重修改的数量是500,000，学习率设置为0.0005并且动量项设置为0.3。控制器映射和训练集数据中输出信号之间的绝对误差小于 $0.1\textup{ ft / s}^2$ 。我们现在讨论评估器网络的训练。
我们为评估器训练集共生成4949个训练点，使用（23）为标准轨迹上的每个数据点生成101个训练点。对于一组，扰动 $\delta X$ 和 $\Delta u$ 被设置为零，使得标称轨迹本身包括在训练集中。 4900个示例以随机顺序放置，并且标称轨迹上的其余示例在交替训练迭代中呈现给网络。需要非常小的学习率， $5\times 10^{-6}$ ，以确保在训练期间的收敛。我们选择动量项为0.3并训练500万次迭代。在标称轨迹训练之后，评估器网络输出组件的绝对误差小于0.76。

4.2 神经网络制导结果

控制器/评估器和控制器配置都产生与标称轨迹上的最佳信号非常匹配的信号，如图2所示。交战中控制器/评估器系统的控制成本高于其他配置的控制成本。这是因为评估网络的相对速度输入分量中的噪声在截距点附近具有更大的干扰效应。评估器映射的准确性与可接受导引的可能初始状态范围之间存在权衡。由于性能指标中的控制权重因子很小，因此控制器/评估器体系结构产生的控制偏差不会显著改变交战的总成本。

表1中示出了三种架构的表现对比。在三种情况中的每一种情况下，脱靶量小于一英尺。对于三种配置，状态轨迹基本相同，如图3所示。控制器/评估器和最佳架构的性能指标相近，仅有控制器配置的成本略高。

为了确定状态空间中的区域以便成功操作，我们考虑状态空间的投影，假设状态的初始相对速度分量保持固定。假设目标加速度为零。然后我们改变初始相对位置状态以找到二维区域的边界，这导致可接受的脱靶量。该测试通过从标称初始条件开始并沿着15度间隔的径向搜索直到距离x-y平面中的标称初始位置500ft来执行。

测试的初始相对位置导致脱靶量小于10 ft的范围，如图4所示。我们使用控制器配置执行相同的测试。在这种情况下，对于在标称初始相对位置的50英尺范围内的点，唯一成功的运行发生在0度和180度的径向上。控制器配置在标称轨迹上提供可接受的性能，但对于远离控制器训练集的状态空间中的区域不能很好地执行。控制器/评估器配置的终止区域是锥形的，反映了用于选择评估网络训练数据的方法。可以通过更广泛的训练和更大的训练集来生产更大的杀伤区域。

针对不加速目标的测量噪声进行稳健性测试也是针对标称轨迹进行的。在这项研究中，我们在沿着轨迹的每个采样时刻向状态向量的相对位置和速度分量添加零均值高斯噪声，标准差为20。我们展示了针对（确定性）最优反馈控制律（14）控制器/评估器和控制器架构执行的60次蒙特卡罗模拟运行。表2中显示了比较性能指标和飞行时间给出的脱靶量和总成本的实验结果。神经控制器/评估器配置提供了最佳性能，控制器的配置最差。最佳控制律配置的缺失距离平均比控制器/评估器配置大约大5英尺。这显示了控制器/评估器设计的固有稳健性。

4.3 在线控制训练

我们通过证明控制器可以使用评估器作为指导者逐步训练来结束对神经训练的讨论。在单个训练课程中使用以下程序。首先，我们选择独立，零均值，方差一，正态分布的控制器权重。然后我们在修改控制器权重之前使用控制器和控制器/评估器配置执行模拟。保存这些模拟的结果以评估训练课程。实际的在线训练是针对几个试验过程中的一组特定初始条件进行的。在每次试验期间，我们使用BEP训练过程中评估器的输出来修改每个样本瞬间的控制器权重。每次试验都会持续到距离变化率符号变化，即已达到最小距离。在下一次试验开始时使用由给定试验产生的控制器权值，以便控制器在每次通过时收集经验。在训练试验期间，评估器的输出不直接应用于平台。在在线训练课程结束时，我们再次在模拟运行中测试控制器和控制器/评估器配置的性能，控制器权值固定，以查看控制器是否已经学习。我们认为如果控制器本身能够提供控制，使脱靶量小于10英尺，那么训练是成功的。

在从名义初始条件（24）开始的一系列60个独立的在线训练session中，我们观察到以下结果。首先，在所有session中，控制器/评估器配置提供控制，导致在线控制器学习之前和之后小于1英尺的脱靶量。由于控制器训练，60次试验的平均脱靶量从0.1970英尺减少到0.0970英尺。我们还注意到，在60个session中，未经训练的控制器网络在没有被评估器网络帮助的情况下产生平均脱靶量258英尺的轨迹。在这种情况下，未经训练的控制器的最小脱靶量是29英尺。在每个训练session中，进行十次试验。我们观察到所有60个session后的表现都有所改善。总共34个训练session成功，训练后控制器配置的平均脱靶量为20英尺。

60个训练session中有10个的脱靶量在图5中以条形图显示。条形图上每个session的第一个和最后一个小节分别代表控制器训练前后的结果。当控制器正在训练时，每个session的条是试验结束时的脱靶量。在session 1中，训练控制器的脱靶量为159英尺。这是所有60次试验中最大的最终脱靶量。尽管第一个session最终失败，但我们注意到在线训练过程中有所改善。如果我们继续进行更多学习试验，我们可以生产出更好的控制器网络。在session 2 中，脱靶量在session的后期增加。在这种情况下，最好先提前终止学习session。降低学习率也可能产生更好的结果，但会延长训练过程。我们分别在图6和图7中显示了session10的状态和控制轨迹。控制器配置在训练后产生几乎恒定的非最优的控制，脱靶6英尺。

可以将评估器用于控制器网络的在线训练并重新执行学习方法进行比较。它不是严格的监督学习方法，因为评价信号仅是任何特定点所需校正的近似值。我们还观察到，由于控制器网络在强化学习中收集的先前经验，通过未命中距离测量的性能得到改善。另一方面，我们提出的方法取决于训练好的评价网络的存在。一个真正的强化学习系统应该能够收集经验而不是内置。如果我们能够找到一种方法来开发基于系统和控制器在操作期间获取的信息的评估网络，我们将有一个学习控制系统。这仍然是研究的主题，需要一种执行系统识别的方法，并且需要一种以近似最优控制的近似形式对该信息进行编码的方法。

5 结论

我们提出了一种基于邻域最优自适应评估器概念的神经控制设计方法。该技术将控制任务分解为两个子任务。第一个由控制器网络提供，该控制器网络在给定的标称轨迹上提供接近最佳的控制。第二个任务是对控制器输出进行校正，以补偿控制器映射和非标称条件下的不准确性。作为这种分解的结果，我们可以提供反馈控制，其近似于围绕所选择的标称轨迹的区域内的最佳控制。控制器/评估系统在测量噪声方面是稳健的。此外，我们已经显示初步结果，表明评估网络可用于训练控制器网络。进一步的研究将侧重于扩展在线学习方法，以便可以容纳状态空间中更广泛的区域。我们还希望能够实现自我改进算法，该算法允许在面对目标机动时对控制系统进行再训练。