多智能体强化学习非同步

转载

jimoshalengzhou 2024-09-05 08:17:47

文章标签 多智能体强化学习非同步 matlab 无人机参考文献状态方程 文章分类 机器学习人工智能

多智能体系统的一致性是指系统中所有智能体都最终收敛至一个相同的状态，一致性是多智能体系统能否完成协同控制任务的关键条件之一。多智能体系统在通信拓补为有向树的条件下便可实现一致性。本文将在多智能体一致性理论的基础上，研究具有一般线性模型的多智能体系统无领航和“领航-跟踪”一致性控制问题。

1、问题构建

考虑连续时间高阶线性多智能体系统，系统的状态方程如下：

$\boldsymbol{\dot{x}_{i}(t)=Ax_{i}(t)+Bu_{i}(t) \qquad i=1,2,...,N }$

其中下表

$\boldsymbol{i}$

表示第i个智能体；

$\boldsymbol{x_{i}(t)}$

表示系统的状态变量，

$\boldsymbol{u_{i}(t)}$

为系统的控制输入量，

$\boldsymbol{A}$

表示系统的状态矩阵，

$\boldsymbol{B}$

表示系统的参数矩阵，且

$\boldsymbol{A}$

和

$\boldsymbol{B}$

均为常值矩阵。本文通过设计控制器

$\boldsymbol{u_{i}(t)}$

来实现状态方程所描述的线性多智能体系统状态的一致性，既保证如下等式成立：

$\boldsymbol{\displaystyle\lim_{t \rightarrow + \infty} x_{1}\left ( t \right )=\displaystyle\lim_{t \rightarrow + \infty} x_{2}\left ( t \right )=...=\displaystyle\lim_{t \rightarrow + \infty} x_{N}\left ( t \right )}$

2、模型构建

本文讨论多智能体网络拓补图为无向图时，系统的状态变量

$\boldsymbol{x_{i}(t)}$

的一致性问题：

定义变量：

$\boldsymbol{\xi _{i} (t) = \sum_{j=1}^{N} a_{ij} (x_i(t)-x_j(t) )}$

并设计如下控制器：

$\boldsymbol{u_i(t)=cK_1\xi_i(t)}$

其中，

$\boldsymbol{K_1}$

为待求的控制增益矩阵，

$\boldsymbol{c}$

为加权参数。

3、模型求解

定理3.1：给定矩阵

$\boldsymbol{Q_1=Q_{1}^{T}>0}$

和

$\boldsymbol{R_1=R_1^{T}>0}$

,若如下Riccati方程有正定解

$\boldsymbol{P_1=P_1^{T}>0}$

$\boldsymbol{P_1A+A^{T}P_1+Q_1-P_1BR_1^{-1}B^{T}P_1=0 }$

系统渐近稳定，此外控制增益

$\boldsymbol{K_1=-R_1^{-1}B^{T}P_1}$

,且加权参数

$\boldsymbol{c}$

需要满足

$\boldsymbol{c\geq 1/(2min \left \{ \lambda_2,\lambda_3,...,\lambda_N \right \})}$

。令

$\boldsymbol{R_1=50I_2}$

和

$\boldsymbol{Q_1=10I_2}$

,通过求解Riccati方程式便可以求得

$\boldsymbol{P_1}$

和

$\boldsymbol{K_1}$

。

4、仿真案例

针对以下无人机集群网络拓补结构为例，该拓补结构为无向连通图，其中数字1、2、3代表无人机的编号：

$\boldsymbol{1\leftrightarrow 2\leftrightarrow 3}$

该无人机集群网络拓补结构如下：

$\boldsymbol{L=\begin{bmatrix} &1\qquad -1\qquad 0 & \\ & -1\qquad 2\qquad -1 & \\ & 0\qquad -1\qquad 1 & \end{bmatrix}}$

以固定翼无人机集群的俯仰方向运动协同控制问题为研究方向，选取3架无人机的俯仰角和俯仰角速度为系统的状态量，选取副翼操作指令和升降舵操作指令为系统的输入量，每架无人机运动模型的线性化系统方程如下：

$\boldsymbol{\begin{bmatrix} \dot{\alpha }_i(t)\\ \dot{q }_i(t) \end{bmatrix} = \begin{bmatrix} \quad-1.175 \qquad 0.9871& \\ \quad -8.458 \quad -0.8776 & \end{bmatrix} \begin{bmatrix} {\alpha }_i(t)\\ {q }_i(t) \end{bmatrix} + \begin{bmatrix} \quad-0.194 \qquad -0.03593& \\ -19.29 \quad\quad -3.803 & \end{bmatrix} \begin{bmatrix} \delta _i^{ail}(t)\\ \delta _i^{rud}(t) \end{bmatrix}}$

其中

$\boldsymbol{i=1,2,...,N}$

三架无人机的俯仰角初值为:

$\boldsymbol{\alpha _1(0)=10,\qquad \alpha _2(0)=-7,\qquad \alpha _3(0)=4}$

俯仰角初速度值为：

$\boldsymbol{q _1(0)=-3,\qquad q _2(0)=2,\qquad q _3(0)=-1}$

5、编程求解

clear;
close all;
clc;
dt=0.01;T=15;
t=0:dt:T;
n=length(t);
x=[10 -7 4;
    -3 2 -1];
L=[1 -1 0;
    -1 2 -1;
    0 -1 1];
c=0.6;
A=[-1.175 0.9871;
    -8.458 -0.8776];
B=[-0.194 -0.03593;
    -19.24 -3.803];
R1=50*eye(2);
Q1=10*eye(2);
P1=are(A,B/R1*B',Q1);
K1=-B'/R1*P1;

for i=1:n
    e=L*x';
    u=c*K1*e';
    mx_a(i,:)=x(1,:);
    mx_q(i,:)=x(2,:);
    x=x+(A*x+B*u)*dt;
end
subplot(2,1,1)
plot(t,mx_a(:,1),t,mx_a(:,2),t,mx_a(:,3))
axis([0 15 -10 10])

subplot(2,1,2)
plot(t,mx_q(:,1),t,mx_q(:,2),t,mx_q(:,3))
axis([0 15 -10 5])