强化学习的状态变量和状态空间

转载

数据科学探索者 2024-09-09 12:44:53

文章标签 强化学习的状态变量和状态空间线性代数矩阵机器学习状态空间 文章分类 机器学习人工智能

导言

状态变量分析导论是于2021年10月购买的一本二手书籍，作者是P.F-布莱克曼。虽是一本很老的教材。但内容生动，形象，是一本学习状态空间法的不错教材。因此借隔离的机会把这部分的内容加深下理解。2021-12-25（圣诞节。）

第一章-状态变量分析原理

状态变量分析法是通过向量–向量的变化关系从而描述完整的系统运行形式。该变化关系采用矩阵的形式描述。
矩阵描述系统运行方程的合理性在于“向量”的广义性。向量可以是一组数，可以包含导数，可以是面积，可以是二阶导数，具体的含义依据实际的应用场景确定。
对于一个三阶常系数微分方程而言：
$强化学习的状态变量和状态空间_强化学习的状态变量和状态空间$
对于主对角线以上为1的系统矩阵，表示原系统为串联形式。该形式称为同伴型矩阵；
状态变量可以是系统中不存在的量，以保证系统内部运行关系的完善，但实际应用中通常选择为可测的，有明确物理意义的变量。
任何系统都可以用一组一阶微分方程描述，或者叫向量微分方程。描述向量之间的变化关系。 $强化学习的状态变量和状态空间_线性代数_02$
矩阵A的主对角元素表述为自反馈项。主对角之外的元素表述该变量微分项与其他变量的关系。表述为耦合项。
采用状态变量分析法的一个优点：状态与输入的关系不变，但系统描述可以多变，从而可以选择简单的系统描述形式对原始系统描述简化。
系统矩阵A描述了固有运动形式，在输入u的作用下，系统运动轨迹发生变化。受到控制。
8.状态变化的相轨迹可以这样理解：以不同状态作为坐标轴，如x1,x2—xn，当dx1/dt为正时，状态向量的分量x1朝正方向变化，当导数越大时，变化的速度越快。
**状态空间形式的稳态计算。**对于双状态变量，单输入，当系统稳定后，状态向量导数置0，状态将由输入决定，由于输入只有一个。因此相轨迹终点在一条直线上。表现为状态的控制程度。
状态向量微分方程的变换：对于一阶微分方程为例，零输入响应相当于给状态导数施加一个冲击输入，该状态导数的积分即状态初值。因此两者是相似的。**对于一般的输入响应，可以等效为无限多的冲击信号的叠加。**因此可采用卷积积分的形式获得状态的解。 $强化学习的状态变量和状态空间_强化学习的状态变量和状态空间_03$
向量微分方程拉普拉斯变化法的求解：
$强化学习的状态变量和状态空间_状态空间_04$
det[SI-A]为系统矩阵的特征方程。系统矩阵的特征值表现为某些s导致系统矩阵特征方程为0 的值，由于特征方程出现在每一个状态变量的初值响应和输入响应，因此每一个输入和初始条件都将激发所有的状态变量出现该模态。
状态变量传递函数的零点，也就是不同模态的大小由系统矩阵的伴随矩阵和B阵决定。
转移矩阵的定义：系统从初始条件向量到状态向量变化的轨迹。或者叫状态的解。
一阶微分方程的解：
$强化学习的状态变量和状态空间_矩阵_05$
矩阵指数就是状态转移矩阵。描述了状态运动的轨迹。状态的解矩阵。
对于输入的状态响应，需要计算状态转移矩阵的积分。
由于状态转移矩阵如此重要，因此由大量的学者研究状态转移矩阵的计算和性质。
状态转移矩阵（矩阵指数）的定义：
$强化学习的状态变量和状态空间_强化学习的状态变量和状态空间_06$
关于矩阵指数计算的一个重要定理：凯莱哈密顿定理。
每个矩阵满足自己的特征方程。即若矩阵A由特征方程：
$强化学习的状态变量和状态空间_强化学习的状态变量和状态空间_07$
则： $强化学习的状态变量和状态空间_机器学习_08$
理解: 由于一般的特征方程都是有限阶数的，因此凯莱哈密顿定理提供了矩阵A的有限维关系式。

第二章-特征值、特征向量和轨迹

系统的极点：使任一闭合回路的传递函数值为1的那些s数值。
对于固有振型回路传输增益为1。即T(S)=1。对于单位负反馈，则开环环路增益=-1时，闭合回路符合增益为1特性。p27页。
对于二阶系统，采用类似的方法处理得到闭环系统的极点条件。
闭环极点的理解：相当于满足回路公式的方程的解的模态。即表述方程组的解的特征。
典型系统：对角线系统，当选择主对角线元素接近原始系统矩阵特征值时，系统表现为彼此解耦的独立积分环节。典型系统具有重要意义。
$强化学习的状态变量和状态空间_机器学习_09$
根据拉普拉斯反变换可以解得：
$强化学习的状态变量和状态空间_矩阵_10$
对于上三角矩阵或者下三角矩阵，由于未构成附加闭环，因此系统矩阵的特征根仍然是主对角线项。
特征向量在状态变量的解的应用：
$强化学习的状态变量和状态空间_矩阵_11$
特征向量是特征根对应的模态映射至状态向量的解的特定组合。特征向量的分量给出了固有振型在各个状态上的分布。
对角线系统可以得到各个振型的信号，特征向量又描述了状态向量的解的不同模态的组合。因此可以通过特征向量来实现系统状态向量和对角线系统的输出向量的关系。
$强化学习的状态变量和状态空间_状态空间_12$
其中：w阵是以特征向量为列向量的矩阵。
w阵实现了对角线系统的向量d—>状态向量x的转化。

强化学习的状态变量和状态空间_强化学习的状态变量和状态空间_13

由于w阵可以实现x状态向量和d的转化，因此可以通过w阵实现d对线线系统的初值确定，在对角线系统计算完模态后，通过w阵再反算x的状态解。如下图所示：

强化学习的状态变量和状态空间_状态空间_14

转化为对角线系统的过程：
$强化学习的状态变量和状态空间_状态空间_15$
上式表明;特征向量矩阵是这种转换的主要特征。
相似矩阵：存在相同的特征根，但系统矩阵不同。
逆向思路：状态向量x的分量每一个都包含不同的振型分量，而且由分量由特征向量决定。那么： $强化学习的状态变量和状态空间_强化学习的状态变量和状态空间_16$
可以实现单一振型的提取，可以实现振型滤波器的效果。
特征向量与状态轨迹

强化学习的状态变量和状态空间_线性代数_17

首先根据：
$强化学习的状态变量和状态空间_强化学习的状态变量和状态空间_16$
1）根据初始状态，得到d(0)的初始状态。
2）在以d为状态变量的对角系统，容易获得d向量各分量的时域解；
3）通过x = W*d获得原始状态向量x的时域解；
由: $强化学习的状态变量和状态空间_矩阵_19$
可以看到：x的最终结果是以W（特征向量）的列向量为坐标系，以d(t)分量的轨迹。也就是说特征向量是状态变量X变化的参考方向。d是该方向的分量，共同构成最终的状态变量x的解。
存在共轭复特征根的系统矩阵对应的特征值不能组成对角阵，而是在转置的位置存在非0值；

第三章：传递函数的状态变量描述

**学习本章的目的：**建立经典控制理论的传递函数分析方法和状态变量分析方法之间的联系。
31. 以一个例子复习单输入单输出传递函数的同伴型矩阵表示法。
能控标准型的转化方式链接

$强化学习的状态变量和状态空间_机器学习_20$

状态空间描述表达式：
$强化学习的状态变量和状态空间_线性代数_21$
转化为对角阵形式，若W为系统矩阵A对应的一组特征向量。
$强化学习的状态变量和状态空间_强化学习的状态变量和状态空间_22$
根据逆矩阵的结合律可得：
$强化学习的状态变量和状态空间_状态空间_23$
闭环系统传递函数–状态空间模型的对应关系

采用闭环传递函数描述的系统，等价于修改了状态空间描述的中的系统矩阵。也就是说在状态空间描述中采用状态反馈或输出反馈等效于传递函数方法中加入的反馈矫正。原理是统一的。从矩阵运算的基本原理可以很明显的得到。**闭环传递函数和状态反馈（输出反馈）之间的联系。