详解数学基础-概率-高斯分布-求边缘概率以及条件概率【白板推导系列笔记】

推荐原创

烧灯续昼2002 2022-10-03 20:17:14 博主文章分类：白板推导系列笔记 ©著作权

文章标签 高斯分布正态分布概率论线性代数最大似然估计 文章分类 人工智能 yyds干货盘点

©著作权归作者所有：来自51CTO博客作者烧灯续昼2002的原创作品，请联系作者获取转载授权，否则将追究法律责任

\begin{gathered}

X \sim N(\mu,\Sigma)=\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}\text{exp}\left(- \frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)\right)\

x \in \mathbb{R}^{p},r.v.\

\end{gathered}

已知

\begin{gathered}

x=\begin{pmatrix}

x_{a} \ x_{b}

\end{pmatrix},\mu=\begin{pmatrix}

\mu_{a} \ \mu_{b}

\end{pmatrix},\Sigma=\begin{pmatrix}

\Sigma_{aa} & \Sigma_{ab} \ \Sigma_{ba} & \Sigma_{bb}

\end{pmatrix}\

x_{a}为m \times 1,x_{b}为 n \times 1,m+n=p

\end{gathered}

求$P(x_{a}),P(x_{b}|x_{a})$，求得后可以由对称性得到$P(x_{b}),P(x_{a}|x_{b})$

定理：

已知

$$X \sim N(\mu,\Sigma),x \in \mathbb{R}^{p},y=Ax+B,y \in \mathbb{R}^{p}$$

则有

$$y \sim N(A \mu+B,A \Sigma A^{T})$$

先求$x_{a}$的分布

\begin{aligned}

x_{a}&=\underbrace{\begin{pmatrix}I_{m} & O_{n}\end{pmatrix}}_{A}\underbrace{\begin{pmatrix}

x_{a} \ x_{b}

\end{pmatrix}}_{x}\

E(x_{a})&=\begin{pmatrix}I_{m} & O\end{pmatrix}\begin{pmatrix}

\mu_{a} \ \mu_{b}

\end{pmatrix}=\mu_{a}\

\text{Var}(x_{a})&=\begin{pmatrix}

I_{m} & O

\end{pmatrix}\begin{pmatrix}

\Sigma_{aa} & \Sigma_{ab} \ \Sigma_{ba} & \Sigma_{bb}

\end{pmatrix}\begin{pmatrix}

I_{m} \ O

\end{pmatrix}=\Sigma_{aa}

\end{aligned}

因此$x_{a}\sim N(\mu_{a},\Sigma_{aa})$

再求$x_{b}|x_{a}$的分布，令

\left{\begin{aligned}&x_{b \cdot a}=x_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}x_{a}\&\mu_{b \cdot a}=\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_{a}\&\Sigma_{bb \cdot a}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}\end{aligned}\right.

有

\begin{aligned}

x_{b \cdot a}&=\underbrace{\begin{pmatrix}- \Sigma_{ba}\Sigma_{aa}^{-1} & I_{n}

\end{pmatrix}}_{A}\underbrace{\begin{pmatrix}

x_{a} \ x_{b}

\end{pmatrix}}_{x}\

E(x_{b \cdot a})&=\begin{pmatrix}- \Sigma_{ba}\Sigma_{aa}^{-1} & I_{n}

\end{pmatrix}\begin{pmatrix}

\mu_{a} \ \mu_{b}

\end{pmatrix}=\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_{a}=\mu_{b \cdot a}\

\text{Var}(x_{b \cdot a})&=\begin{pmatrix}- \Sigma_{ba}\Sigma_{aa}^{-1} & I_{n}

\end{pmatrix}\begin{pmatrix}

\Sigma_{aa} & \Sigma_{ab} \ \Sigma_{ba} & \Sigma_{bb}

\end{pmatrix}\begin{pmatrix}

-\Sigma_{aa}^{-1}\Sigma_{ba}^{T} \ I_{n}

\end{pmatrix}\

&=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}=\Sigma_{bb \cdot a}

\end{aligned}

因此$x_{b \cdot a}\sim N(\mu_{b \cdot a},\Sigma_{bb \cdot a})$

这里要求$x_{b}|x_{a}$，即

\begin{aligned}

x_{b \cdot a}&=x_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}x_{a}\

x_{b}&=x_{b \cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_{a}\

x_{b}|x_{a}&=(x_{b \cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_{a})|x_{a}\

x_{b}|x_{a}&=x_{b \cdot a}|x_{a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_{a}|x_{a}\

x_{b}|x_{a}&=x_{b \cdot a}|x_{a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_{a}

\end{aligned}

这里如果有$x_{b \cdot a}|x_{a}=x_{b \cdot a}$，就可以有

x_{b}|x_{a}=x_{b \cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_{a}

若$X \sim N(\mu,\Sigma)$，则$Mx \bot Nx \Leftrightarrow M \Sigma N^{T}=0$

证明：

因为$x \sim N(\mu,\Sigma)$，有$Mx \sim N(M \mu,M \Sigma M^{T}),Nx \sim N(N \mu,N \Sigma N^{T})$

$$\begin{aligned} \text{cov}(Mx,Nx)&=E[(Mx-M \mu)(Nx-N \mu)^{T}]\&=M \cdot E[(x-\mu)(x-\mu)^{T}]\cdot N^{T}\&=M \Sigma N^{T}\end{aligned}$$

又因为$Mx \bot Nx$且均为高斯分布，则有$\text{Cov}(Mx ,Nx)=M \Sigma N^{T}=0$

\begin{aligned}

\Sigma&=\begin{pmatrix}

\Sigma_{aa} & \Sigma_{ab} \ \Sigma_{ba} & \Sigma_{bb}

\end{pmatrix}\

x_{b \cdot a}&=x_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}x_{a}=\underbrace{\begin{pmatrix}

-\Sigma_{ba}\Sigma_{aa}^{-1} & I

\end{pmatrix}}_{M}\begin{pmatrix}

x_{a} \ x_{b}

\end{pmatrix}\

x_{a}&=\underbrace{\begin{pmatrix}

I & O

\end{pmatrix}}_{N}\begin{pmatrix}

x_{a} \ x_{b}

\end{pmatrix}\

M \Sigma N^{T}&=\begin{pmatrix}

-\Sigma_{ba}\Sigma_{aa}^{-1} & I

\end{pmatrix}\begin{pmatrix}

\Sigma_{aa} & \Sigma_{ab} \ \Sigma_{ba} & \Sigma_{bb}

\end{pmatrix}\begin{pmatrix}

I & O

\end{pmatrix}=0

\end{aligned}

因此$x_{b \cdot a}\bot x_{a}\Rightarrow x_{b \cdot a}|x_{a}=x_{b \cdot a }$，就有

x_{b}|x_{a}=x_{b \cdot a}|x_{a}+\Sigma_{ba}\Sigma_{aa}^{-1}|x_{a}=x_{b \cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_{a}

因此

\begin{aligned}

E(x_{b}|x_{a})&=E(x_{b \cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_{a})\

&=\mu_{b \cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_{a}\

&=\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_{a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_{a}\

\text{Var}(x_{b}|x_{a})&=\text{Var}(x_{b \cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_{a})\

&=\text{Var}(x_{b \cdot a})\

&=\Sigma_{bb \cdot a}

\end{aligned}

因此$x_{b}|x_{a} \sim N(\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_{a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_{a},\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab})$