【机器学习的数学基础】（五）解析几何(Analytic Geometry)（下）

原创

二进制人工智能 2021-06-21 15:06:12 ©著作权

©著作权归作者所有：来自51CTO博客作者二进制人工智能的原创作品，请联系作者获取转载授权，否则将追究法律责任

文章目录

- 3 解析几何(Analytic Geometry)（下）

3 解析几何(Analytic Geometry)（下）

3.8 正交投影

投影是一类重要的线性变换（还有旋转和反射），在图形学、编码理论、统计学和机器学习中都起着重要的作用。在机器学习中，我们经常处理高维的数据，而高维数据通常是难以分析或想象的。而且，高维数据往往具有这样的特性：少数维度包含了大部分信息，而大多数其他维度并不是描述数据关键属性所必需的。

当我们压缩或可视化高维数据时，我们会丢失信息。为了最大限度地减少这种压缩损失，我们最好在数据中找到信息量最大的维度。

正如第一章中所讨论的，数据可以表示为向量，在解析几何中，我们将讨论数据压缩的一些基本工具。更具体地说，我们可以将原始的高维数据投影到一个低维特征空间中，并在这个低维空间中进一步分析数据集并提取相关模式( pattern)。

例如，Pearson（1901）和Hotelling（1933）提出的主成分分析（PCA）和深度神经网络（例如：深度自编码器deep auto encoders（Deng et al.，2010））等机器学习算法就充分地利用了降维思想。

下面，我们将重点讨论正交投影，我们将在第十章降维中使用正交投影进行线性降维，在第十二章分类中使用正交投影进行分类。还有第九章回归中也可以用正交投影来解释。对于给定的低维子空间，高维数据的正交投影能保留原始数据尽可能多的信息并使原始数据和相应投影之间的差异/误差最小化。下面给出正交投影的图示。
【机器学习的数学基础】（五）解析几何(Analytic Geometry)（下）_机器学习
图3.9二维数据集（蓝点）到一维子空间（直线）的正交投影（橙色点）。

在我们详细说明如何获得这些投影之前，让我们看看投影是怎么定义的。

定义 3.10 投影

令 $V$ 为一个向量空间， $\subseteq V$ 为 $V$ 的一个子空间。如果 $\pi^{2}=\pi \circ \pi=\pi$ ，则线性映射 $\pi: V \rightarrow U$ 称为投影(projection)。

线性映射可以用变换矩阵来表示，所以上述定义同样适用于一类特殊的变换矩阵，即投影矩阵(projection matrices) $\boldsymbol{P}_{\pi}$ ，它具有 $\boldsymbol{P}_{\pi}^{2}=\boldsymbol{P}_{\pi}$ 的属性。

下面，我们将得到内积空间 $\left(\mathbb{R}^{n},\langle\cdot, \cdot\rangle\right)$ 到子空间的向量正交投影。我们将从一维子空间(也叫做线)开始。如果没有另外提及，我们默认以 $\langle\boldsymbol{x}, \boldsymbol{y}\rangle=\boldsymbol{x}^{\top} \boldsymbol{y}$ 为内积。

3.8.1 一维子空间（线）上的投影

假设我们被给定一条线（一维子空间），它通过原点且基向量为 $\boldsymbol{b} \in \mathbb{R}^{n}$ 。该线为由 $\boldsymbol{b}$ 张成的一维子空间 $\subseteq \mathbb{R}^{n}$ 。当我们将 $\boldsymbol{x} \in \mathbb{R}^{n}$ 投影到 $U$ 时，我们目的是寻找最接近 $\boldsymbol{x}$ 的向量 $\pi_{U}(\boldsymbol{x}) \in U$ 。利用几何参数，我们来描述投影 $\pi_{U}(\boldsymbol{x})$ 的一些性质（图3.10(a)给出了图解）：
【机器学习的数学基础】（五）解析几何(Analytic Geometry)（下）_机器学习_02 图 3.10 一维子空间投影的例子。

投影 $\pi_{U}(\boldsymbol{\boldsymbol{x}})$ 最接近 $\boldsymbol{x}$ ，其中“最接近”表示它们的距离 $\left\|\boldsymbol{x}-\pi_{U}(\boldsymbol{x})\right\|$ 最小。这对应了从 $\pi_{U}(\boldsymbol{x})$ 到 $\boldsymbol{x}$ 最短的那一段 $\pi_{U}(\boldsymbol{x})-\boldsymbol{x}$ ，它与 $U$ 正交，也即与 $U$ 的基向量 $\boldsymbol{b}$ 正交。因为向量之间的角度是通过内积定义的，这意味着正交使得 $\left\langle\pi_{U}(\boldsymbol{x})-\boldsymbol{x}, \boldsymbol{b}\right\rangle=0$ 。
$\boldsymbol{x}$ 在 $U$ 上的投影 $\pi_{U}(\boldsymbol{x})$ 必须是 $U$ 的元素，因此是张成 $U$ 的基向量 $\boldsymbol{b}$ 的倍数。因此，对于某些 $\lambda \in \mathbb{R}$ ， $\pi_{U}(\boldsymbol{x})=\lambda \boldsymbol{b}$ 。 $\lambda$ 是 $\pi_{U}(\boldsymbol{x})$ 相对于 $\boldsymbol{b}$ 的坐标。

通过以下三个步骤中，我们可以确定坐标 $\lambda$ 、投影 $\pi_{U}(\boldsymbol{x}) \in U$ 以及将任意 $\in \mathbb{R}^{n}$ 映射到 $U$ 上的投影矩阵 $\boldsymbol{P}_{\pi}$ ：

1、求坐标 $\lambda$ 。在正交条件下有：
$\left\langle\boldsymbol{x}-\pi_{U}(\boldsymbol{x}), \boldsymbol{b}\right\rangle=0 \stackrel{\pi_{U}(\boldsymbol{x})=\lambda \boldsymbol{b}}{\Longleftrightarrow}\langle\boldsymbol{x}-\lambda \boldsymbol{b}, \boldsymbol{b}\rangle=0$
我们现在可以利用内积的双线性，得到
$\langle\boldsymbol{x}, \boldsymbol{b}\rangle-\lambda\langle\boldsymbol{b}, \boldsymbol{b}\rangle=0 \Longleftrightarrow \lambda=\frac{\langle\boldsymbol{x}, \boldsymbol{b}\rangle}{\langle\boldsymbol{b}, \boldsymbol{b}\rangle}=\frac{\langle\boldsymbol{b}, \boldsymbol{x}\rangle}{\|\boldsymbol{b}\|^{2}}\qquad (3.40)$

在最后一步中，我们利用了内积是对称的这一事实。如果我们选择点积作为 $\langle\cdot, \cdot\rangle$ ，我们得到
$\lambda=\frac{\boldsymbol{b}^{\top} \boldsymbol{x}}{\boldsymbol{b}^{\top} \boldsymbol{b}}=\frac{\boldsymbol{b}^{\top} \boldsymbol{x}}{\|\boldsymbol{b}\|^{2}}$
如果 $\|\boldsymbol{b}\|=1$ ，我们可以看到投影的坐标 $\lambda$ 由 $\boldsymbol{b}^{\top} \boldsymbol{x}$ 决定。

2、求投影点 $\pi_{U}(\boldsymbol{x}) \in U$ 。由于 $\pi_{U}(\boldsymbol{x})=\lambda \boldsymbol{b}$ ，我们立即由(3.40)的结果得到
$\pi_{U}(\boldsymbol{x})=\lambda \boldsymbol{b}=\frac{\langle\boldsymbol{x}, \boldsymbol{b}\rangle}{\|\boldsymbol{b}\|^{2}} \boldsymbol{b}=\frac{\boldsymbol{b}^{\top} \boldsymbol{x}}{\|\boldsymbol{b}\|^{2}} \boldsymbol{b}\qquad (3.42)$
其中最后一个等式只适用于点积。

我们也可以用定义3.1计算 $\pi_{U}(\boldsymbol{x})$ 的长度
$\left\|\pi_{U}(\boldsymbol{x})\right\|=\|\lambda \boldsymbol{b}\|=|\lambda|\|\boldsymbol{b}\|$

因此，我们的投影长度是 $|\lambda|$ 乘以 $\boldsymbol{b}$ 的长度。这也直观地展示了 $\lambda$ 是 $\pi_{U}(\boldsymbol{x})$ 相对于张成 $U$ 的基向量 $\boldsymbol{b}$ 的坐标。

如果我们使用点积作为内积，由 $\cos \omega=\frac{\langle\boldsymbol{x}, \boldsymbol{y}\rangle}{\|\boldsymbol{x}\|\|\boldsymbol{y}\|}$ (3.25)，我们得到
$\left\|\pi_{U}(\boldsymbol{x})\right\| \stackrel{(3.42)}{=} \frac{\left|\boldsymbol{b}^{\top} \boldsymbol{x}\right|}{\|\boldsymbol{b}\|^{2}}\|\boldsymbol{b}\| \stackrel{(3.25)}{=}|\cos \omega|\|\boldsymbol{x}\|\|\boldsymbol{b}\| \frac{\|\boldsymbol{b}\|}{\|\boldsymbol{b}\|^{2}}=|\cos \omega|\|\boldsymbol{x}\|$
这里， $ω$ 是 $\boldsymbol{x}$ 和 $\boldsymbol{b}$ 之间的夹角。这个方程应该是我们在三角定理中熟悉的：如果 $\|\boldsymbol{x}\|=1$ ，那么 $\boldsymbol{x}$ 位于单位圆上。此时 $\boldsymbol{b}$ 在横轴上的投影正好是 $\cos \omega$ ，对应向量 $\pi_{U}(\boldsymbol{x})=|\cos \omega|$ 。如图3.10(b)。

3、求投影矩阵 $\boldsymbol{P}_{\pi}$ 。我们知道投影是线性映射（定义3.10）。因此，存在一个投影矩阵 $\boldsymbol{P}_{\pi}$ ，使得 $\pi_{U}(\boldsymbol{x})=\boldsymbol{P}_{\pi} \boldsymbol{x}$ 。以点积为内积，由
$\pi_{U}(\boldsymbol{x})=\lambda \boldsymbol{b}=\boldsymbol{b} \lambda=\boldsymbol{b} \frac{\boldsymbol{b}^{\top} \boldsymbol{x}}{\|\boldsymbol{b}\|^{2}}=\frac{\boldsymbol{b} \boldsymbol{b}^{\top}}{\|\boldsymbol{b}\|^{2}} \boldsymbol{x}\quad (3.46)$

我们可以得到：
$\boldsymbol{P}_{\pi}=\frac{\boldsymbol{b b}^{\top}}{\|\boldsymbol{b}\|^{2}}$

注意， $\|\boldsymbol{b}\|^{2}=\langle \boldsymbol{b}, \boldsymbol{b}\rangle$ 是一个标量， $\boldsymbol{b}\boldsymbol{b}^{\top}$ （秩为1）以及投影矩阵 $\boldsymbol{P}_{\pi}$ 都是一个对称矩阵。

投影矩阵 $\boldsymbol{P}_{\pi}$ 将任意向量 $\boldsymbol{x} \in \mathbb{R}^{n}$ 投影到通过原点的直线上，方向为 $\boldsymbol{b}$ （相当于 $\boldsymbol{b}$ 所张成的子空间 $U$ ）。

备注：
投影 $\pi_{U}(\boldsymbol{x}) \in \mathbb{R}^{n}$ 仍然是 $n$ 维向量而不是标量。我们可以用张成子空间 $U$ 的基向量 $\boldsymbol{b}$ 来表示投影，这样我们就只需要一个坐标 $\lambda$ 来表示投影，而不再需要 $n$ 个坐标。

例 3.10 投影到直线上

求出投影到 $\boldsymbol{b}=\left[\begin{array}{lll}1 & 2 & 2\end{array}\right]^{\top}$ 所张成的过原点的直线上的投影矩阵 $\boldsymbol{P}_{\pi}$ 。 $\boldsymbol{b}$ 是一维子空间（通过原点的直线）的方向和基。
由(3.46)，我们可以得到：
$\boldsymbol{P}_{\pi}=\frac{\boldsymbol{b b}^{\top}}{\boldsymbol{b}^{\top} \boldsymbol{b}}=\frac{1}{9}\left[\begin{array}{l}1 \\2 \\2\end{array}\right]\left[\begin{array}{lll}1 & 2 & 2\end{array}\right]=\frac{1}{9}\left[\begin{array}{lll}1 & 2 & 2 \\2 & 4 & 4 \\2 & 4 & 4\end{array}\right]$

现在让我们选择一个特定的 $\boldsymbol{x}$ ，看看它是否位于 $\boldsymbol{b}$ 所张成的子空间中。对于 $\boldsymbol{x}=\left[\begin{array}{lll}1 & 1 & 1\end{array}\right]^{\top}$ ，投影是
$\pi_{U}(\boldsymbol{x})=\boldsymbol{P}_{\pi} \boldsymbol{x}=\frac{1}{9}\left[\begin{array}{lll}1 & 2 & 2 \\2 & 4 & 4 \\2 & 4 & 4\end{array}\right]\left[\begin{array}{l}1 \\1 \\1\end{array}\right]=\frac{1}{9}\left[\begin{array}{c}5 \\10 \\10\end{array}\right] \in \operatorname{span}\left[\left[\begin{array}{l}1 \\2 \\2\end{array}\right]\right]$
注意， $\boldsymbol{P}_{\pi}$ 应用到 $\pi_{U}(\boldsymbol{x})$ 不会改变任何东西，即 $\boldsymbol{P}_{\pi} \pi_{U}(\boldsymbol{x})=\pi_{U}(\boldsymbol{x})$ 。这是意料之中的，因为根据定义3.10，我们知道对于任何 $\boldsymbol{x}$ ，投影矩阵 $\boldsymbol{P}_{\pi}$ 满足 $\boldsymbol{P}_{\pi}^{2} \boldsymbol{x}=\boldsymbol{P}_{\pi} \boldsymbol{x}$ 。

备注：
在第四章矩阵分解中，我们将展示 $\pi_{U}(\boldsymbol{x})$ 是 $\boldsymbol{P}_{\pi}$ 的特征向量，对应的特征值为1。

3.8.2 一般子空间上的投影

【机器学习的数学基础】（五）解析几何(Analytic Geometry)（下）_数学基础_03
图 3.11 $\boldsymbol{x} \in \mathbb{R}^{3}$ 在 $U$ 上的投影 $\pi_{U}(\boldsymbol{x})$ 可以表示为 $\boldsymbol{b}_{1}, \boldsymbol{b}_{2}$ 的线性组合，位移向量 $\boldsymbol{x}-\pi_{U}(\boldsymbol{x})$ 与 $\boldsymbol{b}_{1}$ 和 $\boldsymbol{b}_{2}$ 正交。

在下面，我们研究向量 $\in \mathbb{R}^{n}$ 到低维子空间 $\subseteq \mathbb{R}^{n}$ 的正交投影，其中 $\operatorname{dim}(U)=m \geqslant 1$ 。图3.11给出了示意图。

假设 $\left(\boldsymbol{b}_{1}, \ldots, \boldsymbol{b}_{m}\right)$ 是 $U$ 的有序基。 $U$ 上的任何投影 $\pi_{U}(\boldsymbol{x})$ 必然是 $U$ 的元素。因此，它们可以表示为 $U$ 的基向量 $\left(\boldsymbol{b}_{1}, \ldots, \boldsymbol{b}_{m}\right)$ 的线性组合： $\pi_{U}(\boldsymbol{x})=\sum_{i=1}^{m} \lambda_{i} \boldsymbol{b}_{i}$ 。

与一维的情形一样，我们要用三步来求投影 $\pi_{U}(\boldsymbol{x})$ 和投影矩阵 $\boldsymbol{P}_{\pi}$ ：
1、求投影的坐标 $\lambda_{1}, \ldots, \lambda_{m}$ （相对于 $U$ 的基）。使线性组合
$\pi_{U}(\boldsymbol{x})=\sum_{i=1}^{m} \lambda_{i} \boldsymbol{b}_{i}=\boldsymbol{B} \boldsymbol{\lambda}$
$\boldsymbol{B}=\left[\boldsymbol{b}_{1}, \ldots, \boldsymbol{b}_{m}\right] \in \mathbb{R}^{n \times m}, \quad \boldsymbol{\lambda}=\left[\lambda_{1}, \ldots, \lambda_{m}\right]^{\top} \in \mathbb{R}^{m}$

离 $\boldsymbol{x}$ 最近。与一维情形一样，“最近”表示“最小距离”，这意味着连接 $\pi_{U}(\boldsymbol{x}) \in U$ 和 $\boldsymbol{x} \in \mathbb{R}^{n}$ 的向量必须与 $U$ 的所有基向量正交。因此，我们得到 $m$ 个条件（假设内积为点积）
$\begin{array}{c}\left\langle\boldsymbol{b}_{1}, \boldsymbol{x}-\pi_{U}(\boldsymbol{x})\right\rangle=\boldsymbol{b}_{1}^{\top}\left(\boldsymbol{x}-\pi_{U}(\boldsymbol{x})\right)=0 \\\vdots \\\left\langle\boldsymbol{b}_{m}, \boldsymbol{x}-\pi_{U}(\boldsymbol{x})\right\rangle=\boldsymbol{b}_{m}^{\top}\left(\boldsymbol{x}-\pi_{U}(\boldsymbol{x})\right)=0\end{array}$

再由 $\pi_{U}(\boldsymbol{x})=\boldsymbol{B} \boldsymbol{\lambda}$ ，得到：
$\begin{aligned}&\boldsymbol{b}_{1}^{\top}(\boldsymbol{x}-\boldsymbol{B} \boldsymbol{\lambda})=0\\&\text { : }\\&\boldsymbol{b}_{m}^{\top}(\boldsymbol{x}-\boldsymbol{B} \boldsymbol{\lambda})=0\end{aligned}$

从而得到一个齐次线性方程组：

$\left[\begin{array}{c}\boldsymbol{b}_{1}^{\top} \\\vdots \\\boldsymbol{b}_{m}^{\top}\end{array}\right][\boldsymbol{x}-\boldsymbol{B} \boldsymbol{\lambda}]=\mathbf{0} \Longleftrightarrow \boldsymbol{B}^{\top}(\boldsymbol{x}-\boldsymbol{B} \boldsymbol{\lambda})=\mathbf{0}$
$\Longleftrightarrow \boldsymbol{B}^{\top} \boldsymbol{B} \boldsymbol{\lambda}=\boldsymbol{B}^{\top} \boldsymbol{x}$

最后一个表达式叫做正规方程(normal equation)。因为 $\boldsymbol{b}_{1}, \ldots, \boldsymbol{b}_{m}$ 是 $U$ 的基，它们是线性独立的。因此， $\boldsymbol{B}^{\top} \boldsymbol{B} \in \mathbb{R}^{m \times m}$ 是正则的，是可逆的。这使我们能够求解得到系数/坐标：
$\boldsymbol{\lambda}=\left(\boldsymbol{B}^{\top} \boldsymbol{B}\right)^{-1} \boldsymbol{B}^{\top} \boldsymbol{x}\qquad (3.57)$

矩阵 $\left(\boldsymbol{B}^{\top} \boldsymbol{B}\right)^{-1} \boldsymbol{B}^{\top}$ 称为 $\boldsymbol{B}$ 的伪逆(pseudo-inverse)，适用于非方阵的 $\boldsymbol{B}$ 。仅需 $\boldsymbol{B}^{\top} \boldsymbol{B}$ 是正定的，也就是说 $\boldsymbol{B}$ 是满秩的。在实际应用中（如线性回归），我们经常在 $\boldsymbol{B}^{\top} \boldsymbol{B}$ 中加入一个“抖动项” $\epsilon \boldsymbol{I}$ ，以保证数值稳定性和正定性增加。

2、求投影 $\pi_{U}(\boldsymbol{x}) \in U$ ，我们已经推断出 $\pi_{U}(\boldsymbol{x})=\boldsymbol{B} \boldsymbol{\lambda}$ ，则由(3.57)的结果，得到：
$\pi_{U}(\boldsymbol{x})=\boldsymbol{B}\left(\boldsymbol{B}^{\top} \boldsymbol{B}\right)^{-1} \boldsymbol{B}^{\top} \boldsymbol{x}\qquad (3.58)$
3、求投影矩阵 $\boldsymbol{P}_{\pi}$ 。根据(3.58)，我们可以立即看到，求解 $\boldsymbol{P}_{\pi} \boldsymbol{x}=\pi_{U}(\boldsymbol{x})$ 的投影矩阵是
$\boldsymbol{P}_{\pi}=\boldsymbol{B}\left(\boldsymbol{B}^{\top} \boldsymbol{B}\right)^{-1} \boldsymbol{B}^{\top}$

备注：

投影到一般子空间有一维这一特例：如果 $\operatorname{dim}(U)=1$ ，则 $\boldsymbol{B}^{\top} \boldsymbol{B} \in \mathbb{R}$ 是标量，我们可以将一般子空间的投影矩阵 $\boldsymbol{P}_{\pi}=\boldsymbol{B}\left(\boldsymbol{B}^{\top} \boldsymbol{B}\right)^{-1} \boldsymbol{B}^{\top}$ 重写为 $\boldsymbol{P}_{\pi}=\frac{B B^{\top}}{B^{\top} B}$ ，这正是一维子空间的投影矩阵。

例 3.11 二维子空间上的投影

对于子空间 $U=\operatorname{span}[\left[\begin{array}{l}1 \\1 \\1\end{array}\right],\left[\begin{array}{l}0 \\1 \\2\end{array}\right]] \subseteq \mathbb{R}^{3}$ 和 $\boldsymbol{x}=\left[\begin{array}{l}6 \\0 \\0\end{array}\right] \in \mathbb{R}^{3}$ ，求 $\boldsymbol{x}$ 相对于子空间 $U$ 的坐标 $λ$ 、投影点 $\pi_{U}(\boldsymbol{x})$ 和投影矩阵 $\boldsymbol{P}_{\pi}$ 。
首先，我们看到 $U$ 的生成集是一个基（线性无关），将 $U$ 的基向量写入矩阵可以得到：
$\boldsymbol{B}=\left[\begin{array}{ll}1 & 0 \\1 & 1 \\1 & 2\end{array}\right]$

第二，我们计算矩阵 $\boldsymbol{B}^{\top} \boldsymbol{B}$ 和 $\boldsymbol{B}^{\top}\boldsymbol{x}$ ：
$\boldsymbol{B}^{\top} \boldsymbol{B}=\left[\begin{array}{lll}1 & 1 & 1 \\0 & 1 & 2\end{array}\right]\left[\begin{array}{ll}1 & 0 \\1 & 1 \\1 & 2\end{array}\right]=\left[\begin{array}{ll}3 & 3 \\3 & 5\end{array}\right], \quad \boldsymbol{B}^{\top} \boldsymbol{x}=\left[\begin{array}{lll}1 & 1 & 1 \\0 & 1 & 2\end{array}\right]\left[\begin{array}{l}6 \\0 \\0\end{array}\right]=\left[\begin{array}{l}6 \\0\end{array}\right]$

第三，我们通过正规方程 $\boldsymbol{B}^{\top} \boldsymbol{B} \boldsymbol{\lambda}=\boldsymbol{B}^{\top} \boldsymbol{x}$ 求解 $\lambda$
$\left[\begin{array}{ll}3 & 3 \\3 & 5\end{array}\right]\left[\begin{array}{l}\lambda_{1} \\\lambda_{2}\end{array}\right]=\left[\begin{array}{l}6 \\0\end{array}\right] \Longleftrightarrow \boldsymbol{\lambda}=\left[\begin{array}{c}5 \\-3\end{array}\right]$

第四， $\boldsymbol{x}$ 向 $U$ 的投影 $\pi_{U}(\boldsymbol{x})$ ，即到 $\boldsymbol{B}$ 的列空间的投影，可以通过直接计算得到：
$\pi_{U}(\boldsymbol{x})=\boldsymbol{B} \boldsymbol{\lambda}=\left[\begin{array}{c}5 \\2 \\-1\end{array}\right]$

相应的投影误差(projection error，也称为reconstruction error)是原始向量与其在 $U$ 上的投影之差的范数，即：

$\left\|\boldsymbol{x}-\pi_{U}(\boldsymbol{x})\right\|=\left\|\left[\begin{array}{lll}1 & -2 & 1\end{array}\right]^{\top}\right\|=\sqrt{6}\qquad (3.63)$

第五，对于任意 $\boldsymbol{x} \in \mathbb{R}^{3}$ ，投影矩阵为：
$\boldsymbol{P}_{\pi}=\boldsymbol{B}\left(\boldsymbol{B}^{\top} \boldsymbol{B}\right)^{-1} \boldsymbol{B}^{\top}=\frac{1}{6}\left[\begin{array}{ccc}5 & 2 & -1 \\2 & 2 & 2 \\-1 & 2 & 5\end{array}\right]$

为了验证结果，我们可以
（a）检查位移向量 $\pi_{U}(\boldsymbol{x})-\boldsymbol{x}$ 是否与 $U$ 的所有基向量正交，
（b）验证 $\boldsymbol{P}_{\pi}=\boldsymbol{P}_{\pi}^{2}$ （见定义3.10）。

备注：

投影 $\pi_{U}(\boldsymbol{x})$ 虽然位于 $m$ 维子空间 $\subseteq \mathbb{R}^{n}$ 中，但仍然是 $\mathbb{R}^{n}$ 中的向量。然而，为了表示投影向量，我们只需要关于 $U$ 的基向量 $\boldsymbol{b}_{1}, \ldots, \boldsymbol{b}_{m}$ 的 $m$ 坐标 $\lambda_{1}, \ldots, \lambda_{m}$ 。

备注：

在具有一般内积的向量空间中，计算用内积定义的角和距离在计算时必须注意内积的类型。

通过投影，我们可以近似求解无解的线性方程组 $\boldsymbol{A}\boldsymbol{x}=\boldsymbol{b}$ 。线性方程组无解，意味着 $\boldsymbol{b}$ 不在 $\boldsymbol{A}$ 的张成空间中，也就是说，向量 $\boldsymbol{b}$ 不在 $\boldsymbol{A}$ 的列所张成的子空间内。如果线性方程不能精确求解，那么我们可以尝试找到一个近似解(approximate solution)。其思想是在 $\boldsymbol{A}$ 的列所张成的子空间中找到最接近 $\boldsymbol{b}$ 的向量，即计算 $\boldsymbol{b}$ 在 $\boldsymbol{A}$ 的列所张成的子空间上的正交投影。这类问题在实践中经常出现，这个解叫做超定系统的最小二乘解(least-squares solution)（假设点积为内积）。这将在9.4节线性回归中进一步讨论。使用重建误差(3.63)是一种推导主成分分析(降维10.3节)的可行的方法。

备注：

我们已经得到了向量 $\boldsymbol{x}$ 在基向量 $\left\{\boldsymbol{b}_{1}, \ldots, \boldsymbol{b}_{k}\right\}$ 的投影。如果这个基是标准正交基(orthonormal basis ONB)，即有 $\boldsymbol{B}^{\top} \boldsymbol{B}=\boldsymbol{I}$ ，那么坐标可以简化为 $\boldsymbol{\lambda}=\boldsymbol{B}^{\top} \boldsymbol{x}$ ，投影方程也简化为
$\pi_{U}(\boldsymbol{x})=\boldsymbol{B} \boldsymbol{B}^{\top} \boldsymbol{x}$

这意味着我们不需要计算逆，这节省了计算时间。

3.8.3 Gram-Schmidt正交化

投影是Gram-Schmidt方法的核心，它允许我们将 $n$ 维向量空间 $V$ 的任何基 $\left(\boldsymbol{b}_{1}, \ldots, \boldsymbol{b}_{n}\right)$ 转换为 $V$ 的正交/正交基 $\left(\boldsymbol{u}_{1}, \ldots, \boldsymbol{u}_{n}\right)$ 。这个基总是存在的（Liesen和Mehrmann，2015）且 $\operatorname{span}\left[\boldsymbol{b}_{1}, \ldots, \boldsymbol{b}_{n}\right]=\operatorname{span}\left[\boldsymbol{u}_{1}, \ldots, \boldsymbol{u}_{n}\right]$ 。Gram-Schmidt正交化方法能从任意基 $\left(\boldsymbol{b}_{1}, \ldots, \boldsymbol{b}_{n}\right)$ 迭代构造正交基 $\left(\boldsymbol{u}_{1}, \ldots, \boldsymbol{u}_{n}\right)$ ：
$\boldsymbol{u}_{1}:=\boldsymbol{b}_{1}$
$\boldsymbol{u}_{k}:=\boldsymbol{b}_{k}-\pi_{\operatorname{span}\left[\boldsymbol{u}_{1}, \ldots, \boldsymbol{u}_{k-1}\right]}\left(\boldsymbol{b}_{k}\right), \quad k=2, \ldots, n$
在第二个公式中，第 $k$ 个基向量 $\boldsymbol{b}_k$ 被投影到由前 $k - 1$ 个构造的正交向量 $\boldsymbol{u}_{1}, \ldots, \boldsymbol{u}_{k-1}$ （见8.2）张成的子空间。然后用 $\boldsymbol{b}_k$ 减去该投影，从而产生一个向量 $\boldsymbol{u}_{k}$ ，该向量与由 $\boldsymbol{u}_{1}, \ldots, \boldsymbol{u}_{k-1}$ 张成的 $k - 1$ 维子空间正交。对所有 $n$ 个基向量 $\boldsymbol{b}_{1}, \ldots, \boldsymbol{b}_{n}$ 重复此过程，从而产生正交基 $\left(\boldsymbol{u}_{1}, \ldots, \boldsymbol{u}_{n}\right)$ 。如果我们再将 $\boldsymbol{u}_{k}$ 标准化，我们得到一个标准正交基(ONB)，其中 $\left\|\boldsymbol{u}_{k}\right\|=1$ , $\ldots, n$ 。
【机器学习的数学基础】（五）解析几何(Analytic Geometry)（下）_机器学习_04
图 3.12Gram-Schmidt正交化。（a） $\mathbb{R}^2$ 的非正交基 $(\boldsymbol{b}_1,\boldsymbol{b}_2)$ ；（b）首先构造基向量 $\boldsymbol{u}_1$ 和 $\boldsymbol{b}_2$ 在 $\text{span}[\boldsymbol{u}_1]$ 上的正交投影；（c） $\mathbb{R}^2$ 的正交基 $(\boldsymbol{u}_1，\boldsymbol{u}_2)$

例 3.12 Gram-Schmidt 正交化

考虑 $\mathbb{R}^{2}$ 的一个基 $\left(\boldsymbol{b}_{1}, \boldsymbol{b}_{2}\right)$ (见图3.12(a))：
$\boldsymbol{b}_{1}=\left[\begin{array}{l}2 \\0\end{array}\right], \quad \boldsymbol{b}_{2}=\left[\begin{array}{l}1 \\1\end{array}\right]$

使用Gram-Schmidt 正交化，我们构造 $\mathbb{R}^{2}$ 的一个正交基： $\left(\boldsymbol{u}_{1}, \boldsymbol{u}_{2}\right)$ 如下(假设内积为点积)：
$\boldsymbol{u}_{1}:=\boldsymbol{b}_{1}=\left[\begin{array}{l}2 \\0\end{array}\right]$
$\boldsymbol{u}_{2}:=\boldsymbol{b}_{2}-\pi_{\mathrm{span}\left[\boldsymbol{u}_{1}\right]}\left(\boldsymbol{b}_{2}\right) {=} \boldsymbol{b}_{2}-\frac{\boldsymbol{u}_{1} \boldsymbol{u}_{1}^{\top}}{\left\|\boldsymbol{u}_{1}\right\|^{2}} \boldsymbol{b}_{2}=\left[\begin{array}{l}1 \\1\end{array}\right]-\left[\begin{array}{ll}1 & 0 \\0 & 0\end{array}\right]\left[\begin{array}{l}1 \\1\end{array}\right]=\left[\begin{array}{l}0 \\1\end{array}\right]$

这些步骤如图3.12(b)和(c )所示，我们可以看到 $\boldsymbol{u}_{1}，\boldsymbol{u}_{2}$ 是正交的，即 $\boldsymbol{u}_{1}^{\top} \boldsymbol{u}_{2}=0$

【机器学习的数学基础】（五）解析几何(Analytic Geometry)（下）_机器学习_05
图 3.13仿射空间上的投影。（a）原始设定；（b）将设定的各个对象移动 $−\boldsymbol{x}_0$ ，以便 $\boldsymbol{x}−\boldsymbol{x}_0$ 可以投影到方向空间 $U$ 上；（c）复原投影 $\boldsymbol{x}_{0}+\pi_{U}\left(\boldsymbol{x}-\boldsymbol{x}_{0}\right)$ ，从而得到最终正交投影 $\pi_{L}(\boldsymbol{x})$ 。

3.8.4 仿射子空间上的投影

到目前为止，我们讨论了如何将向量投影到低维子空间 $U$ 上。下面，我们将提供了一个将向量投影到仿射子空间的解决方案。

考虑图3.13(a)中的设定。现给出仿射空间 $L=\boldsymbol{x}_{0}+U$ ，其中 $\boldsymbol{b}_{1},\boldsymbol{b}_{2}$ 是 $U$ 的基向量。为了确定 $\boldsymbol{x}$ 在 $L$ 上的正交投影 $\pi_{L}(\boldsymbol{x})$ ，我们把这个问题转化为一个我们知道如何解决的问题：在向量子空间上的投影。为了达到这个目的，我们将 $\boldsymbol{x}$ 和 $L$ 减去支撑点 $\boldsymbol{x}_0$ ，这样 $L-\boldsymbol{x}_0=U$ 就变成向量子空间 $U$ 了。然后使用第3.8.2节中讨论的子空间上的正交投影，得到投影 $\pi_{U}\left(\boldsymbol{x}-\boldsymbol{x}_{0}\right)$ ，如图3.13(b)所示。

这个投影现在可以通过加 $\boldsymbol{x}_0$ 转换回 $L$ ，这样我们就得到了仿射空间 $L$ 上的正交投影
$\pi_{L}(\boldsymbol{x})=\boldsymbol{x}_{0}+\pi_{U}\left(\boldsymbol{x}-\boldsymbol{x}_{0}\right)$
其中 $π_U(·)$ 是在子空间 $U$ 上的正交投影，即 $L$ 的方向空间；见图3.13 (c )。

从图3.13还可以明显看出， $\boldsymbol{x}$ 到仿射空间 $L$ 的距离与 $\boldsymbol{x}-\boldsymbol{x}_{0}$ 到 $U$ 的距离相同，即：
$\begin{aligned}d(\boldsymbol{x}, L) &=\left\|\boldsymbol{x}-\pi_{L}(\boldsymbol{x})\right\|=\left\|\boldsymbol{x}-\left(\boldsymbol{x}_{0}+\pi_{U}\left(\boldsymbol{x}-\boldsymbol{x}_{0}\right)\right)\right\| \\&=d\left(\boldsymbol{x}-\boldsymbol{x}_{0}, \pi_{U}\left(\boldsymbol{x}-\boldsymbol{x}_{0}\right)\right)=d\left(\boldsymbol{x}-\boldsymbol{x}_{0}, U\right)\end{aligned}$

在12.1节分类中，我们将使用仿射子空间上的投影引出分离超平面的概念。

【机器学习的数学基础】（五）解析几何(Analytic Geometry)（下）_机器学习_06
图 3.14 旋转使物体绕平面内的一个原点旋转。如果旋转角度是正的，我们就逆时针旋转

图 3.15机械臂需要旋转关节来拾取或正确放置物体。图片来源于（Deisenroth等人，2015）。

3.9 旋转

3.4节所讨论的长度和角度保持不变，是正交变换矩阵的线性映射的两个特征。在下面，我们将仔细研究描述旋转的特定的正交变换矩阵。

旋转(rotation)是一种线性映射（更具体地说，是欧氏向量空间的自同构），它将平面绕原点旋转 $θ$ 角，即原点是一个不动点。对于 $θ > 0$ ，按照惯例，我们采取逆时针旋转。图3.14对应的转换矩阵是：
$\boldsymbol{R}=\left[\begin{array}{cc}-0.38 & -0.92 \\0.92 & -0.38\end{array}\right]$

旋转的重要应用领域包括计算机图形学和机器人学。例如，在机器人学中，需要知道如何旋转机械臂的关节以拾取或放置物体，如图3.15。

【机器学习的数学基础】（五）解析几何(Analytic Geometry)（下）_数学基础_08
图 3.16 $\mathbb{R}^2$ 中的标准基旋转 $\theta$

3.9.1 $\mathbb{R}^{2}$ 中的旋转

考虑 $\mathbb{R}^{2}$ 的标准基 $\left\{e_{1}=\left[\begin{array}{l}1 \\0\end{array}\right], \boldsymbol{e}_{2}=\left[\begin{array}{l}0 \\1\end{array}\right]\right\}$ ，它定义了 $\mathbb{R}^{2}$ 的标准坐标系。我们的目标是将这个坐标系旋转 $θ$ 角，如图3.16所示。注意，旋转后向量仍然是线性独立的，因此是 $\mathbb{R}^{2}$ 的基。这意味着旋转将执行基变换。

旋转 $Φ$ 是线性映射，因此我们可以用旋转矩阵(rotation matrix) $\boldsymbol{R}(\theta)$ 来表示它们。三角关系(见3.16)允许我们确定被旋转的坐标轴（ $Φ$ 的像）相对于 $\mathbb{R}^{2}$ 中标准基的坐标。我们获得
$\Phi\left(\boldsymbol{e}_{1}\right)=\left[\begin{array}{c}\cos \theta \\\sin \theta\end{array}\right], \quad \Phi\left(\boldsymbol{e}_{2}\right)=\left[\begin{array}{c}-\sin \theta \\\cos \theta\end{array}\right]$
因此，将基变换为旋转坐标的旋转矩阵 $\boldsymbol{R}(\theta)$ 为：
$\boldsymbol{R}(\theta)=\left[\begin{array}{ll}\Phi\left(\boldsymbol{e}_{1}\right) & \left.\Phi\left(\boldsymbol{e}_{2}\right)\right]\end{array}=\left[\begin{array}{cc}\cos \theta & -\sin \theta \\\sin \theta & \cos \theta\end{array}\right]\right.$

3.9.2 $\mathbb{R}^{3}中$ 的旋转

与 $\mathbb{R}^{2}$ 不同的是，在 $\mathbb{R}^{3}$ 中，我们可以围绕其中一维的轴旋转任何二维平面。确定通用旋转矩阵的最简单方法是确定标准基 $e_{1}, e_{2}, e_{3}$ 旋转得到的像，并确保这些像 $\boldsymbol{R e}_{1}, \boldsymbol{R e}_{2}, \boldsymbol{R} \boldsymbol{e}_{3}$ 彼此正交。然后，我们可以通过组合标准基的像得到一个通用的旋转矩阵 $\boldsymbol{R}$ 。

为了得到一个有意义的旋转角度，我们必须定义在两个以上的维度上操作时“逆时针”的含义。按照惯例，绕轴的“逆时针”（平面）旋转的情形是旋转轴“头朝上“，我们从它的尖端看向原点。在 $\mathbb{R}^{3}$ 中，围绕三个标准基向量有三个（平面）旋转，如图3.17。
【机器学习的数学基础】（五）解析几何(Analytic Geometry)（下）_机器学习_09
图 3.17 $\mathbb{R}^3$ 中的向量(灰色)绕 $e_3$ 轴旋转一个角 $θ$ 。旋转后的向量用蓝色表示。

绕 $e_1$ 轴旋转：
$\boldsymbol{R}_{1}(\theta)=\left[\begin{array}{lll}\Phi\left(\boldsymbol{e}_{1}\right) & \Phi\left(\boldsymbol{e}_{2}\right) & \Phi\left(\boldsymbol{e}_{3}\right)\end{array}\right]=\left[\begin{array}{ccc}1 & 0 & 0 \\0 & \cos \theta & -\sin \theta \\0 & \sin \theta & \cos \theta\end{array}\right]$
这里， $\boldsymbol{e}_{1}$ 坐标是固定的，然后对 $\boldsymbol{e}_{2}\boldsymbol{e}_{3}$ 平面中执行逆时针旋转。
绕 $e_2$ 轴旋转：
$\boldsymbol{R}_{2}(\theta)=\left[\begin{array}{ccc}\cos \theta & 0 & \sin \theta \\0 & 1 & 0 \\-\sin \theta & 0 & \cos \theta\end{array}\right]$
如果我们围绕 $e_2$ 轴旋转 $e_1e_3$ 平面，我们需要从 $e_2$ 轴的“尖端”看向原点。
绕 $e_3$ 轴旋转：
$\boldsymbol{R}_{3}(\theta)=\left[\begin{array}{ccc}\cos \theta & -\sin \theta & 0 \\\sin \theta & \cos \theta & 0 \\0 & 0 & 1\end{array}\right]$
如图

3.9.3 $\mathbb{R}^{n}$ 中的旋转

从二维和三维推广到 $n$ 维的欧氏向量空间的旋转可以直观地描述为固定其 $n - 2$ 维，旋转 $n$ 维空间中的二维平面。就像在三维情况下，我们可以旋转任意平面（ $\mathbb{R}^{n}$ 的二维子空间）。

定义 3.11 Givens旋转(Givens Rotation)

设 $V$ 是 $n$ 维欧氏向量空间，对于 $\leqslant i\lt j \leqslant n \text { and } \theta \in \mathbb{R}$ ，自同构 $\Phi: V \rightarrow V$ 具有变换矩阵：
$\boldsymbol{R}_{i j}(\theta):=\left[\begin{array}{ccccc}\boldsymbol{I}_{i-1} & \mathbf{0} & \cdots & \cdots & \mathbf{0} \\\mathbf{0} & \cos \theta & \mathbf{0} & -\sin \theta & \mathbf{0} \\\mathbf{0} & \mathbf{0} & \boldsymbol{I}_{j-i-1} & \mathbf{0} & \mathbf{0} \\\mathbf{0} & \sin \theta & \mathbf{0} & \cos \theta & \mathbf{0} \\\mathbf{0} & \cdots & \cdots & \mathbf{0} & \boldsymbol{I}_{n-j}\end{array}\right] \in \mathbb{R}^{n \times n}$
$\boldsymbol{R}_{i j}(\theta)$ 称为Givens旋转(Givens Rotation)。可以看到， $\boldsymbol{R}_{i j}(\theta)$ 是由一个单位矩阵 $\boldsymbol{I}_{n}$ 作以下改变：
$r_{i i}=\cos \theta, \quad r_{i j}=-\sin \theta, \quad r_{j i}=\sin \theta, \quad r_{j j}=\cos \theta$

对于二维（即 $n = 2$ ），我们可以得到：
$\boldsymbol{R}(\theta)=\left[\Phi\left(\boldsymbol{e}_{1}\right) \quad \Phi\left(\boldsymbol{e}_{2}\right)\right]=\left[\begin{array}{cc}\cos \theta & -\sin \theta \\\sin \theta & \cos \theta\end{array}\right]$
这一特例。

3.9.4 旋转的性质

旋转表现出许多有用的性质，这些性质可以通过将它们视为正交矩阵来说明（定义3.8）：

旋转保持距离，即 $\|\boldsymbol{x}-\boldsymbol{y}\|=\left\|\boldsymbol{R}_{\theta}(\boldsymbol{x})-\boldsymbol{R}_{\theta}(\boldsymbol{y})\right\|$ 。换句话说，任意两点旋转变换之后，它们之间的距离保持不变。
旋转保持角度，即 $\boldsymbol{R}_{\theta}\boldsymbol{x}$ 和 $\boldsymbol{R}_{\theta}\boldsymbol{y}$ 之间的角度与 $\boldsymbol{x}$ 和 $\boldsymbol{y}$ 之间的相同。
三维（或更多）的旋转通常是不可交换顺序的。因此，应用旋转的顺序是很重要的，即使它们围绕同一点旋转。在二维空间中，向量旋转是可交换的，即对于所有 $\phi, \theta \in[0,2 \pi)$ ， $\boldsymbol{R}(\phi) \boldsymbol{R}(\theta)=\boldsymbol{R}(\theta) \boldsymbol{R}(\phi)$ 。只有当它们围绕同一点（例如原点）旋转时，它们才会形成一个阿贝尔群（关于乘法的）。

翻译自：
《MATHEMATICS FOR MACHINE LEARNING》作者是 Marc Peter Deisenroth，A Aldo Faisal 和 Cheng Soon Ong

公众号后台回复【m4ml】即可获取这本书。

另外，机器学习的数学基础.pdf

上一篇：【机器学习的数学基础】（六）矩阵分解(Matrix Decomposition)(上)

下一篇：【机器学习的数学基础】（四）解析几何(Analytic Geometry)（上）

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯