李宏毅机器学习——无监督学习(三)

原创

愤怒的可乐 2022-07-13 18:20:50 ©著作权

文章标签 数据降维方法机器学习数据相似度权重 文章分类 机器学习人工智能

©著作权归作者所有：来自51CTO博客作者愤怒的可乐的原创作品，请联系作者获取转载授权，否则将追究法律责任

引言

本文主要探讨一些非线性降维方法。主要讨论近邻嵌入(Neighor Embedding)。

流行学习

流行学习(Manifold Learning)认为我们所能观察到的数据实际上是由一个低维流行映射到高维空间的。

李宏毅机器学习——无监督学习(三)_数据

比如把一个二维的平面硬塞到三维的空间里面，这个二维的图形就是一个流行(manifold)。

李宏毅机器学习——无监督学习(三)_数据_02

假设我们看这个空间中的点A，可以说它和B点较远，和C点较近。对于这种比较接近的点，我们可以用欧几里得距离来计算它们之间的距离。

李宏毅机器学习——无监督学习(三)_机器学习_03

但是如果用欧几里得距离计算A点和D、E两点的距离哪个比较近，得到的结论可能是黄色区域的D点比较远。

但是如果我们把上图想象成一条路的话，走到E点实际上是比D点要远的。

如果我们可以把这个三维空间中的数据降到二维，那就可以用聚类或接下来介绍的监督学习方法。

好了，接下来要介绍的第一个方法叫LLE。

局部线性嵌入

局部线性嵌入(Local Liner Embedding,LLE)假设数据在较小的局部是线性的，某一个数据可以由它邻域中的几个样本来线性表示。

李宏毅机器学习——无监督学习(三)_数据降维方法_04

假设在高维的空间中有个点 $李宏毅机器学习——无监督学习(三)_机器学习_05$ ，在这个点附近有一些邻居，上面红色的那些点。我们用 $李宏毅机器学习——无监督学习(三)_数据_06$ 表示 $李宏毅机器学习——无监督学习(三)_机器学习_05$ 和 $李宏毅机器学习——无监督学习(三)_机器学习_08$ 之间的关系。

假设 $李宏毅机器学习——无监督学习(三)_机器学习_05$ 可以用它的邻居做线性组合(liner combination)表示出来，而这个线性组合的权重就是 $李宏毅机器学习——无监督学习(三)_数据_06$ 。

使得下式最小化，可以得到权重系数 $李宏毅机器学习——无监督学习(三)_数据降维方法_11$

$李宏毅机器学习——无监督学习(三)_数据_12$

LLE要做的事情是降维的结果 $李宏毅机器学习——无监督学习(三)_机器学习_05$ 降到 $李宏毅机器学习——无监督学习(三)_权重_14$ , $李宏毅机器学习——无监督学习(三)_机器学习_08$ 降到 $李宏毅机器学习——无监督学习(三)_相似度_16$ ，它们之间的关系还是 $李宏毅机器学习——无监督学习(三)_数据_06$ 。

李宏毅机器学习——无监督学习(三)_机器学习_18

找出了 $李宏毅机器学习——无监督学习(三)_数据降维方法_11$ 系数后，然后通过最小化下式找出 $李宏毅机器学习——无监督学习(三)_相似度_20$

$李宏毅机器学习——无监督学习(三)_相似度_21$

下面介绍一个和LLE很像的方法——拉普拉斯特征映射(Laplacian Eigenmaps)

拉普拉斯特征映射

它是一个基于图的方法。

李宏毅机器学习——无监督学习(三)_机器学习_22

上面我们说用欧几里得距离不太准确，这个方法提出使用图来描述两点之间的距离。

这个方法是通过图来做降维。

李宏毅机器学习——无监督学习(三)_权重_23

首先需要根据数据点来做出图结构。
在半监督学习中，我们提到了不止考虑有标签数据之间的交叉熵，我们还会加上来自于图结构的正则项(regularization term)。

李宏毅机器学习——无监督学习(三)_相似度_24

这个正则项是说，如果 $李宏毅机器学习——无监督学习(三)_机器学习_25$ 这两笔数据，它们中间边的权重是 $李宏毅机器学习——无监督学习(三)_数据_26$ 的话，我们希望这两笔数据的标签越近越好。

李宏毅机器学习——无监督学习(三)_数据降维方法_27

前面说的是用在监督学习上。如果用在无监督学习上会怎样。

如果 $李宏毅机器学习——无监督学习(三)_相似度_28$ 和 $李宏毅机器学习——无监督学习(三)_权重_29$ 在高密度区域是接近的，那么降维后的结果 $李宏毅机器学习——无监督学习(三)_数据_30$ 和 $李宏毅机器学习——无监督学习(三)_数据降维方法_31$ 也应该是接近的。
$李宏毅机器学习——无监督学习(三)_数据_30$ 和 $李宏毅机器学习——无监督学习(三)_数据降维方法_31$ 它们要使下面这个式子最小化。
$李宏毅机器学习——无监督学习(三)_机器学习_34$