李宏毅机器学习——无监督学习(一)

原创

愤怒的可乐 2022-07-13 18:21:04 ©著作权

文章标签 机器学习数据二维相似度 文章分类 机器学习人工智能

©著作权归作者所有：来自51CTO博客作者愤怒的可乐的原创作品，请联系作者获取转载授权，否则将追究法律责任

引言

本文主要探讨无监督学习的线性方法(Linear Methods)。

聚类

李宏毅机器学习——无监督学习(一)_二维

把很多不同的图像，根据它们的相似度分成不同的组（类别），问题是要分成多少个组。

最常用的方法有：

K-means

聚类 $李宏毅机器学习——无监督学习(一)_数据_02$ 个数据 $李宏毅机器学习——无监督学习(一)_数据_03$ 到 $李宏毅机器学习——无监督学习(一)_机器学习_04$ 个组
初始化 $李宏毅机器学习——无监督学习(一)_机器学习_04$ 个分组中心点: $李宏毅机器学习——无监督学习(一)_机器学习_06$ ,可以从 $李宏毅机器学习——无监督学习(一)_机器学习_07$ 中随机 $李宏毅机器学习——无监督学习(一)_机器学习_04$ 个点出来
重复

对 $李宏毅机器学习——无监督学习(一)_数据_09$ 中的所有数据 $李宏毅机器学习——无监督学习(一)_数据_10$ ：如果 $李宏毅机器学习——无监督学习(一)_数据_10$ 最接近 $李宏毅机器学习——无监督学习(一)_二维_12$ ,那么 $李宏毅机器学习——无监督学习(一)_数据_10$ 就属于 $李宏毅机器学习——无监督学习(一)_二维_12$ ，同时令 $李宏毅机器学习——无监督学习(一)_数据_15$ ；否则令 $李宏毅机器学习——无监督学习(一)_数据_16$
更新所有的中心点 $李宏毅机器学习——无监督学习(一)_机器学习_17$

层次凝聚聚类算法(Hierarchical Agglomerative Clustering,HAC)

步骤一：建一个树

李宏毅机器学习——无监督学习(一)_二维_18

假设有5个样本，这种方法怎么聚类呢，首先把这5个样本相互之间计算相似度，然后选择最相似的两个合并成一个新的样本6。现在只剩下4个样本了，再计算之间的相似度，把最相似的两个数据合并起来，这里假设是4,5合并成了7。同理，最后只剩2个样本8和7。它们之间有共同的父节点root。

步骤二：选取一条分割线(threshold)

李宏毅机器学习——无监督学习(一)_机器学习_19

假设像上面这样切一刀，那么就得到三个分组。

降维(Dimension Reduction)

李宏毅机器学习——无监督学习(一)_数据_20

假设你的数据从三维空间看是长这样的，但是用三维来描述它是不必要的。可以通过二维的图像来描述它。

李宏毅机器学习——无监督学习(一)_数据_21

比如在MNIST的手写数字识别中，一个图像有28*28的。实际上其中大多数像素点代表的东西并不是数字，可能是空白啥的。
一个极端的例子是把数字三按不同的角度进行旋转。

李宏毅机器学习——无监督学习(一)_机器学习_22

只要知道其中一幅图像和它的角度，就可以知道其他图像。

那怎么做降维呢。

还是要找到一个函数，它的输入是向量 $李宏毅机器学习——无监督学习(一)_数据_23$ ，输出是向量 $李宏毅机器学习——无监督学习(一)_二维_24$ ，其中 $李宏毅机器学习——无监督学习(一)_二维_24$ 的维度必须必 $李宏毅机器学习——无监督学习(一)_数据_23$ 小。

李宏毅机器学习——无监督学习(一)_二维_27

其中最简单的方法是特征选择(Feature selection)

李宏毅机器学习——无监督学习(一)_相似度_28

最简单的情况是， $李宏毅机器学习——无监督学习(一)_机器学习_29$ 这个维度的特征完全没用，我们就可以直接只选择 $李宏毅机器学习——无监督学习(一)_数据_30$ 这个维度。但是这种情况比较罕见。通常每个维度或多或少都有一定的作用。

有一种常见的方法叫主成分分析(Principle component analysis,PCA)

这个 $李宏毅机器学习——无监督学习(一)_机器学习_31$ 是个很简单的线性函数，输入 $李宏毅机器学习——无监督学习(一)_数据_23$ 和输出 $李宏毅机器学习——无监督学习(一)_二维_24$ 之间的关系，就是一个线性的转换。
现在要做的事情就是根据很多输入，找出这个 $李宏毅机器学习——无监督学习(一)_数据_34$ 。

假设我们要降到1维的情况。此时 $李宏毅机器学习——无监督学习(一)_二维_24$ 就是一个标量, $李宏毅机器学习——无监督学习(一)_数据_34$ 是行向量：

$李宏毅机器学习——无监督学习(一)_相似度_37$ , $李宏毅机器学习——无监督学习(一)_相似度_38$ 表示 $李宏毅机器学习——无监督学习(一)_数据_34$ 的第一行，我们把 $李宏毅机器学习——无监督学习(一)_数据_23$ 与 $李宏毅机器学习——无监督学习(一)_相似度_38$ 做内积，得到 $李宏毅机器学习——无监督学习(一)_相似度_42$