在很多应用领域,例如模式识别,语义分析,文本分类等等,通常是高维的数据。在这种情况下,降维是一个有效的处理这些数据的方法。到目前为止,出现了很多的降维方法,可分为三大类,无监督、监督、半监督。监督的降维方法主要包括线性判别分析(LDA),边缘Fisher分析(MFA),最大边缘准则(MMC)。无监督的降维方法主要包括主成分分析(PCA),局部保持投影(LPP)等等。而半监督降维方法包括了半监督降维(SSDR)、半监督判别分析(SDA)。这篇文章我只谈无监督降维方法。在我看来,随着不断发展,数据的规模越来越大,监督信息的获取是一个问题,无监督才是最后的赢家。监督降维方法和半监督方法以后有时间再写。
为什么要降维
对于一个数据矩阵$X \in R^{n \times p}$,这里的$n$代表样本数,$p$代表变量数,即维度,对于每个变量都是零均值的。在很多的数据中,维度$p$往往很高,例如在图像数据中,我们都知道一个图像就是一个矩阵,假设是一个方阵$m \times m$。我们把一个图像的数据矩阵展开为一个行向量,这样多幅图像按行排列成了一个矩阵,$n$就代表共有多少幅图像,而$p=m \times m$则代表图像的维度。这样的图像数据维度是很高的,比如一个分辨率不高的图像$256 \times 256$,展开成向量时,维度变成了65536维,这个维度是很吓人的,而且这还只是一个分辨率较低的图像。所以我们需要降维。
主成分分析(PCA)
主成分分析是降维方法中最流行的一个方法了。假定有一个数据矩阵$X \in R^{n \times p}$,我们希望找到一个投影矩阵,将$X$投影到低维空间,并且使得投影后的数据样本间有最大方差,所谓最大方差是指各个样本间能够尽量分开。假设投影方向向量为$W \in R^{p \times r}$,对矩阵$X$做投影得到$XW=Y$,$Y \in R^{n \times r}$就是投影后的矩阵,这里的$r$为降维后数据的维度,$r<p$,于是达到了降维的功能,接下来我们来考虑怎么去选择投影矩阵$W$,我们的目标函数是使得降维后矩阵$Y$的样本间方差最大。于是得到以下优化问题:
$$\max \frac{w^{T}X^{T}Xw}{w^{T}w}$$
求解这个问题,相当于对矩阵$X^{T}X$求最大特征值,如果我们求解前$r$个特征值,这前$r$个特征值所对应的特征向量即构成了一个投影矩阵$W$. 主成分分析可以应用到特征脸问题。
局部保持投影(LPP)