这个Matlab库实现了偏最小二乘法回归和判别分析。

偏最小二乘回归是对多元线性回归模型的一种扩展,在其最简单的形式中,只用一个线性模型来描述独立变量Y与预测变量组X之间的关系:

Y = b0 + b1X1 + b2X2 + ... + bpXp

在方程中,b0是截距,bi的值是数据点1到p的回归系数。

作为一个多元线性回归方法,偏最小二乘回归的主要目的是要建立一个线性模型:Y=XB+E,其中Y是具有m个变量、n个样本点的响应矩阵,X是具有p个变量、n个样本点的预测矩阵,B是回归系数矩阵,E为噪音校正模型,与Y具有相同的维数。在通常情况下,变量X和Y被标准化后再用于计算,即减去它们的平均值并除以标准偏差。

线性判别分析(Linear Discriminant Analysis),简称判别分析,是统计学上的一种分析方法,用于在已知的分类之下遇到有新的样本时,选定一个判别标准,以判定如何将新样本放置于哪一个类别之中。这种方法主要应用于医学的患者疾病分级,以及人脸识别、经济学的市场定位、产品管理及市场研究等范畴。

1970年Sammon提出了基于Fisher鉴别准则的最佳鉴别平面的概念。随后,Foley和Sammon进一步提出了采用一组满足正交条件的最佳鉴别矢量集进行特征抽取的方法。

1988年Duchene和Leclercq给出了多类情况下最佳鉴别矢量集的计算公式。

2001年Jin和Yang 从统计不相关的角度,提出了具有统计不相关性的最优鉴别矢量集的概念。与F-S鉴别矢量集不同的是,具有统计不相关性的最优鉴别矢量是满足共轭正交条件的,该方法被称为不相关的鉴别分析或Jin-Yang线性鉴别法。

以上提到的各种方法仅适用于类内散布矩阵非奇异(可逆)的情形,但实际应用中存在着大量的典型的小样本问题,比如在人脸图像识别问题中,类内散布矩阵经常是奇异的。这是因为待识别的图像矢量的维数一般较高,而在实际问题中难以找到或根本不可能找到足够多的训练样本来保证类内散布矩阵的可逆性。因此,在小样本情况下,如何抽取Fisher最优鉴别特征成为一个公认的难题。

可以参考test_package_functions.m示例。