目录
简单介绍
研究对象
研究内容
图示方法
1. 多元正态分布&参数估计
1.1 随机向量
1.1.1 随即向量基本概念
1.1.2 随机向量的数字特征
1.2 多元正态分布
1.2.1 多元正态分布的基本概念
1.2.2 条件分布
1.3 随机矩阵的正态分布
1.4 多元正态分布的参数估计
1.4.1 多元正态样本的数字特征
1.4.2 参数的极大似然估计
2. 多元正态总体参数的假设检验
2.1 几个重要的统计量
2.2 单总体均值向量的检验
2.2.1假设检验
2.2.2 通过似然比统计量进行假设检验
2.2.3 置信域
2.3 多总体均值向量的检验
2.4 协方差阵的检验
3. 回归分析
4. 判别分析
4.1 距离判别法
4.1.1 距离的定义:
4.1.2 距离判别
4.2 贝叶斯判别法
4.2.1 先验概率
4.2.2 广义平方判别法
4.2.3 后验概率
4.2.4 贝叶斯判别准则
4.3 费歇判别 Fisher
5. 聚类分析
5.1 距离
5.2 系统聚类法
5.2.1 系统聚类法的步骤
5.2.2 类间距离的定义
6. 主成分分析
6.1 总体的主成分
6.1.1 主成分的定义
6.1.2 求主成分
6.1.3 总体主成分的性质
6.1.4 主成分的贡献率
6.2 样本主成分
6.2.1 主成分得分
6.2.2 样本主成分性质
7. 因子分析
7.1 因子模型
7.1.1 正交因子模型
7.1.2 统计意义
7.1.3 因子模型特性
7.2 参数估计方法
7.2.1 主成分法
7.2.2 主因子法
8. 对应分析方法
9. 典型相关分析
10. 偏最小二乘回归分析
简单介绍
研究对象:
p个变量的n次观测组成的数据矩阵
研究内容:
(1) 降维问题(简化数据结构)
比如因子分析、主成分分析等等
(2) 归类问题(分类与判别)
比如聚类分析、判别分析等等
(3) 变量间的相互联系
比如回归分析、典型相关分析等等
(4) 多元数据的统计推断
参数估计、协方差阵的假设检验问题。这里统计量巨多,每个统计量性质一大堆,麻烦死了。
(5) 多元统计分析的理论基础
如研究多维随机向量、多维正态随机向量的分布和性质等等。是整个多元统计的基础。
图示方法:
一维二维三维都可以画出来,但是更高维就难啦,因此可以选用其他作图方法。
(1) 轮廓图
横坐标为p个变量,纵坐标为变量的观测值大小,一条折线表示一组观测。如下:
(2) 雷达图
(3) 调和曲线图
即将多维空间一个点对应于二维空间一条曲线。p维数据对应的曲线为:
(4) 散布图矩阵
变量之间两两配对生成的散点图矩阵,如下:
(6) 脸谱图
1. 多元正态分布&参数估计
多元正态分布在多元统计里面非常非常重要,一方面是很多统计量都服从或是在大样本的条件下近似服从正态分布,一方面是现在已经有了一套关于正态分布的统计推断方法。
1.1 随机向量
1.1.1 随即向量基本概念
随机向量:多元统计讨论的多变量总体,即将p个随机变量放在一起形成的p维随机向量X=(X1,X2,...,Xp).
样品:对p个变量做一次观测得到观测值(x1,x2,...,xp).
样本数据阵:观测n次,n个样品构成一个样本。将样品排列成n*p矩阵,则构成了样本数据阵。在具体观测前,样本数据阵是一个随机阵。
随机向量的联合分布:p维随机向量X=(X1,X2,...,Xp)'的联合分布为p元函数F(x1,x2,...,xp)=P{X1<=x1,X2<=x2,...,Xp<xp}。如果X为连续性随机向量,还对应存在联合概率密度函数 f(x1.x2,...,xp)。
随机向量的边缘分布:随机向量X的部分分量的分布称作边缘分布。
随机向量的条件分布:如对于2维随机向量X=(X1,X2),当给定X2时,称X1的分布为条件分布。同样,当X密度函数为f(x1,x2)时,给定X2时X1的条件密度函数为 f(x1|x2)=f(x1,x2)/f(x2),其中f(x2)为X2的密度函数。
独立性:若F(x1,x2,...,xp)=F(x1)F(x2)...F(xp)
1.1.2 随机向量的数字特征
(1) 均值向量:
称 E(X) = (E(X1)...E(Xp))' = (
)' 为随机向量X的均值向量(若E(Xi)均存在)。
(2) 协方差矩阵:
若随机变量Xi,Xj的协方差Cov(Xi,Xj)均存在,称D(X)=E[(X-E(X))(X-E(X))']为随机向量X的协方差阵。
(3) 随机向量X和Y的协方差阵:
若Xi和Yj的协方差均存在,则称COV(Xi,Yj)=E[(X-E(X))(Y-E(Y))]为随机向量X与Y的协方差阵。若COV(X,Y)=O,则认为X,Y不相关。
随机向量X的相关阵:
称
为相关阵,其中
,而相关阵和协方差阵的关系可以如此表示——若记标准差矩阵为
,则
均值向量与协方差阵的性质(E(X)与D(X)):与一维情况类似
(4) 均值向量与协方差阵的性质
a. 若A,B为常数矩阵,则
E(AX)=AE(X),
E(AXB)=AE(X)B,
D(AX)=AD(X)A',
COV(AX,BX)=ACOV(X,X)B'
b. 若X,Y相互独立,则COV(X,Y)=O,即X,Y不相关;但反之不一定成立。
c. 随机向量X的协方差阵D(X)是对称非负定矩阵。即 D(X)>=0 。
d.
,其中L为非负定矩阵。因为
,可以利用线代中实对称矩阵的对角化定理,存在正交矩阵
,使得
当
时,也就是说
正定时,称L为
的平方根矩阵,记作
,且此时存在非退化的p*p矩阵A,使得
,其中:
但若
,一定存在p*q的矩阵A1,使得
,其中:
,
为p*q正交阵 。
。
1.2 多元正态分布
1.2.1 多元正态分布的基本概念
(1) p维正态随机向量定义:若U1,U2..Up为相互独立且均服从标准正态分布的随机变量,
为p维常数向量,A为p*q维常数矩阵,U=(U1,U2,...,Up)。那么,称
为p维正态随机向量,其分布为p维正态分布,记作
。(2) 性质1:若B为s*p常数矩阵,d为s维常数向量,
,
,那么Y=BX+d 是s维正态随机向量,记作:
(3) 性质2:若
,
,
,则存在:
(4) 独立性:接上,当
(即
不相关) 是
相互独立的充要条件。因此类似的,若
,其中
为对角矩阵,则X1,X2,...,Xp相互独立。
(5) X的部分数字特征:
a. 均值
b. 方差
(6) p维正态随机向量的联合分布
1.2.2 条件分布
(1) 定义:若
,
,
,则
给定时,
的条件分布为:
,且若
为r维,
为p-r维,则此时
是 r 维正态随机向量。其中,
称作条件期望,
为回归系数,
称作条件协方差阵。
(2) 性质1:
(3) 性质2:
条件协方差阵
=
,其中
称作
给定时 Xi和Xj的偏自相关系数。
1.3 随机矩阵的正态分布
(1) 随机矩阵 :
其中,
为一个样本,即p维向量一组观测值。(2) 拉直运算:
,即将矩阵X的列一个接一个拉成一个np维的长向量。如果想要将样品一个一个连起来,那么应该记作 Vec(X') 。注意:对称矩阵的拉直运算
是将矩阵拉直成 p(p+1)/2 维向量,因为对称矩阵里不是含p*p个随机向量而是含p(p+1)/2个。(即拉直对称矩阵的一个三角形区域。)
(3) Kronecker积
(4) 随机矩阵的正态分布
设随机矩阵中的
为p维随机向量的一个样品,易得 :
1.4 多元正态分布的参数估计
1.4.1 多元正态样本的数字特征
(1) 样本均值向量
(2) 中心化数据阵
(3) 样本离差阵
(4) 样本离差阵
或者,
(5) 样本相关阵
1.4.2 参数的极大似然估计
设
为p维正态总体
的随机样本,可以用极大似然法来求未知参数
。将随机数据阵X按行拉直,得到拉直矩阵Vec(X'),而拉直矩阵的联合密度函数(即样本的联合密度)可以看作关于
的函数,称作
的似然函数,记作
。我们要做的就是找出使得该联合密度函数最大的
。
经过一系列计算得到:
性质:
(1)
(2)
,其中,Zk为独立的,且同标准正态分布。(3)
相互独立(4)
2. 多元正态总体参数的假设检验
2.1 几个重要的统计量
类似于一元正态总体参数的假设检验里面需要卡方分布、t分布、F分布一样,多元正态总体参数假设检验里面也需要利用一些分布。
2.2 单总体均值向量的检验
2.2.1假设检验
关于正态总体均值的检验大致有以下三种,我们这里主要讨论第一种,即单总体均值向量的检验。
(1) 当
已知时因为已知
,提出假设:原假设
在原假设下构造统计量:
给定显著性水平α,进行检验:
a. 法一:
查表得到卡方统计量的临界值
,若
则拒绝原假设,认为
和
之间有显著差别。
b. 法二:
通过计算p值得到检验结果。如果通过样本计算得到
的值为d,则p值为
>d 的概率。若p<α,则拒绝原假设。(2) 当
未知时提出假设:原假设
在原假设下构造统计量:
可以利用F分布和T2分布之间的关系:
2.2.2 通过似然比统计量进行假设检验
p维正态总体密度函数为
,其中,
为未知参数。提出假设:
从总体中抽取n个样本
,样本的联合密度函数
即称作样本的似然函数,记作
。
构造统计量:
,显然,这是关于样本
的函数,称作似然比统计量。
如果取值太小则说明原假设为真时观测到此样本的概率比不为真时观测到的概率小得多,因此应该拒绝原假设。
拒绝域为:
有些 存在精确分布,但有些分布还是未知的,那么未知的情况怎么办呢?
经过前人不断实验,我们现在已知,在大样本下,有:
,其中,f 为
的维度减去
的维度。
2.2.3 置信域
当
未知时,原假设
下有统计量:
F分布和T2分布之间的关系:
因此,均值向量
置信度为1-α的置信域为:
即若
落入置信域,则可以在显著性水平为 α的情况下接受原假设。
2.3 多总体均值向量的检验
(1) 两总体的协方差矩阵相等但未知时
设
来自总体
的样本;
为来自总体
,X,Y相互独立。提出假设:
构造统计量:
由F分布和T2分布的关系有:
随后进行F检验即可啦。
(2) 两总体协方差阵不相等时
其实也没有啥好办法啦。
a. 当样本个数m=n时,可以把样本作为成对数据处理。构造
,则回到了单总体均值假设检验问题。b. m和n不相等时,构造新总体Z的样本
如下:
(3) 多个总体均值检验
也称多元方差分析。
a. p=1时
设有k个一元正态总体
,分别从k个总体中提取
个样本:
提出假设:
写出一些相关的样本均值:
总偏差平方和:
组内偏差平方和:
组间偏差平方和:
SST不变的时候,如果原假设成立,那么组间偏差平方和应该比较小,也即SSA/SSE应该比较小。
构造统计量:
给定显著性水平α,若
,则拒绝原假设。
b. p>1时
设有k个p元正态总体
,分别从k个总体中提取
个样本:
提出假设:
写出一些相关的样本均值:
组内离差阵:
组间离差阵:
总离差阵:
构造统计量:
给定显著性水平α,查表找到临界值
,若
,则拒绝原假设。
2.4 协方差阵的检验
设
为p维正态总体
的随机样本。提出检验:
(
为一已知协方差阵)(1) 当
时
利用似然比原则构造检验统计量:
由之前的知识,不难得到:
故分子的自由度为p,分母的自由度为p+(p+1)p/2,因此f=(p+1)p/2 。
已知在大样本下:
因此,在显著性水平α下,查表得到临界值
,若
,则拒绝原假设。(2) 当
时存在正定矩阵,使得
,令
,则
,对
的协方差矩阵进行类似(1)的过程即可。
3. 回归分析
略
4. 判别分析
用于判别样品属于哪个总体的问题。
4.1 距离判别法
思想:样本离哪个总体近,就判其属于哪个总体。
4.1.1 距离的定义:
(1) 用dij表示样品
和
之间的距离,应该满足:a.
,等号成立仅当
;b.
c.
定义dij的方法有很多,考量优缺点之后我们选用马氏距离法。
(2) 马氏距离:
设总体G为m维总体,均值向量为
,协方差阵为
,则样品与总体的马氏距离定义为:
当m=1时,
4.1.2 距离判别
设有k个总体Gi (i=1,2,...,k),来自总体Gi的训练样本为:
,其中,ni为第i个总体Gi的样品个数。因此均值向量
的样本估计量为:
反映分散性的协方差阵
的样本估计量为:
,也称作组内协方差阵,其中Ai称作组内离差阵。其中,
如果假定i个总体的协方差阵一样,则协方差阵的估计量为:
其中,
(1) 两总体判别 (当协方差阵相等时)
分别计算样品到两个总体的距离,离哪个总体近,则归属于哪个总体。
简化马氏距离公式:
因此,比较样品到各总体的马氏距离时,实际上只需要计算线性判别函数:
则按距离最近的判别原则,有:
或者,也可以考察样品到两个总体的马氏距离之差,也称判别函数:
据此,判别准则也可以表示为:
错判概率:
(2) 两总体判别 (当协方差阵不相等时)
就分别算出样品到每个总体的马氏距离在比较大小即可,只不过和上面的差别是马氏距离不能化简了。
(3) 多总体判别
其实就类似于两总体判别,也可以分总体协方差相等和不等的两种情况。
4.2 贝叶斯判别法
距离判别法虽然简单方便,但是没考虑总体出现的机会即先验概率,以及错判会造成的损失,因此我们继续引出贝叶斯判别法。
4.2.1 先验概率
设有k个总体,在抽取样品作判别分析之前,已知这k个总体出现的概率分别为 q1,q2,...,qk,且q1+q2+...+qk=1 。而这组概率就称作先验概率,是一组权重。
贝叶斯判别准则要求提供这组概率的值。
赋值方法:
(1) 利用历史资料and经验
(2) 按照训练样本中各类样品所占比例 (要求随机抽样)
(3) 假定 q1=q2=...=qk=1/k
4.2.2 广义平方判别法
在正态总体的假设下,按照贝叶斯判别的思想,且认为错判造成的损失相等,此时的判别方法称作广义平方判别法。
其实就是马氏距离判别法在考虑先验概率以及协方差不等之后的推广。
定义样品X到第t个总体Gt的距离为:
其中,
为马氏距离,当各总体的协方差均相等时
为0,即:
当各总体的先验概率均相等时
为0,即:
4.2.3 后验概率
即条件概率,当样品X已知时,它属于总体Gt的概率,记为 P(Gt|X) 。
如果Gt的密度函数为
,则有
4.2.4 贝叶斯判别准则
给空间一个划分D(即一个判别准则),如果通过这个划分来判别时平均损失最小,则称这个划分D为贝叶斯判别的解。进行时要求该处错判概率、错判损失。
当错判损失相等时,广义平方判别法即为贝叶斯判别的解。
扩展内容:
4.3 费歇判别 Fisher
思想:将k组m维数据投影到某一方向,使得组与组之间尽可能分开(可以用一元方差分析判断是否分开),利用方差分析导出判别函数。
5. 聚类分析
对样品或者指标进行分类。
R型聚类分析:对指标进行分类。用处是可以了解变量之间的亲疏关系,对变量进行分类,在每一类中选出典型变量进行回归分析等等。
Q型聚类分析:对样品进行分类。是本章节主要将讨论的问题。
5.1 距离
我们通常使用距离来描述样品之间的亲疏关系。
对n个样品计算两两之间的距离dij后,可以排列成矩阵D:
其中,dij越小,表明两个样品越接近。
(1) 欧氏距离
聚类分析中运用最多的。
5.2 系统聚类法
设有n个样品,每个样品均有m个指标。
5.2.1 系统聚类法的步骤
数据预处理:对数据进行中心化变换等等。并选择要使用的定义样品间距离的方法,如欧氏距离,以及定义类与类之间距离的方法,如最短距离法。
(1) 计算样品两两之间的距离,得到初始距离矩阵
。(2) 将n个样品各成一类,此时类间距离就是样品间距离,即
。(3) 按照最小距离的原则,合并类间距离最小的两个为一个新类,得到新的类间距离
。
(4) 重复步骤(3)知道类的个数为1.
(5) 画出谱系聚类图。
(6) 写出分类的个数以及对应类的成员。
5.2.2 类间距离的定义
(1) 最短距离法
定义类的距离为两类中最近样品的距离;
(2) 最长距离法
定义类的距离为两类中最远样品的距离;
(3) 中间距离法
若将Gp和Gq合并为新类Gr之后,计算新类与其他类Gk的距离方法如下:
常取
。
(4) 重心法
每个类的重心即该类样品的均值。
若将Gp和Gq合并为新类Gr之后,他们所包含的样品个数分别为 np,nq,nr,重心分别为
计算新类与其他类Gk的距离方法如下:
d(X1,X2)为计算样品间距离的方法。
(5) 类平均法
定义类间距离为两类样品两两之间的平均平方距离。
若将Gp和Gq合并为新类Gr之后,计算新类与其他类Gk的距离方法如下:
(6) 可变类平均法
(7) 可变法
即可变平均法中 np=nq 时。
且当
时,称作相似分析法MCQ。
(8) 离差平方和法
要求样品间距离为欧氏距离。
统一的公式:
6. 主成分分析
思想:降维。即将多个指标重新组合为几个互不相关综合指标,尽可能多地反映原本信息。
6.1 总体的主成分
6.1.1 主成分的定义
设有p维随机向量
,考虑其线性变量:
,其中ai为常数向量,
。
(1) 第一主成分:
若存在 a1'a1=1 使得Z1的方差达到最大,则称Z1为第一主成分。
Z1的方差越大,表示Z1包含的信息越多,但是也需要一些限制,否则方差可能趋于无穷,而我们最常用的限制就是 a1'a1=1 。
(2) 第二主成分:
因为不希望载Z1中出现过的信息又出现在Z2里面,因此
。此外,在a2'a2=1的限制下,使得
最大的
称作第二主成分。
类似可求其余主成分。
(3) 主成分性质
由于X是p维的,因此对应有p个主成分,每个主成分均是原变量的线性组合。
不同主成分是正交的,即互不相关。
6.1.2 求主成分
求第一主成分主要就是求a1,这是条件极值问题,可以采用拉格朗日乘法
即
因为a1不等于0,易得
,于是又成了求特征根和特征向量的问题。若
为
最大特征根,则其对应的单位特征向量即为a1 。与此类似,若
,对应的正交单位特征根为 a1,a2,...,ap,因此第i个主成分为:
。此时 Zi 的方差
。
6.1.3 总体主成分的性质
若Z=(Z1,Z2...Zp)',Z=AX,则其性质有:
(1)
(2)
,等号前面为原总体X的总方差。
(3)主成分Zk和原变量Xi的相关系数(因子负荷量)
(4)
(5)
6.1.4 主成分的贡献率
(1) 贡献率:称
为主成分 Zk 的贡献率(2) 累计贡献率:称
为前m个主成分的累计贡献率。表示m个主成分提取了多少信息。
一般累计贡献率需要达到百分之七八十即可。
(3) 定义前m个主成分对变量Xi的贡献率
6.2 样本主成分
通常协方差未知,需要通过样本估计。
若样本协方差阵记为S,样本相关阵记为R,当每个变量的观测数据是均已标准化(均值为0),则S=R。
6.2.1 主成分得分
若第i个主成分为
,则将第t个样品观测值代入Zi中,得到样品t第i个主成分的得分。记作:
称
为样品t的主成分得分向量。
n个样品构成主成分得分阵 Z 。
6.2.2 样本主成分性质
(1) 主成分得分阵的样本协方差阵
(2) 样本主成分具有使残差平方和最小的优良性质
(3) 样本贡献率
因此有
,故而累计贡献率为
6.2.3 主成分个数
(1) 累计贡献率达到一定程度。
(2) 计算样本协方差阵特征根均值,取大于均值的那部分特征根对应的主成分。
两个方法常常结合使用。
7. 因子分析
是主成分分析的推广,是一种降维的方法,将多个变量综合为少数几个因子,以再现原始变量和因子之间的相关关系。
R型:研究变量之间的相关关系,用以对变量进行分类。
Q型:研究样品之间相关关系,找出控制样品的几个主要变量。
7.1 因子模型
7.1.1 正交因子模型
p维随机向量
为可观测的随机向量,且
;m维随机向量
为不可观测的随机向量,且
;p维随机向量
与F相互独立,且
;
假定:
(1) 公共因子Fi互不相关,且
(2) 特殊因子互不相关,且
(3) 特殊因子与公共因子不相关。
正交因子模型如下:
用矩阵表示为
。其中,F1,...,Fm称作X的公共因子,
称作X的特殊因子。公共因子对X每个分量均有作用,而特殊因子只对Xi有作用。
A称作因子载荷矩阵,为待估的系数矩阵。aij称作第i个变量在第j个因子上的载荷,即因子载荷。
正交因子模型的协方差结构:
因此得到
。
因此得到
,故A中元素aij可以解释Xi和Fj之间的相关性。称
,
为正交因子模型的协方差结构。
因此,可以算出样本协方差,再根据样本协方差求出A,D,从而预测公共因子F1,F2...Fm。
7.1.2 统计意义
(1) 若数据经过了标准化处理,则
。因为
。此时aij就是第i个变量和第j个因子之间的相关系数。
(2) 变量共同度
即Xi的方差由两部分组成,一部分是公因子方差,一部分是特殊方差。如果公因子方差比较大则表明Xi对公因子的依赖程度较大。
实际上,公因子方差即因子载荷矩阵A各行的元素平方和,也称作变量Xi的共同度,记作:
(3) 公共因子的方差贡献
因子载荷矩阵A各列的元素平方和表示公共因子Fj对所有变量的总影响。可以衡量公共因子的重要性。
越大则表明因子Fj对X的贡献越大。
7.1.3 因子模型特性
(1) 不受量纲影响
(2) 因子载荷矩阵A不唯一