多元分析

一 聚类分析(群分析)

对样本分析称为Q型聚类分析,对指数分析称为R型聚类分析

  1. Q型聚类分析

记Ω是样本点集距离d是Ω*Ω→R+的一个函数

需要满足(闵式距离):

(1)d(x,y)>=0,x,y∈Ω

(2)d(x,y),当且仅当x=y时成立

(3)d(x,y)=
d(y,x), x,y∈Ω

(4)d(x,y)<=
d(x,z)+ d(z,y) ,x,y,z∈Ω

即:

其中最常用到的事当q=2时的欧几里得距离

注意:

采取相同量纲

尽可能避免变量的多重相关性

一种改动 马氏距离

其中

x,y是样本观测值

是Z的协方差矩阵

2.类与类之间的相似度量

法一:最短距离法

法二:最长距离法

法三:重心法

法四:类平均法

法五:离差平方法

其中

则定义

3.类聚图

步骤

(1)计算样本点之间距离

(2)构造类,每一个类只有一个样本点,每一个类的平台高度为0

(3)合并距离最近的两个类为新类,距离值作为平台高度

(4)计算新类之间的距离,然后重复直到只有1个类为止

(5)画图

(6)决定类的个数和类

4.Matlab聚类分析的相关命令

Y=pdist(X,’minkowski’,p)

计算矩阵X中两两对象之间的欧氏距离

’minkowski’ 计算的方法

p计算时用到的指数值

Z=linkage(Y,‘mathod’)

生成具有层次的聚类树

‘mathod’ 生成的方法

T=cluster(Z,’cutoff’,c,’depth’,d)

从连接输出中创建类

’cutoff’ 生成聚类值得方法

depth 层数

zsore(X)

对矩阵标准化处理

xj,xj为矩阵中,每一列的均值和标准差

H=dendrogram(Z,P)

由linkage的结果画图

T=clusterdate(X,cutoff)

将矩阵X的数据分类

等价于执行前3个命令

R型聚类方法

1.变量的相似度量

法一:相关系数

法二:夹角余弦

2.变量聚类法

法一:最长距离法

法二:最短距离法

其中djk=1-|rjk|

二 主成因分析

基本思想

假设有p门课程x1,x2,…,xp,权重分别为c1,c2,…,cp

加权之和s=c1x1+c2x2+…+cpxp

用X来代替x表示观测值的随机变量,如果能找到c1,c2,…,cp

使得Var(c1X1+c2X2+…+cpXP)最大

其中我们规定c12+c22+…+cp2=1

然后建立一个方程组,每一行都为

ZI=ci1X1+ci2X2+…+cipXp

特征值因子的筛选

把指针变量在第i次试验中的取值定位

ai1,ai2,…,aip,i=1,2,…,p化为矩阵形式,定义为A(设计阵)

cmn的系数就是由ATA的特征向量确定的

把特征值由大到小依次排列,然后进行筛选

对原变量的贡献值

r(zj,xi)是相关系数

三 因子分析

数学模型

α为因子载荷

F为公共因子

ε 为特殊因子

而且满足

E(F)=0,E(ε)=0,Cov(F)=Im

D(ε)=Cov(ε)=diag(σ12,
σ22,…, σm2),Cov(F, ε)=0

性质

1.原始变量X的协方差矩阵分解

2.载荷矩阵不唯一

因子载荷矩阵的估计方法

1.主成因分析法

其中特殊因子的方差用表示

2.主因子法

首先对变量标准化变换

其中D= diag(σ12,
σ22,…, σm2)

记R*=R-D

3.最大似然估计法(记住命令即可)

因子旋转

方法:

方差最大法

四次方最大旋转

等量最大法

因子得分

函数

巴特莱因子得分(加权最小二乘法)

回归方法

四 判别分析

1.距离分析

Mahalanobis距离

马氏距离

距离判别的判别标准和函数

首先考虑协方差相同

然后计算x到A,B的距离

x∈距离较短的总体

判别函数的表达式

化简后得到2倍的ω(x),其中

可以得到

当ω(x)<0时,x∈B,否则x属于A

2.Fisher判别

x为p维随机变量函数,y=aTx,

当c=1时,可以得到线性判别函数

判别式为

当W(x)<0时,x∈B,否则x属于A

3.Bayes判别

五 典型相关分析

基本思想:

首先在每组变量中找出第一对线性组合,使其拥有最大相关性

然后在每组变量中找出第二对,使其分别与第一对不相关

且本身具有次大的相关性

如此反复,知道两组的变量被提取完为止

可以得到r组变量

原始变量与典型变量之间的关系

1.相关系数

原始变量相关系数矩阵

X典型变量系数矩阵

Y典型变量系数矩阵

xi与uj的相关系数

其余的同理

2.方差

X被ui解释

典型相关系数的检验

1.计算协方差阵

2.整体检验

统计量

如果Q>=Xα2(pq),则拒绝原假设

3.部分为0的检验

统计量

如果Q>=Xα2[(p-k+1)(q-k+1)],则拒绝原假设

六 对应分析(R-Q型因子分析)

首先变量间和样品间给出协方差矩阵

假设

如果SR对应于λi的标准化特征向量为ηi

则SQ对应的向量为

原理

1.数据变换方法

设原始矩阵为A

(1)化数据矩阵为格式化概率矩阵

其中

记边缘概率分别为r和c

(2)进行数据的对应变换

构造矩阵B

(3)计算相关矩阵

数据标准化矩阵

其中

2.对应分析的原理和依据

SR和SQ的非0特征值相同

矩阵的奇异值分解

设B为一个n*p的矩阵

令,则称di为奇异值

如果存在分解式

其中U为n*n的正交矩阵

V为p*p的正交矩阵

则称为B的奇异值分解

任意非零矩阵的奇异值分解必定存在

(3)计算步骤

首先,计算出P和B

然后,计算行轮廓分布和列轮廓分布

接着,计算总惯量和X2统计值,以及样品之间的加权平方距离

再然后,对B奇异值分解

接着,计算行轮廓和列轮廓的坐标,分别记为G和F,并绘制平面图

最后,求总惯量和X2统计值的分解式

分类,并且结合专业知识进行成因分析

七 多维标度法

1.距离阵

定义一个n阶矩阵

如果DT=D,且dij>=0,则称为距离阵

2.欧几里得距离阵

如果一个距离阵可以找到一个正整数p和Rp中的n个点

使得

则称为欧几里得距离阵

为了解决问题的方便额外定义

3.多维标度的经典解

首先,构造A

然后,做出B

接着,求出B的特征值和正交特征向量

最后,由特征向量构成矩阵

这就是D的一个拟合构图,行坐标对应着拟合构图点

4.相似阵情形

如果C为一个相似矩阵

由dij=(cii-2cij+cjj)1/2

可以构造出一个矩阵D