多元分析
一 聚类分析(群分析)
对样本分析称为Q型聚类分析,对指数分析称为R型聚类分析
- Q型聚类分析
记Ω是样本点集距离d是Ω*Ω→R+的一个函数
需要满足(闵式距离):
(1)d(x,y)>=0,x,y∈Ω
(2)d(x,y),当且仅当x=y时成立
(3)d(x,y)=
d(y,x), x,y∈Ω
(4)d(x,y)<=
d(x,z)+ d(z,y) ,x,y,z∈Ω
即:
其中最常用到的事当q=2时的欧几里得距离
注意:
采取相同量纲
尽可能避免变量的多重相关性
一种改动 马氏距离
其中
x,y是样本观测值
是Z的协方差矩阵
2.类与类之间的相似度量
法一:最短距离法
法二:最长距离法
法三:重心法
法四:类平均法
法五:离差平方法
记
其中
则定义
3.类聚图
步骤
(1)计算样本点之间距离
(2)构造类,每一个类只有一个样本点,每一个类的平台高度为0
(3)合并距离最近的两个类为新类,距离值作为平台高度
(4)计算新类之间的距离,然后重复直到只有1个类为止
(5)画图
(6)决定类的个数和类
4.Matlab聚类分析的相关命令
Y=pdist(X,’minkowski’,p)
计算矩阵X中两两对象之间的欧氏距离
’minkowski’ 计算的方法
p计算时用到的指数值
Z=linkage(Y,‘mathod’)
生成具有层次的聚类树
‘mathod’ 生成的方法
T=cluster(Z,’cutoff’,c,’depth’,d)
从连接输出中创建类
’cutoff’ 生成聚类值得方法
depth 层数
zsore(X)
对矩阵标准化处理
xj,xj为矩阵中,每一列的均值和标准差
H=dendrogram(Z,P)
由linkage的结果画图
T=clusterdate(X,cutoff)
将矩阵X的数据分类
等价于执行前3个命令
R型聚类方法
1.变量的相似度量
法一:相关系数
法二:夹角余弦
2.变量聚类法
法一:最长距离法
法二:最短距离法
其中djk=1-|rjk|
二 主成因分析
基本思想
假设有p门课程x1,x2,…,xp,权重分别为c1,c2,…,cp
加权之和s=c1x1+c2x2+…+cpxp
用X来代替x表示观测值的随机变量,如果能找到c1,c2,…,cp
使得Var(c1X1+c2X2+…+cpXP)最大
其中我们规定c12+c22+…+cp2=1
然后建立一个方程组,每一行都为
ZI=ci1X1+ci2X2+…+cipXp
特征值因子的筛选
把指针变量在第i次试验中的取值定位
ai1,ai2,…,aip,i=1,2,…,p化为矩阵形式,定义为A(设计阵)
cmn的系数就是由ATA的特征向量确定的
把特征值由大到小依次排列,然后进行筛选
对原变量的贡献值
r(zj,xi)是相关系数
三 因子分析
数学模型
α为因子载荷
F为公共因子
ε 为特殊因子
而且满足
E(F)=0,E(ε)=0,Cov(F)=Im
D(ε)=Cov(ε)=diag(σ12,
σ22,…, σm2),Cov(F, ε)=0
性质
1.原始变量X的协方差矩阵分解
2.载荷矩阵不唯一
因子载荷矩阵的估计方法
1.主成因分析法
其中特殊因子的方差用表示
即
2.主因子法
首先对变量标准化变换
其中D= diag(σ12,
σ22,…, σm2)
记R*=R-D
3.最大似然估计法(记住命令即可)
因子旋转
方法:
方差最大法
四次方最大旋转
等量最大法
因子得分
函数
巴特莱因子得分(加权最小二乘法)
回归方法
四 判别分析
1.距离分析
Mahalanobis距离
马氏距离
距离判别的判别标准和函数
首先考虑协方差相同
然后计算x到A,B的距离
x∈距离较短的总体
判别函数的表达式
化简后得到2倍的ω(x),其中
可以得到
当ω(x)<0时,x∈B,否则x属于A
2.Fisher判别
x为p维随机变量函数,y=aTx,
当c=1时,可以得到线性判别函数
令
判别式为
当W(x)<0时,x∈B,否则x属于A
3.Bayes判别
五 典型相关分析
基本思想:
首先在每组变量中找出第一对线性组合,使其拥有最大相关性
然后在每组变量中找出第二对,使其分别与第一对不相关
且本身具有次大的相关性
如此反复,知道两组的变量被提取完为止
可以得到r组变量
原始变量与典型变量之间的关系
1.相关系数
原始变量相关系数矩阵
X典型变量系数矩阵
Y典型变量系数矩阵
xi与uj的相关系数
其余的同理
2.方差
X被ui解释
典型相关系数的检验
1.计算协方差阵
2.整体检验
统计量
如果Q>=Xα2(pq),则拒绝原假设
3.部分为0的检验
统计量
如果Q>=Xα2[(p-k+1)(q-k+1)],则拒绝原假设
六 对应分析(R-Q型因子分析)
首先变量间和样品间给出协方差矩阵
假设
如果SR对应于λi的标准化特征向量为ηi
则SQ对应的向量为
原理
1.数据变换方法
设原始矩阵为A
(1)化数据矩阵为格式化概率矩阵
其中
记边缘概率分别为r和c
(2)进行数据的对应变换
构造矩阵B
(3)计算相关矩阵
数据标准化矩阵
其中
2.对应分析的原理和依据
SR和SQ的非0特征值相同
矩阵的奇异值分解
设B为一个n*p的矩阵
令,则称di为奇异值
如果存在分解式
其中U为n*n的正交矩阵
V为p*p的正交矩阵
则称为B的奇异值分解
任意非零矩阵的奇异值分解必定存在
(3)计算步骤
首先,计算出P和B
然后,计算行轮廓分布和列轮廓分布
接着,计算总惯量和X2统计值,以及样品之间的加权平方距离
再然后,对B奇异值分解
接着,计算行轮廓和列轮廓的坐标,分别记为G和F,并绘制平面图
最后,求总惯量和X2统计值的分解式
分类,并且结合专业知识进行成因分析
七 多维标度法
1.距离阵
定义一个n阶矩阵
如果DT=D,且dij>=0,则称为距离阵
2.欧几里得距离阵
如果一个距离阵可以找到一个正整数p和Rp中的n个点
使得
则称为欧几里得距离阵
为了解决问题的方便额外定义
3.多维标度的经典解
首先,构造A
然后,做出B
接着,求出B的特征值和正交特征向量
最后,由特征向量构成矩阵
这就是D的一个拟合构图,行坐标对应着拟合构图点
4.相似阵情形
如果C为一个相似矩阵
由dij=(cii-2cij+cjj)1/2
可以构造出一个矩阵D