1)试述主成分分析的基本思想
主成分分析是利用降维的思想,将多个变量转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠。
其基本思想是:设法将原来具有一定相关性的众多指标,重新组合成一组新的相互无关的综合指标代替原来指标。
3)假定2002年我国35个核心城市综合竞争力评价指标为:
——国内生产总值(亿元);
——一般预算收入(亿元);
——固定资产投资(亿元);
——外贸进出口(亿美元);
——城市居民人均可支配收入(元);
——人均国内生产总值(元);
——人均贷款余额(元/人);
它们的数据如表所示:
(1)求样本相关系数矩阵R及特征根和特征向量。
R语言程序代码如下:
> library(openxlsx)
> a = read.xlsx('E:/mvexer5.xlsx','E8.3',rowNames = T) #查找并读取指定数据
> X = data.frame(a)
> R = cor(X);R #相关系数阵
> R.e = eigen(R,symmetric = T);R.e #特征根
> R.e $ vectors%*%diag(R.e $ values)%*%t(R.e $ vectors) #特征向量
在Rstudio中运行结果如下:
图1. 相关系数矩阵R的特征根和特征向量
(2)确定前两个主成分所解释的总体样本方差的比例,并解释这些主成分。
R语言程序代码如下:
> source('E:/msaR.R')
> PC = msa.pca(a,cor = T);PC
> PC$vars
在Rstudio中运行结果如下:
由下图知:两个主成分占总体样本方差的94.26%,基本代表所有指标的信息量。
其中主成分Comp.1在国内生产总值、一般预算收入、固定资产投资、外贸进出口、城市居民人均可支配收入的载荷值都很大,可视为总竞争力主成分反映了核心城市的总发展水平;而主成分Comp.2在人均国内生产总值及人均贷款余额上的载荷值很大,可视为人均竞争力主成分反映了核心城市的人均发展水平。
图2.总体样本分析
(3)对35个核心城市综合竞争力进行综合排名。对其进行分析。
R语言程序代码如下:
> source('E:/msaR.R')
> PC = msa.pca(a,cor = T);PC
> PC$ranks
> biplot(PC $ scores,PC $ loadings)
> abline(h = 0,v = 0,lty = 3)
在Rstudio中运行结果如下:
在Comp.1上得分最高的分别有上海、深圳、北京、广州、杭州。而上海、深圳、北京、广州明显高于其他核心城市,这说明这几个核心城市的总的发展水平高,竞争力也相对较高。
而深圳在Comp.2上远远高于其他城市,这说明深圳的人均发展水平比较高。
就综合得分来看,总的排名如上图所示,排名前几的分别为:深圳、上海、北京、广州、杭州、宁波……
图3.双重信息图
1)比较因子分析和组成分分析模型,说明它们的相似和不同之处。
主成分分析通过线性组合将原变量综合成几个主成分,用较少的综合指标来代替原来较多的指标(变量)。因子分析就是寻找这些公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与区别。
4)因子分析法在股价预报上的探索:在本例中为了验证因子分析方法的有效性,特意不区分行业,以上交所和深交所进行分层,然后把层内全部股票选入抽样框,以进行随机抽取。从http://www.jrj.com.cn得到了23个企业在2004年3月31日的数据,见表9-4,所考虑的指标如下:流动比率x1(<2偏低)、速动比率x2(<1偏低)、现金流动负债比x3(%)、每股收益x4(元)、每股未分配利润x5(元)、每股净资产x6(元)、每股资本公积金x7(元)、每股盈余公积金x8(元)、每股净资产增长率x9(%)、经营净利率x10(%)、经营毛利率x11(%)、资产利润率x12(%)、资产净利率x13(%)、主营收入增长率x14(%)、净利润增长率x15(%)、总资产增长率x16(%)、主营利润增长率x17(%)、主营成本比例x18、营业费用比例x19(%)、管理费用比例x20(%)、财务费用比率x21(%)。
(1)求样本相关系数阵R及特征根与特征向量。
R语言程序代码如下:
> library(openxlsx)
> a = read.xlsx('E:/mvexer5.xlsx','E9.4',rowNames = T) #查找并读取指定数据
> X = data.frame(a)
> R = cor(X) #相关系数阵
> R.e = eigen(R,symmetric = T);R.e #特征根
> R.e $ vectors%*%diag(R.e $ values)%*%t(R.e $ vectors) #特征向量
在Rstudio中运行结果如下:
图4.R的特征根
图5.R的特征向量
(2)确定因子的个数,并解释这些因子的含义。
通过探索性的因子分析得:前6个因子的方差贡献率已经占到累积方差贡献率的76.0%,前7个因子的方差贡献率已经占到累积方差贡献率的82.9%,所以只要取前7个因子就可以很好地概括指标。
R语言程序代码如下:
> library(openxlsx)
> a = read.xlsx('E:/mvexer5.xlsx','E9.4',rowNames = T)
> factanal(a, 7, rotation = "none")
在Rstudio中运行结果如下:
图6. 确定因子的个数
(3)计算各因子得分,画出前两个因子的得分图并解释之。
R语言程序代码如下:
> source('E:/msaR.R')
> pa = msa.fa(a,m=7,rotation = 'none')
> pa$scores
> pa1 = msa.fa(a,m=2,rotation = 'none')
> plot(pa1$scores,asp = 1);abline(h=0,v=0,lty=2)
> text(pa1$scores,labels = rownames(a))
> biplot(pa$scores,pa$loadings)#因子信息重叠图
> abline(h=0,v=0,lty=2)
在Rstudio中运行结果如下:
由下面因子得分图知,张裕A、四环生物、深发展在第一因子Factor1和第二因子Factor2上的得分取正值且相对较大,爱建股份在第一因子Factor1上取正值且相对较大在第二因子Factor2上虽取负值但相对较小,所以排名靠前,而st昌源和st啤酒花在第一因子Factor1上取负值且相对较大,所以排名靠后。其余均距离原点不远处。总的来说要提高上市企业股价应该共同促进两种因子发展。
图7.计算因子得分
图8.因子得分信息图
图9.因子信息重叠图
(4)对因子进行旋转,比较旋转前后因子分析的结果。
R语言程序代码如下:
> source('E:/msaR.R')
> Fa1 = msa.fa(a, 7, rotation = "none")
> Fa1$vars #旋转前
> Fa1$loadings
> Fa2 = msa.fa(a, 7, rotation = "varimax")
> Fa2$vars #旋转后
> Fa2$loadings
在Rstudio中运行结果如下:
由下图可以看出,旋转前各综合因子代表的具体经济意义不很明显,而旋转后各因子代表的经济意义则十分明显,因子Factor7在流动比率x1上的载荷值高达到93.15%。
图10.因子旋转分析
(5)对这23个上市企业财务状况进行综合评价。
R语言程序代码如下:
> source('E:/msaR.R')
> Fa1 = msa.fa(a, 7, rotation = "none")
> Fa1 #旋转前
> Fa2 = msa.fa(a, 7, rotation = "varimax")
> Fa2 #旋转后
在Rstudio中运行结果如下:
从旋转后的因子载荷矩阵可以看出,公共因子Factor1在经营净利率x10、净利润增长率x15、管理费用比例x20、财务费用比率x21上的载荷值比较大,公共因子Factor2在速动比率x2、现金流动负债比x3、资产利润率x12和资产净利率x13上的载荷值比较大……
由回归法估计出因子得分以各因子的方差贡献率占四个因子总方差贡献率的比重 作为权重进行加权,汇总得出个省、市、自治区的综合得分及排名。其中排名最高的几个企业分别为张裕A、爱建股份、深发展、四环生物。由此可见,上市企业的财务状况是由总营业利润决定的。
图11.未旋转数据分析
图12.旋转后数据分析
2)对应分析的基本思想是什么?
对应分析是多变量统计分析中一种有用的分析方法 对应分析把R型因子分析和Q型因子分析统一起来,通过R型因子分析直接得到Q型因子分析的结果 把变量(指标)和样品同时反映到相同的坐标轴(因子轴)的一张图形上,用此来说明变量(指标)与样品之间的对应关系。
3)对应分析与因子分析的区别与联系。
对应分析是在因子分析的基础上发展起来的。在因子分析中,可以用较少的公共因子来提取样本数据的绝大部分信息,这样就可以考察较少的因素而获得足够的信息。然而R型因子分析和Q型因子分析,即对变量和样品分别做因子分析,并没有考虑变量和样本之间的联系,损失了一部分信息。
3)广东省授权专利的对应分析:当今世界经济、科技发展迅速,市场竞争越演越烈。市场竞争实质是科技的竞争,而科技竞争的重要形式则是专利竞争。专利是实现科学技术经济价值的重要形式,也是参与市场竞争的强力武器,更是改革和发展的"助推器"。我国的专利法将专利分为三类,分别是发明专利、实用新型专利和外观设计专利。
由于各种专利类型的申请和授权量会受所在地经济状况、行业性质等因素的影响,所以不同地区专利类型的结构也会不尽相同。试对2005年广东省各市专利类型的申请情况(表10-5)进行对应分析和比较,并解释其原因。
表10-5 2005年广东省各市专利类型的申请情况
地区 | 发明 | 实用新型 | 外观设计 | 地区 | 发明 | 实用新型 | 外观设计 |
广州 深圳 珠海 汕头 韶关 河源 梅州 惠州 汕尾 东莞 中山 | 2706 14583 401 160 85 10 30 75 28 553 192 | 3735 6766 929 689 272 42 73 377 43 2603 1263 | 5855 8390 788 2803 104 84 100 425 170 6723 2794 | 江门 佛山 阳江 湛江 茂名 肇庆 清远 潮州 揭阳 云浮 | 200 2016 24 112 22 41 20 28 32 29 | 802 5248 156 153 118 171 64 187 145 47 | 2279 11790 625 318 174 163 86 1415 470 91 |
R语言程序代码如下:
> library(openxlsx)
> a = read.xlsx('E:/mvexer5.xlsx','E10.3',rowNames = T)#查找并读取指定数据
> library(ca)
> Ca1 = ca(a);summary(Ca1)
> Ca1$rowcoord #行坐标
> Ca1$colcoord #列坐标
> plot(Ca1) #对应分析图
在Rstudio中运行结构如下:
根据下图可将样本点和变量分为三组:
第一组:
变量:发明
样本:深圳
第二组:
变量:实用新型
样品:珠海、韶关、梅州、惠州、广州、清远、肇庆、茂名
第三组:
变量:外观设计
样品:其他城市
从这些分类结果来看,深圳注重发明创造,而珠海、广州、梅州等更注重实用新型的专利,其余各市则是更看重外观。
图13.对应分析及绘图
图14.对应分析图