基于系统聚类模型的信誉评估研究

摘要

本研究旨在分析个案信誉评估数据并进行相关统计检验和建模。所提供的数据包括银行欠款、其他欠款、收入和信誉值等变量。以下是对每个问题的回答:

对于问题一,对银行欠款均值的95%置信区间和假设检验,进行单样本非参数检验,计算银行欠款均值的95%置信区间,检验银行欠款均值是否为1。得出置信区间为0.00到0.00,均值为1.2548,银行欠款均值不为1,p值为0.00,p<0.05,所以拒绝原假设,银行欠款服不从正态分布。

对于问题二,检验其他欠款是否服从正态分布,进行单样本非参数检验,得出银行欠款的95%置信区间为0.00到0.00,均值为2.8748,p值为0.00,p<0.05,所以拒绝原假设,其他欠款服不从正态分布。

对于问题三,检验不同信誉的个案银行欠款均值是否有显著性差异,运用两独立样本t检验,得出不同信誉的个案的银行欠款均值之间没有显著性差异(t(60) = 0.578, p = 0.560)。这意味着良好信誉个案与不好信誉个案在银行欠款方面的平均值没有显著差异。

对于问题四,为了不同教育水平下的收入是否有显著性差异,运用方差分析,得出教育水平对收入产生了显著影响(F(3, 58) = 3.002, p = .038)。这意味着不同教育水平的人群的平均收入有所差异。接着两两比较,得出初中毕业生和大专毕业生的收入差异不显著,而他们与研究生之间的收入差异是显著的。同时,高中毕业生的收入也显著低于研究生。

对于问题五,基于给定得数据,建立适当的系统聚类模型,通过主成分分析,进行数据降维,再计算综合因子得分,利用综合因子得分对原始的信誉数据进行预测。得到个案601-615预测结果,除了610这个个案预测为信誉不好,其他均为信誉良好。通过比较原始信誉数据和预测数据发现,有435个个案信誉预测准确,计算得出预测准确率为72.5%。模型准确性较高。


关键词:系统聚类模型  主成分分析  单样本非参数检验    两独立样本t检验  方差分析  

一、问题重述

1.1 问题的提出

1. 设银行欠款服从正态分布,求银行欠款均值的95%置信区间,并检验均值是否为1。

2. 检验其它欠款是否服从正态分布。

3. 设银行欠款服从正态分布,不同信誉的个案的银行欠款均值是否有显著性差异。

4. 假设收入服从正态分布,不同教育水平下的收入是否有显著性差异,并进行两两比较。

5. 建立适当模型预测个案601-615的信誉值。

二、问题分析

对问题1的分析:本问题要求计算银行欠款的均值的95%置信区间,即通过样本数据来估计整体银行欠款的均值,并判断均值是否等于1。针对这个问题,我们可以使用抽样方法得到一定数量的样本数据,并进行统计分析和假设检验。

对问题2的分析:本问题要求检验其他欠款变量是否服从正态分布。为了解决这个问题,可以使用统计方法进行正态性检验,例如Shapiro-Wilk检验或Kolmogorov-Smirnov检验。这些检验将帮助我们确定其他欠款数据是否符合正态分布假设。

对问题3的分析:本问题需要比较不同信誉的个案的银行欠款均值是否存在显著性差异。为了解决这个问题,可以使用两独立样本t检验,该检验能够比较两组样本均值之间的差异是否显著。

对问题4的分析:本问题需要检验不同教育水平下收入的均值是否存在显著性差异,并进行两两比较。为了解决这个问题,可以使用方差分析(ANOVA)来比较组间差异的显著性,以及进行事后多重比较来确定哪些组之间存在显著差异。

对问题5的分析:本问题需要建立一个适当的模型来预测个案601-615的信誉值。根据给定的数据,可以考虑使用聚类模型,例如系统聚类或层次聚类等。通过对已有样本数据进行聚类建模,然后利用模型对新个案的信誉值进行预测。


三、模型建立及求解

3.1数据处理

学号为2513210112 n=12。选取个案:

基于系统聚类模型的信誉评估研究_聚类分析

个案进行筛选之后,筛选数据如下图:

基于系统聚类模型的信誉评估研究_聚类分析_02

3.2问题一模型建立及求解

设银行欠款服从正态分布,求银行欠款均值的95%置信区间,并检验均值是否为1。

我将进行单样本非参数检验,设置显著性水平为0.05,置信区间为95%。并且只对银行欠款字段进行单样本非参数检验。

3.2.1参数设置

如下为字段选择和检验参数图:

基于系统聚类模型的信誉评估研究_信誉分析_03

图3字段选择和检验参数图

3.2.2单样本非参数检验分析结果

表1单样本柯尔莫戈洛夫-斯米诺夫检验

单样本柯尔莫戈洛夫-斯米诺夫检验


银行欠款

N

62

正态参数a,b

平均值

1.2548

标准差

1.59786

最极端差值

绝对

.222

.202

-.222

检验统计

.222

渐近显著性(双尾)c

.000

蒙特卡洛显著性(双尾)d

显著性

.000


95% 置信区间

下限

.000

上限

.000


a. 检验分布为正态分布。

b. 根据数据计算。

c. 里利氏显著性修正。

d. 基于 10000 蒙特卡洛样本且起始种子为 12620969 的里利氏法。

3.3问题二模型建立及求解

检验其它欠款是否服从正态分布,给出检验的p值和结论。

我将进行单样本非参数检验,设置显著性水平为0.05,置信区间为95%。并且只对其他欠款字段进行单样本非参数检验。

3.3.1参数设置

如下为其他欠款参数设置图:

基于系统聚类模型的信誉评估研究_数据分析_04

图4其他欠款参数设置图

3.3.2单样本非参数检验分析结果

表2单样本柯尔莫戈洛夫-斯米诺夫检验

单样本柯尔莫戈洛夫-斯米诺夫检验


其他欠款

N

62

正态参数a,b

平均值

2.8748

标准差

2.41666

最极端差值

绝对

.179

.179

-.121

检验统计

.179

渐近显著性(双尾)c

.000

蒙特卡洛显著性(双尾)d

显著性

.000

95% 置信区间

下限

.000

上限

.000

a. 检验分布为正态分布。

b. 根据数据计算。

c. 里利氏显著性修正。

d. 基于 10000 蒙特卡洛样本且起始种子为 1846588404 的里利氏法。

3.4问题三模型建立及求解

设银行欠款服从正态分布,不同信誉的个案的银行欠款均值是否有显著性差异。

3.4.1参数设置

如下是独立样本t检验参数设置图:

基于系统聚类模型的信誉评估研究_数据分析_05

图5独立样本t检验参数设置图

3.4.2独立样本t检验分析结果

表3组统计

组统计


信誉

个案数

平均值

标准差

标准误差平均值

银行欠款

良好

50

1.3125

1.59145

.22506

不好

12

1.0142

1.67276

.48288

表4独立样本检验

独立样本检验


莱文方差等同性检验

平均值等同性 t 检验

F

显著性

t

自由度

显著性 (双尾)

平均值差值

标准误差差值

差值 95% 置信区间

下限

上限

银行欠款

假定等方差

.000

.985

.578

60

.566

.29833

.51647

-.73477

1.33142

不假定等方差



.560

16.127

.583

.29833

.53276

-.83035

1.42700

表5独立样本效应大小

独立样本效应大小


标准化量a

点估算

95% 置信区间

下限

上限

银行欠款

Cohen d

1.60666

.186

-.446

.816

Hedges 修正

1.62710

.183

-.440

.806

Glass Delta

1.67276

.178

-.460

.809

a. 估算效应大小时使用的分母。

Cohen d 使用汇聚标准差。

Hedges 修正使用汇聚标准差,加上修正因子。

Glass Delta 使用控制组的样本标准差。

3.5问题四模型建立及求解

假设收入服从正态分布,不同教育水平下的收入是否有显著性差异,并进行两两比较,运用方差分析。

3.5.1 参数设置

如下是方差分析选项设置图:

基于系统聚类模型的信誉评估研究_聚类分析_06

图6方差分析选项设置图

如下是方差分析事后对比设置图:

基于系统聚类模型的信誉评估研究_信誉分析_07

图7方差分析事后对比设置图

3.5.2方差分析结果

表6描述

描述

收入  


N

平均值

标准差

标准误差

平均值的 95% 置信区间

最小值

最大值

下限

上限

初中

37

50.22

54.336

8.933

32.10

68.33

16

253

高中

17

49.76

30.583

7.417

34.04

65.49

15

120

大专

6

62.83

40.365

16.479

20.47

105.19

26

135

研究生

2

151.50

36.062

25.500

-172.51

475.51

126

177

总计

62

54.58

49.753

6.319

41.95

67.22

15

253

表7方差齐性检验

方差齐性检验


莱文统计

自由度

自由度

显著性

收入

基于平均值

.517

3

58

.672

基于中位数

.102

3

58

.958

基于中位数并具有调整后自由度

.102

3

44.783

.958

基于剪除后平均值

.184

3

58

.907

表8ANOVA

ANOVA

收入  


平方和

自由度

均方

F

显著性

组间

20294.434

3

6764.811

3.002

.038

组内

130700.662

58

2253.460



总计

150995.097

61




表9多重比较

多重比较

因变量:   收入  

LSD  

(I) 教育

(J) 教育

平均值差值

标准误差

显著性

95% 置信区间

下限

上限

初中

高中

.452

13.909

.974

-27.39

28.29

大专

-12.617

20.892

.548

-54.44

29.20

研究生

-101.284*

34.462

.005

-170.27

-32.30

高中

初中

-.452

13.909

.974

-28.29

27.39

大专

-13.069

22.542

.564

-58.19

32.05

研究生

-101.735*

35.486

.006

-172.77

-30.70

大专

初中

12.617

20.892

.548

-29.20

54.44

高中

13.069

22.542

.564

-32.05

58.19

研究生

-88.667*

38.760

.026

-166.25

-11.08

研究生

初中

101.284*

34.462

.005

32.30

170.27

高中

101.735*

35.486

.006

30.70

172.77

大专

88.667*

38.760

.026

11.08

166.25

*. 平均值差值的显著性水平为 0.05。

3.6问题五模型建立及求解

建立适当模型预测个案601-615的信誉值,给出模型、准确率和预测结果。

对于第五问:建立系统聚类模型,先进行因子分析的主成分分析,对多个特征进行降维成因子变量。再用降维后的因子变量,根据变量之间的系数,计算综合因子得分,再来进行系统聚类分类,来预测个案601-615的信誉值,得到结果。

3.6.1 参数设置

如下是主成分分析如图:

基于系统聚类模型的信誉评估研究_信誉分析_08

图8主成分分析描述设置图

基于系统聚类模型的信誉评估研究_聚类分析_09

图9主成分分析提取设置图

3.6.2主成分分析结果

表10相关性矩阵

相关性矩阵


年龄

教育

工龄

定居年限

收入

银行欠款

其他欠款

相关性

年龄

1.000

.026

.542

.594

.480

.315

.351

教育

.026

1.000

-.125

.058

.253

.071

.163

工龄

.542

-.125

1.000

.310

.627

.430

.430

定居年限

.594

.058

.310

1.000

.303

.204

.200

收入

.480

.253

.627

.303

1.000

.571

.622

银行欠款

.315

.071

.430

.204

.571

1.000

.662

其他欠款

.351

.163

.430

.200

.622

.662

1.000

显著性 (单尾)

年龄


.262

.000

.000

.000

.000

.000

教育

.262


.001

.074

.000

.039

.000

工龄

.000

.001


.000

.000

.000

.000

定居年限

.000

.074

.000


.000

.000

.000

收入

.000

.000

.000

.000


.000

.000

银行欠款

.000

.039

.000

.000

.000


.000

其他欠款

.000

.000

.000

.000

.000

.000


表11公因子方差

公因子方差


初始

提取

年龄

1.000

.791

教育

1.000

.946

工龄

1.000

.711

定居年限

1.000

.798

收入

1.000

.766

银行欠款

1.000

.723

其他欠款

1.000

.757

提取方法:主成分分析法。

表12总方差解释

总方差解释

成分

初始特征值

提取载荷平方和


总计

方差百分比

累积

总计

方差百分比

累积

1

3.267

46.665

46.665

3.267

46.665

46.665

2

1.202

17.164

63.829

1.202

17.164

63.829

3

1.025

14.643

78.472

1.025

14.643

78.472

4

.588

8.396

86.868




5

.353

5.037

91.904




6

.320

4.578

96.483




7

.246

3.517

100.000




提取方法:主成分分析法。

基于系统聚类模型的信誉评估研究_数据分析_10

图10碎石图


表13成分矩阵

成分矩阵a


成分


1

2

3

年龄

.726

-.446

.254

教育

.153

.632

.724

工龄

.759

-.250

-.271

定居年限

.545

-.509

.492

收入

.848

.215

.001

银行欠款

.735

.310

-.294

其他欠款

.763

.373

-.187

提取方法:主成分分析法。

a. 提取了 3 个成分。

3.6.3 计算综合因子得分

计算综合因子得分,点击计算变量。

计算公式为:

基于系统聚类模型的信誉评估研究_信誉分析_11

得到综合因子得分,如图所示:

基于系统聚类模型的信誉评估研究_聚类分析_12

图11综合因子得分展示图

3.6.4 系统聚类模型建立和求解

系统聚类,将得到得综合因子得分变量带入变量框中,将个案标注依据,选择为信誉。

系统聚类分析参数设置如图:

基于系统聚类模型的信誉评估研究_数据分析_13

图12系统聚类分析参数设置

基于系统聚类模型的信誉评估研究_信誉分析_14

图13系统聚类分析方法设置

使用质心聚类和切比雪夫测量,设定聚类数为2。

系统聚类分析结果见附录(一)

个案601-615预测结果如图:

基于系统聚类模型的信誉评估研究_数据分析_15

图14个案601-615预测结果

四、模型分析结论

对于问题一,银行欠款的95%置信区间为0.00到0.00,均值为1.2548,p值为0.00,p<0.05,所以拒绝原假设,银行欠款服不从正态分布。

对于问题二,银行欠款的95%置信区间为0.00到0.00,均值为2.8748,p值为0.00,p<0.05,所以拒绝原假设,其他欠款服不从正态分布。

对于问题三,显著性为0.985 ,sig>0.05 那么只考虑方差相等的情况,方差相等:双边检验p= 0.566, p>0.05 所以接受原假设,不同信誉的个案的银行欠款均值之间没有显著性差异。这意味着信誉对于个案的银行欠款金额没有明显影响。

对于问题四,根据统计分析结果,p<0.038,p<0.05,接受原假设不同教育水平下的收入存在显著差异。初中毕业生和大专毕业生的收入差异不显著,而他们与研究生之间的收入差异是显著的。同时,高中毕业生的收入也显著低于研究生。这些结果有助于我们理解教育水平与收入之间的关系。

对于问题五,主成分分析结论:通过总方差解释表和碎石图可知,选取3个变量累积占比为78.472%,当选取变量大于3个时,累积占比变化不大。最适宜选取三个降维后的变量。那么对于信誉的综合因子得分系数由公因子方差教育为主要因子来源,再从成分矩阵里面可知选取对教育的成分系数为0.153,0.632,0.724,作为综合因子得分系数。系统聚类模型分析结论:个案601-615预测结果,除了610这个个案预测为信誉不好,其他均为信誉良好。通过比较原始信誉数据和预测数据发现,有435个个案信誉预测准确,计算得出预测准确率为72.5%。