多变项分析 :由面到体
1 一果多因:多元回归分析
- 一果多因
- 净(偏)回归系数
1、从下表可见受教育程度对于工资的影响比上一次做一因一果回归分析的时候第。原因在于原来做的一因一果线性回归分析出来的结果是受教育水平影响工资的毛重。而这里进行了多因素分析,其中受教育程度还会影响是不是当经理,因此这里显示的是净(偏)回归系数。
其中要看那个贡献比较大,可以通过看Beta来判定。由上图可见,是否为经理的贡献为0.635最大,也就是说是否为经理没变化一个单位,会变0.635个标准差。(注:这里经理变量不再是0,1,而是变成了0.1,0.2…)
上图中,设C为工资变项,A为受教育水平变项,B为是否为经理变项。从A与C的交集可以看出受教育水平可以解释一部分的工资,同样的道理受教育水平可以也可以解释是否为经理的一部分变量。F那快区域是三个变项的交集,在计算净回归系数时要去掉。
共线性例子(共线性问题就是同语反复):由上图,比如我把同一组因素当中修改一个值,然后将这两组几乎同样的因素一起做线性回归分析,会发现原来受教育程度每变一个单位,会引起工资变化3000多,现在却可以变20000多,且不显著。原因是,放进去分析的两个变量是共线的。也就是说他们之间的交集非常的大,如果把他们的交集去掉看净的影响那就非常小了。
2、排除似是而非的因素:统计控制(让条件相同的两个人比)
比如说要控制受教育程度,那么就利用受教育程度相同的人来比,看白人和黑人是不是有差异。下图没有控制的时候,是否为少数民主工资相差非常大,且显著相关。但是不能确定这个结果是否为真。因此要控制变量,加入受教育水平和是否为经理之后可以看到种族差异就不是显著了(犯I类错误的风险为40%以上),并且B值明显减少。 - 多元回归系数是合力
- 判定系数告诉告诉我们合力的威力
2 因子分析与量表构建
- 不能直言相询只能旁敲侧击
- 因子分析是利用回归分析提高测量精度
- 旋转因子与构建量表
旋转因子的原理:把每一个因子解释的方差最大化,检验量表的可靠性(Cronbach’s Alpha一般标准为0.7)。
比方说:TF-Boys同台表演,下面坐着非常的多的观众,这个时候是很难看出来哪些观众是冲着王俊k,哪些是冲着易烊qx,哪些是冲着王y。这个时候旋转因子就发挥作用,把他们三个人分成三个舞台,那么喜欢王俊k的观众就会跑到他的舞台前,其他同理。还有一些观众就会在三角地带,因为他们三个都喜欢。
按照上面的理解,分析下表。下面的那项研究是分析公民对10个方面问题的感知。可以看到第一个未旋转的因子矩阵中,显示出了三个因子。也就是说这十个项与三个因子有关,其中10个项与第一个因子都有关,2个项与第二个因子有关,1个项与第三个因子有关。
然后再看旋转因子矩阵就可看出来了。被调查者认为国防、教育等因素与第一个因子有关,犯罪、酗酒、出版与第二个因子有关、教育、环保等因素与第三个因子有关。从中可以看出,第一个因子应该是关于ZYZF的,第二个因子应该是关于SH的,第三个因子是关于DFZF的。

3 卡方检验
- 因为一些不服从正态分布的变量要检验不能用线性回归。所有通过计算卡方值。
H1 有关系
H0 没有关系
检验卡方值及要看自由度又要看卡方值。
自由度=(表的行数-1)(表的列数-1):
卡方值 = 求和(实际-期望)**2 /期望
在给定自由度的前提下,卡方值越大,出现的概率越小。比如说计算出来的期望值是3.4,那么可以看到在自由度为1的前提下,出现的概率为5%-10%之间,这是抛弃零假设犯I类风险的错误就比较大了。如果卡方值是10,那么在自由度为1的情况下出现的概率非常小,那么如果可以承担这个犯一类错误的风险,那么就可以抛弃零假设,认为两个变量之间存在着某种关系。

建立交叉表:行是因变量,列是自变量
上图建立起了一个22的交叉表。
自由度=(2-1)(2-1)=1
期望值(不是经理,不是少数民族)=390370/474
接着看下图这个卡方值=17.592,自由度为一,通过看卡方分布表说明犯I类风险的概率很低。可以决定是否抛弃零假设。再进行对数回归。
对0-1取发生比,然后再取对数
回归的结果如下:写论文的时候还是要还原回发生比。解释的时候就要解释S曲线,而不是直线。
4 最大似然估计
似然是指过去的可能性


一次一次的计算过程,其中-2loglikelihood即为误差值。看最后一个就可以。

MINUS2LG这个值是一种类似于卡方值的值

定序变量也可以用同样的方法,但是首先要进行平行线检验。

上图平行线检验的H0是假定与实际情况相同的(平行检验成立),所有我们一般不希望抛弃零假设。所以希望接受,希望Sig值越大越好。
如果要抛弃零假设,就可以将工作岗位当为一个定类变量

5 结构方差模型:
在社会科学非常的流行。
- 结构方程模型:可以构建一个很清晰的路径。
1、证实性因子分析:先有理论再去证实,测量模型必须借把尺子。
2、路径分析可以包括中间变量
3、提高拟合优度:衣服合身才能测量体型
每条线都是一个回归模型,组起来就是一个结构模型。
6 双层回归分析:
原理:比如我要分析一个学生的高低有哪些因素的影响。因为学生的成绩和学校与自身都有关系,如果我只考虑学生自身或学校的影响,就会出现生态主义失误,所以这个时候要做多层的回归分析。
















