共线性的处理:岭回归

引入

多重共线性问题:当自变量间存在明显共线性时不能直接使用最小二乘法进行回归分析。
共线性即多个自变量中存在某个或多个自变量可以被其他自变量表示,从而显得较为冗余。
一般的处理方法是:岭回归

岭回归

  • 是用于共线性数据分析的有偏估计回归方法
  • 本质:是引入惩罚系数 k 以求得更稳健的系数估计值;
  • 是改良的最小二乘法
  • 放弃了最小二乘法的无偏性、损失部分信息、降低精度、效果稍差,但得到了回归系数更符合实际的方程
  • 岭回归所得方程的决定系数要小于利用最小二乘法得到的方程,对病态数据的耐受性也远远强于最小二乘
  • 原理
  • ①当自变量间存在共线性时,自变量的相关矩阵的行列式近似为 0 ,即奇异的 singular。同时,分类变量在神经网络中 分类变量存在共线性吗_最小二乘法
  • ②如果给 分类变量在神经网络中 分类变量存在共线性吗_最小二乘法 加上正常数单位矩阵 分类变量在神经网络中 分类变量存在共线性吗_数据分析_03 ,则 分类变量在神经网络中 分类变量存在共线性吗_岭回归_04 的奇异性就会比 分类变量在神经网络中 分类变量存在共线性吗_最小二乘法
  • ③因而,可以用分类变量在神经网络中 分类变量存在共线性吗_数据分析_06作为回归系数的估计值,此值比最小二乘法估计稳定,称分类变量在神经网络中 分类变量存在共线性吗_分类变量在神经网络中_07为回归系数的岭估计。
  • ④显然,当分类变量在神经网络中 分类变量存在共线性吗_最小二乘法_08时,分类变量在神经网络中 分类变量存在共线性吗_分类变量在神经网络中_07就退化为最小二乘法估计、而当分类变量在神经网络中 分类变量存在共线性吗_最小二乘法_10时,分类变量在神经网络中 分类变量存在共线性吗_数据分析_11就趋于 0。因此,k不宜太大
  • ⑤ k 值的选取原则:
  • k 的选择是任意的;
  • 由于岭回归是有偏估计,k值不宜太大;
  • 一般来说希望能尽量保留信息,即尽量让k值小些;
  • 可以观察在不同k值下方程的变动情况,然后取使方程基本稳定的最小k值

SPSS 中的岭回归

SPSS 中没有提供专门的对话框界面,下面是相应的宏程序。

分类变量在神经网络中 分类变量存在共线性吗_最小二乘法_12


分类变量在神经网络中 分类变量存在共线性吗_岭回归_13

分类变量的数值化:最优尺度回归

引入

  • 无序多分类变量的处理问题
  • 统计上的标准做法是:采用哑变量进行拟合,然后根据分析结果对模型进行化简;但哑变量分析操作麻烦,在很多分类变量时,分析思路比较繁琐
  • 想法
  • 能否通过某种方法对分类变量进行变换,给予每个类别一个适当的量化评
  • 对无序多分类变量也可以用量化评分的方式表示各个类别间的差距;
  • 若量化评分近似,则表示影响程度相近,
  • 否则量化评分相差越大,影响程度的差异也越大。

最优尺度变换介绍

  • 用途:专门用于解决在统计建模时如何对分类变量进行量化的问题
  • 思路:
  • 1.基于希望拟合的模型框架,分析各类别对因变量数值影响的强弱变化情况,
  • 2.在保证变换后各变量间的关联为线性的前提下,采用一定的非线性变换方法进行反复迭代,从而为原始分类变量的每一个类别找到最佳的量化评分。
  • 3.随后在相应模型中使用量化评分代替原始变量类别进行后续分析。
  • 应用:线性回归,即最优尺度回归方法,可以在SPSS中使用分类回归( categorical regression)过程实现
  • 经过以上处理,可以将各种传统分析方法的适用范围扩展到全部的测量尺度。如对无序多分类变量、有序多分类变量和连续变量同时进行回归分析、因子分析等。
  • 本质:
  • 基于模型效果最优化的原则,首先对原始变量进行变换,将各变量转换为适当的量化评分;然后使用量化评分代替原始变量进行回归分析。
  • 因此结果输出基本上都是变换后量化评分的分析结果

注意事项

  • 1.样本量应当较大
  • 该方法唯一的适用条件。
  • 由于最优尺度回归是对分类变量各类别求出最佳量化评分,显然只有各类别的样本量足够多,才能保证相应量化评分的准确和稳定。
  • 样本量较小,会使相应的分析结果较为敏感,受数据变化的影响较大。
  • 一般而言,此处的样本量要求可以参考分层卡方检验中的设定,即各类别交叉时单元格内均为 5 例以上,但实际分析中往往更大一些才好。
  • 2.变换结果与模型相关
  • 最终的量化评分会受到希望拟合的模型的影响,变换仅仅保证相应的量化评分在当前模型框架中为最优,
  • 如果模型发生改变,如引入了新的自变量,或者其他变量的测量尺度发生了更改,则量化评分的结果也会发生改变,有时差异还比较大。
  • 3.对有序分类变量的处理
  • 在对有序分类变量进行变换时,最优尺度回归会给予各类别依次上升或下降的量化评分,即假定各类别的作用是单调上升或下降的。
  • 如果实际情况并非如此,则可能导致错误的分析结果。
  • 为保证结果的正确性,可以在分析中先将有序分类变量指定为无序,观察其变换后量化评分是否为单调升降趋势,然后再决定后续的分析思路。
  • 4.最佳的预分析手段
  • 由于最优尺度回归主要给出的是变换后量化评分的分析结果,许多有用的信息被隐含在变换过程中。
  • 同时其原理难以理解,结果在直接应用上也有一定困难。
  • 因此,研究者可以将最优尺度回归作为一种预分析手段,通过它快速发现各类别间的差异和联系,然后回到常规的建模方法,用合并相似类别,建立哑变量模型等方式得到更易于理解和使用的分析结果。