如果你已经有了一堆数据,有了因变量和自变量,利用统计软件求出回归方程是非常简单的事情,这些软件虽然不懂得如何分辨你的数据应该用什么方法,但是一旦你确定了方法,他们的计算能力还是非常强大的,可以快速地给出你所需要的结果。但是即使有了回归方程,我们还有一个问题需要解决,那就是:你凭什么认为求出的这个方程是合理的?或者说,凭什么认为求出的方程式符合实际的?这就涉及到回归方程的评价问题。
所谓回归方程的评价,通俗来讲就是通过一些指标,衡量回归方程是否合理,是否符合实际。比较常用的衡量方程的标准由复相关系数R,校正复相关系数R(adj),AIC指标,Cp统计量、均方根误差等。
对于这些指标而言,其实你不必理会他们的具体含义,也没有必要。你只要知道:复相关系数和校正复相关系数越大越好,均方根误差、AIC和Cp统计量越小越好。这些指标一般在统计软件中都会自动输入,如SAS和SPSS就可以看到这些指标。
可能有的人就会问了,我一共就求得了一个方程,怎么比较啊?其实这些指标更多地用在多因素的分析中。比如,我有5个自变量,实在不知道哪个变量有意义了,这时候就可以试着采用这些指标。比如,我加入了一个变量后,复相关系数和校正复相关系数明显增大,而均方根误差、AIC和Cp统计量明显变小,这可能提示你这个变量放入方程中有助于提高方程的质量。而如果加入一个变量后,这些指标变化不大,那可能提示对方程的改善意义不大,可以不考虑加入。
当然,具体的情形还需要结合实际情况来看,这些仅是一个原则。其实最重要的一点是专业,结合专业是最重要的,任何方程,即使指标再完美,如果与实际常理相违背,那也说明你的数据或方程有问题。
最后将回归评价与前面的回归诊断比较一下,回归诊断相当于一个前期工作,前期工作做好了,可以保证你的方法已经选对了,或者说,你的大方向已经正确,不会走错路了。回归评价则是一个善后工作,在大前提正确的情况下,通过回归评价把结果做的更加完美。二者相辅相成,最好全部都使用。
可惜的是,目前大多数人只知道上来就用线性回归,也不理会是不是符合线性回归的条件,做完之后,更想不起要看看方程合不合理,反正结果已经出来了。真希望大家都能懂点统计学,有点科研思想,不一定非要做科研,对日常生活也是有所帮助的。