问题是这样开始的:在处理数据时,无意中发现年龄和费用的均值呈现了过分好的线性相关性
如下图所展示的:用肉眼就可以看出他们线性相关性很大
经过计算,皮尔逊相关系数达到0.983。
年龄和费用均值之间的线性相关性居然有那么高么?根据经验,规律好得不可思议,肯定有问题。。。
尝试考察下这个正相关系数的可靠性:用的单变量线性回归来检验。
因为单变量线性回归的时候,回归系数和两个变量的线性相关系数只差一个应变量的标准差比变量的标准差。线性相关系数=回归系数*变量标准差/应变量标准差。当变量和应变量在构造线性回归方程式事先归一化了,那么回归系数就等于二个变量的线性相关系数。
因此,想通过检验单变量回归方程的系数来确定,两个变量之间的正相关系数不可能为0。运算结果如下:
其中,变量前面的估计系数是8.992。
验证一下刚才提到的系数关系:8.992*变量标差/应变量标差= 0.983296。
所以,年龄和平均费用的有很明显的线性关系,并且是可靠的?
那年龄直接和费用计算线性相关系数结果应该也会很好吗?
结果线性相关系数从0.983跌到只有0.028,低于一般的参考阀值0.3,通常是认为没有线性关系的。
现在有的结论是,年龄和费用均值有明显的线性关系,但是年龄和费用却没有线性关系,与变量本身没关系,但是与其均值有线性关系,这是种什么关系?
毫无头绪的时候,考虑画点图找些灵感
只有二个字段:年龄和费用,显然最简单直观的是画散点图:
看上去每个年龄阶段的分布都很相似,有一些费用超高的,大量点集中在较低的费用区间。
经过考虑画箱形图,并且放大费用较低的位置,如下:在箱形图中位数附近的点是均值点。看上去均值确实随着年龄在蜿蜒向上,但是每个年龄区间的费用分布似乎都差不多,有夸张的大值,不同年龄间的上下四分位数浮动十分接近,忽高忽低。
就算,均值可以和年龄有良好的线性关系,但是插值或者预测出来的费用均值对单个样本费用的预估几乎是毫无帮助,因为上下浮动范围太大到毫无用处。
经过思考,费用的均值和年龄有正相关关系的意义,可能是想提示人们,可以试着进行类别细分。
限制同一种条件A下,考察年龄和费用的线性相关系数:0.125,比之前0.028提升不少。
甚至可以考虑,条件A且条件B同时不变的情况下,年龄和收费的线性相关系数:0.225,进一步提高了。虽然还是比参考临界阀值0.3低,但是新考虑的二个维度对关系的考察是很有帮助的。有理由相信,再考虑增加一些维度可以得到更加明显的关系。
这也是提醒我们在建模的时候,不要随便用过滤式变量选择法剔除字段,兴许在其他字段的共同作用下,隐藏的未知关系就浮现了。