异常值是模型优化的关键点之一,离均值远的是异常值,可是多远才算足够远呢,其实不同的模型有着不同的考量,基于模型所受的影响不同,所以所能忍受的异常值也不同。
1、异常值的类型
从二维的角度来说,其实异常值有三种类型,一是影响垂直方向Y的异常值,叫垂直特异性,对应探测该类异常的指标为标准化残差(学生化残差也可以);二是同时影响x和Y的异常值,对应探测该类异常的指标为COOK值,三是影响水平方向的X的异常值,叫杠杆值,对应探测该类型异常的指标为杠杆率。
2、不同模型关注异常值的类型及处理方法
从x,y变量的角度区分不同模型对异常值的处理。一是对于没有Y的模型,只有一系列X,通过描述性分析,制作箱型图来探测异常值,此种情况下对于单变量的异常值一般不删除,仅仅是警惕即可。二是对于有Y的模型,对于y为线性的,如线性回归模型,该模型主要关注垂直特异性(具体原因与估计产生的标准差有关),因而主要是将标准化残差与+-2进行比较,超过的即为异常值;对于y为二分类变量,如logistic模型,三类异常值都要考虑,因而需要结合标准化残差、COOK值、杠杆率三个指标一起考虑,由此引出了偏离残差(界值为8)、皮尔森卡方(界值为100),此种情况异常值要删除。三是没有x、y之分的模型,x、y同等重要,通过聚类分析中的二维散点图探测异常值,如果是在数据挖掘中,异常值有些可能不要删除,而是重点检查,因为异常值代表着消费者行为中的小众行为,也许就是VIP行为。