1、上午主要研究了gini系数的算法,关键点就是用梯形面积去近似曲线形成的面积,横轴是按照降序排列或升序排列的人,纵轴是bad rate,把bad rate的坐标的两两连接起来就可以得到若干梯形,计算这些梯形的面积之和,近似等于洛伦茨曲线下面积,升序或是降序确定了,梯形在洛伦茨曲线之上还是之下,但是阴影面积是不变的,阴影面积除以0.5(的面积)就是gini系数,但是tony用的并不是0.5,tony用的是0.5-1/2*1*bad rate,这段面积我不确定是什么意义?
黑实线部分就是tony的分母面积,tony的gini定义就是红色阴影面积除以黑色面积,但是大多数定义都是除以0.5,而且我发现如果除以0.5的话,gini和ks是差不多的!
2、还研究了一个评价指标lift,这个指标的意义是在于说明用上模型对于某类人发现坏客户的能力提高了多少,但是我觉得这个意义挺怪异的,算法就是,某个分组的bad rate除以整体的bad rate,总感觉还是表征了一种模型的区分程度对于好坏样本
3、还有就是了解了ROC的另外一种指标叫法,tony的TPR叫命中率,FPR(?)叫假报(警)率,一不使用就忘记了,下次我要画一张图,存到blog中!
4、最后一点开始研究模型,一个是最优模型选择算法,好像是用一种叫AIC(拟合优度评价指标)的指标去选择的最优子集,然后用选择的最优子集去拟合模型,但是又有一个统计检验,检验系数是否显著,会出现不显著的指标会剔除掉,而且添加或减少变量,变量的统计检验p值都会发生变化,但是最后还是要结合业务逻辑,最终还是很难选入模型,这里可能需要去学习一下回归系数的检验相关问题!