逻辑回归 R 逻辑回归R语言模型公式_sklearn逻辑回归 极大似然 损失


原文链接


拓端数据科技 / Welcome to tecdattecdat.cn

逻辑回归 R 逻辑回归R语言模型公式_r语言logistic回归_02


请查看一下数据

在上一篇文章中,我们没有查看数据。如果我们查看单个损失的分布,那么在数据集中,我们会看到以下内容:

  1. > n=nrow(couts)
  2. > plot(sort(couts$cout),(1:n)/(n+1),xlim=c(0,10000),type="s",lwd=2,col="green")


逻辑回归 R 逻辑回归R语言模型公式_sklearn逻辑回归 极大似然 损失_03


看来我们的数据库中有固定成本索赔。在标准情况下,我们如何处理?我们可以在这里使用混合分布,


逻辑回归 R 逻辑回归R语言模型公式_逻辑回归 R_04


  • 小额索赔的分布

,例如指数分布

  • 狄拉克分布

,即

  • 分布

,例如Gamma分布或对数正态分布

  1. > I1=which(couts$cout<1120)
  2. > I2=which((couts$cout>=1120)&(couts$cout<1220))
  3. > I3=which(couts$cout>=1220)
  4. > (p1=length(I1)/nrow(couts))
  5. [1] 0.3284823
  6. > (p2=length(I2)/nrow(couts))
  7. [1] 0.4152807
  8. > (p3=length(I3)/nrow(couts))
  9. [1] 0.256237
  10. > X=couts$cout
  11. > (kappa=mean(X[I2]))
  12. [1] 1171.998


逻辑回归 R 逻辑回归R语言模型公式_逻辑回归 R_05


在上一篇文章中,我们讨论了所有参数可能与某些协变量相关的想法,即

产生以下模型,


逻辑回归 R 逻辑回归R语言模型公式_数据_06


对于概率,我们应该使用多项式模型。回忆一下逻辑回归模型,如果

,则


逻辑回归 R 逻辑回归R语言模型公式_逻辑回归 R_07


要导出多元扩展


逻辑回归 R 逻辑回归R语言模型公式_数据_08


同样,可以使用最大似然,因为


逻辑回归 R 逻辑回归R语言模型公式_r语言logistic回归_09


在这里,变量

(分为三个级别)分为三个指标(就像标准回归模型中的任何分类解释变量一样)。从而,

对于逻辑回归,然后使用牛顿拉夫森(Newton Raphson)算法在数值上计算最大似然。在R中,首先我们必须定义级别,例如

  1. > couts$tranches=cut(couts$cout,breaks=seuils,
  2. + labels=c("small","fixed","large"))

然后,我们可以定义一个多分类logistic模型回归

使用一些选定的协变量

  1. > formula=(tranches~ageconducteur+agevehicule+zone+carburant,data=couts)
  2. # weights: 30 (18 variable)
  3. initial value 2113.730043
  4. iter 10 value 2063.326526
  5. iter 20 value 2059.206691
  6. final value 2059.134802
  7. converged

输出在这里


  1. Coefficients:
  2. (Intercept) ageconducteur agevehicule zoneB zoneC
  3. fixed -0.2779176 0.012071029 0.01768260 0.05567183 -0.2126045
  4. large -0.7029836 0.008581459 -0.01426202 0.07608382 0.1007513
  5. zoneD zoneE zoneF carburantE
  6. fixed -0.1548064 -0.2000597 -0.8441011 -0.009224715
  7. large 0.3434686 0.1803350 -0.1969320 0.039414682

  8. Std. Errors:
  9. (Intercept) ageconducteur agevehicule zoneB zoneC zoneD
  10. fixed 0.2371936 0.003738456 0.01013892 0.2259144 0.1776762 0.1838344
  11. large 0.2753840 0.004203217 0.01189342 0.2746457 0.2122819 0.2151504
  12. zoneE zoneF carburantE
  13. fixed 0.1830139 0.3377169 0.1106009
  14. large 0.2160268 0.3624900 0.1243560

为了可视化协变量的影响,还可以使用样条函数

  1. > library(splines)

  2. > reg=(tranches~bs(agevehicule))
  3. # weights: 15 (8 variable)
  4. initial value 2113.730043
  5. iter 10 value 2070.496939
  6. iter 20 value 2069.787720
  7. iter 30 value 2069.659958
  8. final value 2069.479535
  9. converged

例如,如果协变量是汽车的寿命,那么我们有以下概率

  1. > predict(reg,newdata=data.frame(agevehicule=5),type="probs")
  2. small fixed large
  3. 0.3388947 0.3869228 0.2741825

对于0到20岁的所有年龄段,


逻辑回归 R 逻辑回归R语言模型公式_数据_10


例如,对于新车,固定成本所占的比例很小(在这里为紫色),并且随着车龄的增长而不断增加。如果协变量是驾驶员居住地区的人口密度,那么我们获得以下概率

  1. # weights: 15 (8 variable)
  2. initial value 2113.730043
  3. iter 10 value 2068.469825
  4. final value 2068.466349
  5. converged
  6. > predict
  7. small fixed large
  8. 0.3484422 0.3473315 0.3042263


逻辑回归 R 逻辑回归R语言模型公式_r语言logistic回归_11


基于这些概率,可以在给定一些协变量(例如密度)的情况下得出索赔的预期成本。但首先,定义整个数据集的子集

  1. > sbaseA=couts[couts$tranches=="small",]
  2. > sbaseB=couts[couts$tranches=="fixed",]
  3. > sbaseC=couts[couts$tranches=="large",]

阈值由

  1. > (k=mean(sousbaseB$cout))
  2. [1] 1171.998

然后,让我们运行四个模型,

  1. > reg
  2. > regA
  3. > regB
  4. > regC

现在,我们可以基于这些模型计算预测,


> pred=cbind(predA,predB,predC)


为了可视化每个组成部分对溢价的影响,我们可以计算概率,预期成本(给定每个子集的成本),

  1. > cbind(proba,pred)[seq(10,90,by=10),]
  2. small fixed large predA predB predC
  3. 10 0.3344014 0.4241790 0.2414196 423.3746 1171.998 7135.904
  4. 20 0.3181240 0.4471869 0.2346892 428.2537 1171.998 6451.890
  5. 30 0.3076710 0.4626572 0.2296718 438.5509 1171.998 5499.030
  6. 40 0.3032872 0.4683247 0.2283881 451.4457 1171.998 4615.051
  7. 50 0.3052378 0.4620219 0.2327404 463.8545 1171.998 3961.994
  8. 60 0.3136136 0.4417057 0.2446807 472.3596 1171.998 3586.833
  9. 70 0.3279413 0.4056971 0.2663616 473.3719 1171.998 3513.601
  10. 80 0.3464842 0.3534126 0.3001032 463.5483 1171.998 3840.078
  11. 90 0.3652932 0.2868006 0.3479061 440.4925 1171.998 4912.379

现在,可以将这些数字绘制在图形中,


逻辑回归 R 逻辑回归R语言模型公式_线性模型_12


(水平虚线在我们的数据集中是索赔的平均费用)。



逻辑回归 R 逻辑回归R语言模型公式_线性模型_13


专栏

精算科学

关于结合数学、统计方法以及程序语言对经济活动来做风险分析、评估的见解。

探索专栏