拓端tecdat|R语言计量经济学与有时间序列模式的机器学习预测

原创

拓端tecdat 2022-11-14 20:31:27 ©著作权

文章标签 计量经济学时间序列机器学习 R语言 r语言 文章分类 后端开发

©著作权归作者所有：来自51CTO博客作者拓端tecdat的原创作品，请联系作者获取转载授权，否则将追究法律责任

今天，我们正在与一位精算数据科学专业的学生讨论，有关保险费率制定的与索赔频率模型有关的观点。由于目标是预测理赔频率（以评估保险费水平），因此他建议使用旧数据来训练该模型，并使用最新数据对其进行测试。问题在于该模型没有包含任何时间模式。

这里考虑一个简单的数据集，

> set.seed(1)
> n=50000
> X1=runif(n)
> T=sample(2000:2015,size=n,replace=TRUE)
> L=exp(-3+X1-(T-2000)/20)
> E=rbeta(n,5,1)
> Y=rpois(n,L*E)
> B=data.frame(Y,X1,L,T,E)

频率由泊松过程驱动，具有一个协变量X1，并且我们假设呈指数速率。在此考虑标准线性回归，没有任何时间因素影响

> reg=glm(Y~X1+offset(log(E)),data=B,
+ family=poisson)

我们还可以计算年度经验索赔频率

> u=seq(0,1,by=.01)
> v=predict(re
> vp=Vectorize(p)(seq(.05,.95,by=.1))

并在同一张图上绘制两条曲线，

> plot(seq(.05,.95,by=.1),vp,type="b")
> lines(u,exp(v),lty=2,col="red")

拓端tecdat|R语言计量经济学与有时间序列模式的机器学习预测_机器学习

这就是我们通常在计量经济学中所做的。在机器学习中，更具体地说，是评估模型的质量以及进行模型选择，通常将数据集分为两部分。训练样本和验证样本。考虑一些随机的训练/验证样本，然后在训练样本上拟合模型，最后使用它来进行预测，

> idx=sample(1:nrow(B
> reg=glm(Y~X1+offset(log(E)),data=B_a,
+ family=poisson)
> u=seq(0,1,by=.01)
> v=predict(reg,new
$E)
+ }
> vp_a=Vectorize(p)(seq(.05,.95,by=.1))
> plot(seq(.05,.95,by=.1),vp_a,col="blue")
> lines(u,exp(v),l
X1-x)<.1,]
+ sum(B$Y)/sum(B$E)
+ }
)(seq(.05,.95,by=.1))
> lines(seq(.05,.95,by=.1),vp_t,col="red")

拓端tecdat|R语言计量经济学与有时间序列模式的机器学习预测_计量经济学_02

蓝色曲线是对训练样本的预测（就像在计量经济学中所做的那样），红色曲线是对测试样本的预测。

现在，如果我们使用年份作为划分标准，我们将旧数据拟合为模型，并在最近几年对其进行测试，

> B_a=subset(
T>=2014)
> reg=glm(Y~X1+offset(l
+ B=B_a[abs(B_a$X1-x)<.1,]
+ sum(B$Y)/sum(B$E)
+ }
> vp_a=Vectorize(p)(
y=.1),vp_a,col="blue")
> lines(u,exp(v),lty=2)
> p=function(x){
-x)<.1,]
+ sum(B$Y)/sum(B$E)
+ }
eq(.05,.95,by=.1))
> lines(seq(.05,.95,b=.1),vp_t,

拓端tecdat|R语言计量经济学与有时间序列模式的机器学习预测_时间序列_03

显然，结果不理想。

我花了一些时间来了解训练和验证样本的设计方式对结果产生的影响。

我使用回归模型：

glm(Y~X1+T+offset(log(E)),data=B,
+ family=poisson)
> u=seq(1999,2016,by=

拓端tecdat|R语言计量经济学与有时间序列模式的机器学习预测_r语言_04

在这里，我们使用线性模型，但是通常没有理由假设线性。所以我们可以考虑样条

> reg=glm(Y~X1+bs(T)+offse
> u=seq(1999,2016,by=.
> v2=predict(reg,newdata=
> plot(2000:2015,exp(v2),ty

拓端tecdat|R语言计量经济学与有时间序列模式的机器学习预测_r语言_05

除了假设存在一个基本的平滑函数，我们可以考虑因子的回归

as.factor(T)+
+ data=B,family=p
g)
> u=seq(1999,2016,by=.1)
> v=exp(-(u-2000)/20
[2:17]),type="b")

拓端tecdat|R语言计量经济学与有时间序列模式的机器学习预测_r语言_06

另一种选择是考虑一些更通用的模型，例如回归树

> reg=rpart(Y~X1+T+offset(log(E)),dat
> p=function(t){
+ B=B[B$T==t,]
+ mean(predict(reg,newdata=B))
+ }
2000:2015)
> u=seq(1999,2016,by=.1)
> plot(2000:2015,y_m,ylim=c(

拓端tecdat|R语言计量经济学与有时间序列模式的机器学习预测_时间序列_07

在年化频率上考虑与风险敞口相关的权重

> reg=rpart(Y/E~X1+T,data
weights=B$E,cp=1
+ B=B[B$T==t,]
+ B$E=1
+ }
> y_m=Vectorize(function(t) p(t))(
> v=exp(-(u-2000)/20-3+.5)
> plot(2000:2015,y_m,ylim=c(.02,.08

拓端tecdat|R语言计量经济学与有时间序列模式的机器学习预测_机器学习_08

从机器学习的角度来看，考虑训练样本（基于旧数据）和验证样本（基于较新的样本）

> B_a=subset(B,T<2014)
> B_t=subset(B,T>=2014)

如果我们考虑使用广义线性模型，那么也很容易获得近年来的预测，

> reg_a=glm(Y~X1+T+offset(l
> C=coefficients(reg_a)
> u=seq(1999,20
/20-3)
+C[3]*c(2000:2013,
+ NA,NA)),type="b")
)
> points(2014:2015,exp(C

拓端tecdat|R语言计量经济学与有时间序列模式的机器学习预测_机器学习_09

但是，如果我们以年份为因子，我们需要对训练样本中没有的水平进行预测，结果更加复杂。

> reg_a=glm(Y~0+X1+as.factor(T)+offse
> C=coefficients(reg_a)
2014) + A[2]*(B_t$T==2015))
+ Y_t=L*B_t$E
> i=optim(c(.4,.4),RMSE)$par
> plot(2000:2015,c(exp(C[2:15]
> lines(u,v,lty=2,col="red")
lue")

拓端tecdat|R语言计量经济学与有时间序列模式的机器学习预测_计量经济学_10

我们将RMSE量化近年来的预测水平，输出还不错。

获得旧数据的训练数据集，并在最近几年对其进行测试应该谨慎适当地考虑时间模型。

拓端tecdat|R语言计量经济学与有时间序列模式的机器学习预测_时间序列_11

上一篇：拓端tecdat|Matlab代写马尔可夫链蒙特卡罗法（MCMC）估计随机波动率（SV，Stochastic Volatility）模型

下一篇：拓端tecdat|R语言网络和网络流的可视化实践：通勤者流动网络

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯