线性关系其实是最常见也是最有效,同时还是最好解释的,不过变量间复杂的关系我们用多项式回归做出来可能会更加的准确。刚好有位粉丝的数据需要用到多项式回归,今天就给大家写写。

要理解非线性关系,首先我们看看线性关系,假设情况如下:商品的价格为p,销售量为q,总价为y,那么qy之间就是线性关系:

p <- 0.5
q <- seq(0,100,1)
y <- p*q
plot(q,y,type='l',col='red',main='线性关系')

R数据分析:如何做数据的非线性关系,多项式回归的做法和解释_数据分析

 

但是考虑现实中的情况:一个商品本来价格p是0.5,买的人多了价格会上涨,此时线性关系不成了哦:

y <- 450 + p*(q-10)^3
plot(q,y,type='l',col='navy',main='Nonlinear relationship',lwd=3)

R数据分析:如何做数据的非线性关系,多项式回归的做法和解释_数据分析_02

 

如果你得数据确实不是线性关系,就得考虑数据转化或者拟合多项式回归。

数据模拟

为了更好地给大家演示,我们需要模拟一个数据集出来:

q <- seq(from=0, to=20, by=0.1)
y <- 500 + 0.4 * (q-10)^3
noise <- rnorm(length(q), mean=10, sd=80)
noisy.y <- y + noise

上面的代码首先模拟200个销售量,和相应的总价y,同时还给y加了一点点噪声。

我们把模拟数据画出来瞅瞅:

plot(q,noisy.y,col='deepskyblue4',xlab='q',main='Observed data')
lines(q,y,col='firebrick1',lwd=3)

R数据分析:如何做数据的非线性关系,多项式回归的做法和解释_多项式_03

 

注意我们用lines这个方法给数据串了一条趋势线,可以很明显的看出来我们的数据不是线性关系。

多项式回归

那么对于我们的数据我可以做如下的多项式回归:

model <- lm(noisy.y ~ poly(q,3))
model <- lm(noisy.y ~ x + I(X^2) + I(X^3))

上面两种方法都是一个道理,但是第一种可以很好的避免多重共线性问题,你想嘛,x的平方和x的三次方肯定高度相关啊。所以大家用第一种方法哦,输出结果如下:

R数据分析:如何做数据的非线性关系,多项式回归的做法和解释_数据_04

 

上面的结果中没有系数的置信区间,我们可以:

confint(model, level=0.95)

R数据分析:如何做数据的非线性关系,多项式回归的做法和解释_方差分析_05

 

我么还可以画出来模型的残差图:

plot(fitted(model),residuals(model))

R数据分析:如何做数据的非线性关系,多项式回归的做法和解释_数据分析_06

 

总的来说,我们的模型的R方为0.77,q的一次项和3次项都是有统计学意义的,模型还不错。

是不是可以用这个模型做预测呢?

这又涉及到机器学习了,往下看:

我们可以用训练的这个模型来预测我们的原始数据:

predicted.intervals <- predict(model,data.frame(x=q),interval='confidence',
level=0.99)

你去查看predicted.intervals的值,你可以看到我们200个数据的预测值和置信区间。

R数据分析:如何做数据的非线性关系,多项式回归的做法和解释_方差分析_07

 

最好还是给大家可视化一下,我们打算把原始的趋势线和我们的置信区间的上下限都画在同一个图上:

lines(q,predicted.intervals[,1],col='green',lwd=3)
lines(q,predicted.intervals[,2],col='black',lwd=1)
lines(q,predicted.intervals[,3],col='black',lwd=1)

R数据分析:如何做数据的非线性关系,多项式回归的做法和解释_ide_08

 

可以看到上图中,我们的砖红色的线基本都在置信区间的上下限范围内,证明了模型不错。

小结

今天给大家写了多项式回归,这个东西用的不多,很容易造成过拟合问题,大家使用时一定要注意。

感谢大家耐心看完,自己的文章都写的很细,代码都在原文中,希望大家都可以自己做一做,请关注后私信回复“数据链接”获取所有数据和本人收集的学习资料。如果对您有用请先收藏,再点赞转发。

也欢迎大家的意见和建议。

如果你是一个大学本科生或研究生,如果你正在因为你的统计作业、数据分析、论文、报告、考试等发愁,如果你在使用SPSS,R,Python,Mplus, Excel中遇到任何问题,都可以联系我。因为我可以给您提供最好的,最详细和耐心的数据分析服务。

如果你对Z检验,t检验,方差分析,多元方差分析,回归,卡方检验,相关,多水平模型,结构方程模型,中介调节,量表信效度等等统计技巧有任何问题,请私信我,获取最详细和耐心的指导。

If you are a student and you are worried about you statistical #Assignments, #Data #Analysis, #Thesis, #reports, #composing, #Quizzes, Exams.. And if you are facing problem in #SPSS, #R-Programming, #Excel, Mplus, then contact me. Because I could provide you the best services for your Data Analysis.

Are you confused with statistical Techniques like z-test, t-test, ANOVA, MANOVA, Regression, Logistic Regression, Chi-Square, Correlation, Association, SEM, multilevel model, mediation and moderation etc. for your Data Analysis...??

Then Contact Me. I will solve your Problem...

加油吧,打工人!