(一)基础铺垫
一元非线性回归分析(Univariate Nonlinear Regression)
- 在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条曲线近似表示,则称为一元非线性回归分析。
- 一元二次方程:
- 一元三次方程:
- 一元 n 次方程:
(二)案例
1.建模逻辑
- 一元非线性回归方程转为多元一次回归方程
2.实操
关键点提示:把一元非线性方程转化为多元线性方程的方法
- 转化的方法是
PolynomialFeatures类
- 要确定是一元几次方程(从图形中观察),然后确定
degree
是几(多少阶的方程)
#---author:朱元禄---
import pandas
data = pandas.read_csv(
'file:///Users/apple/Desktop/jacky_1.csv',encoding='GBK'
)
x = data[["手续费(%)"]]
y = data[["金融产品销售额"]]
import matplotlib
font = {
'family':'SimHei'
}
matplotlib.rc('font',**font)
matplotlib.rcParams['axes.unicode_minus'] = False
from pandas.plotting import scatter_matrix
scatter_matrix(
data[["手续费(%)","金融产品销售额"]],
alpha = 0.8,figsize =(10,10),diagonal = 'kid'
)
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
pf = PolynomialFeatures(degree=2)
x_2_fit = pf.fit_transform(x)
lrModel = LinearRegression()
lrModel.fit(x_2_fit,y)
lrModel.score(x_2_fit,y)
x_2_predict = pf.fit_transform([9],[10])
lrModel.predict(x_2_predict)
案例:游戏等级和木材消耗的关系。
首先导入数据集,取出自变量和因变量。
import pandas
import matplotlib;
data = pandas.read_csv(
r'./data.csv'
)
#取出自变量和因变量
x = data[["等级"]]
y = data[["资源"]]
然后,绘制出两个变量之间的散点图:
import pandas as pd
pd.plotting.scatter_matrix(
data[["等级", "资源"]],
alpha=0.8, figsize=(10, 10), diagonal='kde'
)
plt.show()
可以看出是一元二次方程的曲线,我们画一个一元二次方程曲线来比较一下:
import numpy;
x_ = numpy.arange(-10, 10, 0.01);
y_ = x_**2
from matplotlib import pyplot as plt;
plt.figure();
plt.title('等级与资源')
plt.xlabel('等级')
plt.ylabel('资源')
plt.grid(True)
plt.plot(x_, y_, 'k.')
plt.show()
然后我们要将一元非线性回归方程转化为多元线性回归方程:
用到方法是PolynomialFeatures()
方法
# 导入包
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
pf = PolynomialFeatures(degree=2) # 传入degree参数,表示一元二次方程
x_2_fit = pf.fit_transform(x)
#查看x_2_fit:
print(x_2_fit)
'''
[[ 1. 1. 1.]
[ 1. 2. 4.]
[ 1. 3. 9.]
[ 1. 4. 16.]
[ 1. 5. 25.]
[ 1. 6. 36.]
[ 1. 7. 49.]
[ 1. 8. 64.]
[ 1. 9. 81.]
[ 1. 10. 100.]
[ 1. 11. 121.]
[ 1. 12. 144.]]
'''
#然后就转换为二元线性回归方程了
lrModel = LinearRegression()
lrModel.fit(x_2_fit, y) #训练模型
lrModel.score(x_2_fit, y) #模型评分
x_2_predict = pf.fit_transform([[21], [22], [23]]) #预测的时候自变量需要经过转换再预测
lrModel.predict(x_2_predict) #模型预测
print(lrModel.predict(x_2_predict))
'''
[[5028.38811189]
[5515.18531469]
[6025.57692308]]
'''
API总结:
一元n次方程,转多元线性回归方程:
- pf = PolynomialFeatures(degree=2)
参数说明: - degree :回归方程的次数
一元n次方程,转换为多元线性方程:
pf=sklearn.preprocessing.PolynomialFeatures(degree=2)
转换方法:
x_2_fit=pf.fit_trasform(x)
预测:
LinearRegression().predict(x_2_fit)