插值和拟合的对比
一、定义
插值:在离散数据的基础上补插连续数,使得这条连续曲线通过全部给定的离散数据点。多项式插值可以看为一个多项式来近似代替数据向量函数,并要求多项式通过给定的数据点。(插值曲线要经过数据点。)
拟合:通过方法获得若干离散的数据,根据这些数据,我们往往希望得到一个连续的函数(曲线),这过程就叫做拟合。
逼近:只要求曲线接近型值点,符合型值点趋势。
二、区别
拟合是已知数据点,从整体上靠近它们;
插值是已知数据点并且完全经过它们;
逼近是已知曲线,或者数据,通过逼近使得构造的函数无限靠近它们。
一维插值
- 拉格朗日插值
- 分段插值法
- 样条插值法
三种插值方法的不同
- 拉格朗日插值多项式:当节点n较大时,拉格朗日多项式的次数较高,可能出现不一致的收敛情况,而且计算复杂。随着样本点的增加,高次插值会带来误差的震动现象叫做龙格现象。
- 分段插值:虽然收敛,但光滑性较差
- 样条插值:样条插值是使用了一种名为样条的特殊分段多项式进行插值的形式。由于样条插值可以使用低阶多项式样条实现较小的插值误差,这样就避免了使用高阶多项式所出现的龙格现象,所以样条插值得到了流行。
import numpy as np
from scipy import interpolate
import pylab as pl
x = np.linspace(0, 10, 11)
y = np.sin(x)
x_new = np.linspace(0, 10, 101)
pl.plot(x, y, 'ro')
for kind in ['nearest', 'zero', 'slinear', 'quadratic', 'cubic']: # 插值方式
# nearest zero 为阶梯插值
# slinear 线性插值
# quadratic cubic 为2阶、3阶样条插值
f = interpolate.interp1d(x, y, kind = kind)
y_new = f(x_new)
pl.plot(x_new, y_new, label=str(kind))
pl.legend(loc='lower right')
pl.show()
最小二乘法
- 拟合指的是已知某函数的若干离散函数值{f1,f2,…,fn},通过调整该函数中若干待定系数f(λ1, λ2,…,λn),使得该函数与已知点集的差别(最小二乘意义)最小。
- 如果待定函数是线性,就叫线性拟合或者线性回归(主要在统计中),否则叫作非线性拟合或者非线性回归。表达式也可以是分段函数,这种情况下叫作样条拟合。
- 从几何意义上讲,拟合是给定了空间中的一些点,找到一个已知形式、未知参数的连续曲面来最大限度地逼近这些点;而插值是找到一个(或几个分片光滑的)连续曲面来穿过这些点。
- 选择参数c使得拟合模型与实际观测值在曲线拟合各点的残差(或离差)ek=yk-f(xk,c)的加权平方和达到最小,此时所求曲线称作在加权最小二乘意义下对数据的拟合曲线,这种方法叫做最小二乘法。
import matplotlib
import numpy as np
import matplotlib.pyplot as plt
from scipy.optimize import leastsq
# 引入中文
font = {
"family": "Microsoft YaHei"
}
matplotlib.rc("font", **font)
# 设置字号
plt.figure(figsize=(9, 9))
# 初始化数据
X = np.array([8.19, 2.72, 6.39, 8.71, 4.7, 2.66, 3.78])
Y = np.array([7.01, 2.78, 6.47, 6.71, 4.1, 4.23, 4.05])
#计算以p为参数的直线与原始数据之间误差
def f(p):
k,b = p
return (Y - (k * X + b))
# leastsq使得f的输出数组的平方和最小,参数初始值k、b设为[1,0]
r = leastsq(f, [1, 0])
# 得到计算出的最优k、b
k, b = r[0]
# 可视化
plt.scatter(X, Y, s=100, alpha=1.0, marker='o', label='数据点')
x = np.linspace(0, 10, 1000)
y = k * x + b
ax = plt.gca()
plt.plot(x, y, color='r', linewidth=5, linestyle=':', markersize=20, label='拟合曲线')
plt.legend(loc=0, numpoints=1)
ax = plt.gca()
plt.plot(x, y, color='r', linewidth=5, linestyle=':', markersize=20, label='拟合曲线')
plt.legend(loc=0, numpoints=1)
plt.show()