小白学 Python:Python – 正态分布或高斯分布_数据

什么是正态分布或高斯分布?

当我们绘制直方图等数据集时,图表的形状就是我们所说的分布。最常见的连续值形状是钟形曲线,也称为高斯分布或正态分布。

它以德国数学家卡尔·弗里德里希·高斯的名字命名。遵循高斯分布的一些常见示例数据集包括体温、身高、汽车里程、智商分数。 

让我们尝试生成理想的正态分布并使用 Python 绘制它。

如何在 Python 中绘制高斯分布

我们有 Numpy、scipy 和 matplotlib 等库来帮助我们绘制理想的正态曲线。

import numpy as np 
import scipy as sp 
from scipy import stats 
import matplotlib.pyplot as plt 

## generate the data and plot it for an ideal normal curve 

## x-axis for the plot 
x_data = np.arange(-5, 5, 0.001) 

## y-axis as the gaussian 
y_data = stats.norm.pdf(x_data, 0, 1) 

## plot data 
plt.plot(x_data, y_data)

输出:


小白学 Python:Python – 正态分布或高斯分布_拟合_02

x 轴上的点是观测值,y 轴是每个观测值的可能性。

我们使用np.arange()在 (-5, 5) 范围内生成规则间隔的观测值。然后我们通过norm.pdf()函数运行它,平均值为0.0,标准差为1,返回该观察结果的可能性。0 附近的观测值是最常见的,-5.0 和 5.0 附近的观测值很少见。pdf()函数的技术术语是概率密度函数。

高斯函数:

首先,让我们将数据拟合到高斯函数。我们的目标是找到最适合我们数据的 A 和 B 值。首先,我们需要为高斯函数方程编写一个Python函数。该函数应该接受自变量(x 值)和所有构成它的参数。

#定义高斯函数 
def gauss(x, H, A, x0, sigma): 
	return H + A * np.exp(-(x - x0) ** 2 / (2 * sigma ** 2))

我们将使用python 模块scipy.optimize中的curve_fit函数来拟合我们的数据。它使用非线性最小二乘法将数据拟合为函数形式。您可以使用 Jupyter Notebook 或scipy 在线文档中的帮助功能了解有关curve_fit 的更多信息。

curve_fit函数具有三个必需的输入:要拟合函数、x 数据和拟合的 y 数据。有两个输出。第一个是参数最优值的数组。第二个是参数的估计协方差矩阵,您可以从中计算参数的标准误差。

示例1:

from __future__ import print_function 
import numpy as np 
import matplotlib.pyplot as plt 
from scipy.optimize import curve_fit 
xdata = [ -10.0, -9.0, -8.0, -7.0, -6.0, -5.0, -4.0, -3.0, -2.0, -1.0, 0.0, 1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0] 
ydata = [1.2, 4.2, 6.7, 8.3, 10.6, 11.7, 13.5, 14.5, 15.7, 16.1, 16.6, 16.0, 15.4, 14.4, 14.2, 12.7, 10.3, 8.6, 6.1, 3.9, 2.1] 

#将xdata和ydata重新转换为numpy数组,以便我们可以使用它们方便的功能
xdata = np.asarray(xdata) 
ydata = np.asarray(ydata) 
plt.plot(xdata, ydata, 'o') 

# Define the Gaussian function 
def Gauss(x, A, B): 
	y = A*np.exp(-1*B*x**2) 
	return y 
parameters, covariance = curve_fit(Gauss, xdata, ydata) 

fit_A = parameters[0] 
fit_B = parameters[1] 

fit_y = Gauss(xdata, fit_A, fit_B) 
plt.plot(xdata, ydata, 'o', label='data') 
plt.plot(xdata, fit_y, '-', label='fit') 
plt.legend()

小白学 Python:Python – 正态分布或高斯分布_数据_03

示例2:

import numpy as np 
from scipy.optimize import curve_fit 
import matplotlib.pyplot as mpl 

# 让我们创建一个函数来建模和创建数据
def func(x, a, x0, sigma): 
	return a*np.exp(-(x-x0)**2/(2*sigma**2)) 

# 生成干净的数据
x = np.linspace(0, 10, 100) 
y = func(x, 1, 5, 2) 

# 为数据添加噪音
yn = y + 0.2 * np.random.normal(size=len(x)) 

# 绘制出数据和模型的当前状态
fig = mpl.figure() 
ax = fig.add_subplot(111) 
ax.plot(x, y, c='k', label='Function') 
ax.scatter(x, yn) 

# 对噪声数据执行曲线拟合
popt, pcov = curve_fit(func, x, yn) 

#popt returns the best fit values for parameters of the given model (func) 
print (popt) 

ym = func(x, popt[0], popt[1], popt[2]) 
ax.plot(x, ym, c='r', label='Best fit') 
ax.legend() 
fig.savefig('model_fit.png')

输出:

小白学 Python:Python – 正态分布或高斯分布_数据_04