python使用高斯kde核密度估计高斯核密度估计图

转载

mob6454cc788ee7 2023-12-22 20:31:01

文章标签 python使用高斯kde核密度估计核函数核密度估计直方图 文章分类 Python 后端开发

核密度估计（Kernel density estimation），是一种用于估计概率密度函数的非参数方法，

python使用高斯kde核密度估计高斯核密度估计图_核密度估计

为独立同分布F的n个样本点，设其概率密度函数为f，核密度估计为以下：

python使用高斯kde核密度估计高斯核密度估计图_核函数_02

K(.)为核函数（非负、积分为1，符合概率密度性质，并且均值为0），h>0为一个平滑参数，称作带宽(bandwidth)，也看到有人叫窗口。K_h(x) = 1/h K(x/h). 为缩放核函数(scaled Kernel)。有很多种核函数，uniform,triangular, biweight, triweight, Epanechnikov,normal,等。各种核函数的图形如下：

python使用高斯kde核密度估计高斯核密度估计图_python使用高斯kde核密度估计_03

Epanechnikov 内核在均方误差意义下是最优的，效率损失也很小。由于高斯内核方便的数学性质，也经常使用 K(x)= ϕ(x)，ϕ(x)为标准正态概率密度函数。核密度估计与直方图很类似，但相比于直方图还有光滑连续的性质。下图为直方图与核函数估计对 x₁ = −2.1, x₂ = −1.3, x₃ = −0.4, x₄ = 1.9, x₅ = 5.1, x₆ = 6.2 六个点的“拟合”结果。

python使用高斯kde核密度估计高斯核密度估计图_核函数_04

在直方图中，横轴间隔为2，数据落到某个区间，此区间y轴增加1/12。在核密度估计中，不放另正态分布方差为2.25，红色的虚线表示由每一个数据得到的正态分布，叠加一起得到核密度估计的结果，蓝色表示。

如下图：

python使用高斯kde核密度估计高斯核密度估计图_核密度估计_05

（Kernel density estimate (KDE) with different bandwidths of a random sample of 100 points from a standard normal distribution. Grey: true density (standard normal). Red: KDE with h=0.05. Black: KDE with h=0.337. Green: KDE with h=2.）

不同的带宽得到的估计结果差别很大，那么如何选择h？显然是选择可以使误差最小的。下面用平均积分平方误差（mean intergrated squared error）的大小来衡量h的优劣。

python使用高斯kde核密度估计高斯核密度估计图_直方图_06