PDF、PMF、CDF

概率论中PDF、PMF和CDF的区别与联系

1. 概念解释

  • PDF:概率密度函数(probability density function), 在数学中,连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。
  • PMF:概率质量函数(probability mass function), 在概率论中,概率质量函数是离散随机变量在各特定取值上的概率。
  • CDF:累积分布函数 (cumulative distribution function),又叫分布函数,是概率密度函数的积分,能完整描述一个实随机变量X的概率分布。

2. 数学表示

2.1 PDF

如果XX是连续型随机变量,定义概率密度函数为\(f_X(x)\),用PDF在某一区间上的积分来刻画随机变量落在这个区间中的概率,即

python 帕累托累计分布 概率函数 帕累托的分布函数_概率密度函数

2.2 PMF

如果XX离散型随机变量,定义概率质量函数为\(f_X(x)\),PMF其实就是高中所学的离散型随机变量的分布律,即

python 帕累托累计分布 概率函数 帕累托的分布函数_python 帕累托累计分布 概率函数_02

2.3 CDF

不管是什么类型(连续/离散/其他)的随机变量,都可以定义它的累积分布函数,有时简称为分布函数。

  • 对于连续型随机变量,显然有:

那么CDF就是PDF的积分,PDF就是CDF的导数

  • 对于离散型随机变量,其CDF是分段函数,比如举例中的掷硬币随机变量,它的CDF为:

Pareto(帕累托)分布

Survial function 生成函数

The survival function is also known as the survivor function[2] or reliability function.[3]

又称 complementary cumulative distribution function.

python 帕累托累计分布 概率函数 帕累托的分布函数_取值_03

其实就是1-CDF

Pareto distribution

https://en.wikipedia.org/wiki/Pareto_distribution

python 帕累托累计分布 概率函数 帕累托的分布函数_取值_04

  • 注意形状参数\(\alpha\)必须是正的!

python 帕累托累计分布 概率函数 帕累托的分布函数_取值_05

python 帕累托累计分布 概率函数 帕累托的分布函数_生成函数_06

python 帕累托累计分布 概率函数 帕累托的分布函数_python 帕累托累计分布 概率函数_07

Generalized Pareto distribution
https://en.wikipedia.org/wiki/Generalized_Pareto_distribution

python 帕累托累计分布 概率函数 帕累托的分布函数_生成函数_08

python 帕累托累计分布 概率函数 帕累托的分布函数_概率密度函数_09

  • 注意:形状参数(或者称为尾部指数)\(\xi\in(-\infty,+\infty)\)!
  • python 帕累托累计分布 概率函数 帕累托的分布函数_生成函数_10


因此,GP 分布是指数分布 (k = 0) 和帕累托分布 (k>0) 的广义化。GP 将这两个分布包括在更大的族中,因此可以实现连续的形状范围。

Matlab实现

利用广义帕累托分布对尾数据建模

https://ww2.mathworks.cn/help/stats/examples/modelling-tail-data-with-the-generalized-pareto-distribution.html

广义帕累托 (GP) 分布是一种右偏态分布,使用形状参数 k 和尺度参数 sigma 进行参数化。k 也称为“尾部指数”参数,可以为正值、零或负值。

x = linspace(0,10,1000);
plot(x,gppdf(x,-.4,1),'-', x,gppdf(x,0,1),'-', x,gppdf(x,2,1),'-');
xlabel('x / sigma');
ylabel('Probability density');
legend({'k < 0' 'k = 0' 'k > 0'});

python 帕累托累计分布 概率函数 帕累托的分布函数_python 帕累托累计分布 概率函数_11