PDF、PMF、CDF是什么

  • 1.概念
  • 2.数学表示
  • 3.结论


1.概念

PDF:概率密度函数(probability density function),是用来描述连续型随机变量的输出值,在某个确定的取值点附近的可能性的大小的函数。

机器学习累计分布函数求解样本的分类概率 什么是累计分布函数_概率密度函数

PMF : 概率质量函数(probability mass function),是用来描述离散型随机变量在各特定取值上的概率。

CDF : 累积分布函数 (cumulative distribution function),又叫分布函数,是概率密度函数的积分,用来表示离散型随机变量x的概率分布。
累计分布函数就是从上图中的概率密度曲线的最左边开始,然后逐渐往右求取曲线下方的面积,即概率。

总结一下就是上面三者的横轴都是随机变量x的取值,PDF的纵轴表示连续型随机变量x出现的可能性(非概率),PMF的纵轴表示离散型随机变量x出现的概率,CDF的纵轴表示连续型随机变量x的概率。

2.数学表示

PDF

如果XX是连续型随机变量,定义概率密度函数为fX(x)fX(x),用PDF在某一区间上的积分来刻画随机变量落在这个区间中的概率,即

机器学习累计分布函数求解样本的分类概率 什么是累计分布函数_概率论_02


PMF

如果XX离散型随机变量,定义概率质量函数为fX(x)fX(x),PMF其实就是高中所学的离散型随机变量的分布律,即

机器学习累计分布函数求解样本的分类概率 什么是累计分布函数_概率密度函数_03


比如对于掷一枚均匀硬币,如果正面令X=1X=1,如果反面令X=0X=0,那么它的PMF就是

机器学习累计分布函数求解样本的分类概率 什么是累计分布函数_取值_04


CDF

不管是什么类型(连续/离散/其他)的随机变量,都可以定义它的累积分布函数,有时简称为分布函数。对于连续型随机变量,CDF就是PDF的积分,PDF就是CDF的导数,有

机器学习累计分布函数求解样本的分类概率 什么是累计分布函数_取值_05


对于离散型随机变量,其CDF是分段函数,比如举例中的掷硬币随机变量,它的CDF为

机器学习累计分布函数求解样本的分类概率 什么是累计分布函数_概率密度_06

3.结论

PDF是连续变量特有的,PMF是离散随机变量特有的;
PDF的取值本身不是概率,它是一种趋势(密度)只有对连续随机变量的取值进行积分后才是概率,也就是说对于连续值确定它在某一点的概率是没有意义的;
PMF的取值本身代表该值的概率。