- 概率密度函数
- 局部期望
- 相关分布
概率密度函数
对数正态分布是对数为正态分布的任意随机变量的概率分布。如果Y是正态分布的随机变量,则exp(Y)是对数正态分布;同样,如果X是对数正态分布,则ln(X)为正态分布,如果一个变量可以看成是许多很小独立因子的乘积,则这个变量可以看作是对数正态分布。 给定一个x>0,对数正态分布的概率密度函数为:
f(x;μ;σ)=12π−−√xσe−(lnx−μ)22σ2
其中,
μ和
σ分别是变量对数的平均值和标准差。期望值和方差分别为:
E(X)=eμ+σ2/2
var(X)=(eσ2−1)e2μ+σ2
给定期望值与方差,也可以用这个关系求
μ与
σ的大小
μ=ln(E(X))−12ln(1+var(X)E(X)2)
和
σ2=ln(1+var(X)E(X)2)
求解时,需要将
μ和
σ计算出来带入到上面的
f(x;μ;σ)中使用matlab带有的
logncdf和
lognpdf获取对数正态分布的累积分布函数和密度函数。
注解:已知变换后的数据的统计特征可以反过来推导出原始数据的统计特征,不存在数据信息的损失(对数转换后变量的均值可以直接由样本数据的均值得到,但不进行变化却需要由样本均值方法两方面去推断得到),参见:
机器学习小组知识点17 也可以发现对数正态分布实际上是对数据进行了对数变化,从而变成了正态分布,方便得到相关的统计学变量。
局部期望
随机变量X在阈值k上的局部期望定义为:
g(k)=∫∞k(x−k)f(x)dx
其中
f(x)是概率密度,对于对数正态概率密度,这个定义为:
g(k)=exp(μ+σ2/2)Φ(−ln(k)+μ+σ2σ)−kΦ(−ln(k)+μσ)
其中
Φ是标准正态分布的累积分布函数,对数正态分布的局部期望在经济领域应用广泛。
相关分布
这里指的是与高斯分布的关系
如果Y=ln(X)与X Log−N(μ,σ2),则Y N(μ,σ2)是正态分布.
如果Xm=Log−N(μ,σ2m),m=1...n¯¯¯¯¯¯¯是有同样%μ参数,而σ可能不同的统计独立对数正态分布变量,并且Y=∏Nm=1Xm,则Y也是正态分布变量:Y∼Log−N(nμ,∑nm=1σ2m),满足高斯分布求和性质。
参数的最大似然估计
为了确定对数正态分布参数μ和σ的最大似然估计,可以采用与正态分布参数最大似然估计同样的方法。
fL(x;μ,σ)=1xfN(lnx;μ,σ)
其中用
fL(⋅)表示对数正态分布的概率密度函数,用
fN(⋅)−−表示正态分布,因此,用与正态分布同样的指数,我们可以得到对数最大似然函数:
lL(μ,σ|x1,x2,⋯,xn)=−∑klnxk+lN(μ,σ|lnx1,lnx2,⋯,lnxn)=constant+lN(μ,σ|lnx1,lnx2,⋯,lnxn)
由于第一项相对于
μ和
、sigma来说是常数,两个对数最大似然函数
lL和
lN在同样的
μ和
σ处有最大值。因此,根据正态分布最大似然参数估计器的公式以及上面的方程,推导出对数正态分布参数最大似然估计为:
μ^=∑klnxkn,σ^2=(lnxk−μ^)2n