正态分布
对数正态分布(logarithmic normal distribution)是指一个随机变量的对数服从正态分布,则该随机变量服从对数正态分布。
有些量本身就是不对称的。例如,试想,人们完成某项特定任务需要的时间:因为每个人都是不同的,我们会得到一个分布。然而,所有的值都必然是正数(因为时间不可能为负数)。而且,我们还能预测到该分布可能的形状:有一个无人可及的最小时间,然后是少数一些非常快的“冠军”,接下来就是普通人的最具代表性的完成时间形成一个高峰,最后是尾部一长串的“掉队者”。显然,高斯分布不会很好地描述这样的分布,因为高斯分布中x可以定义为正值,也可定义为负值,它是对称的且尾部很短。[1] (以上引自百度百科)
如果Y是对数正态分布,则ln(Y)为正态分布,
1. 推导对数正态分布的概率密度函数:
从累积分布函数关系入手,易知
代表对数正态分布的cdf,
代表正态分布的cdf
对上式两边取导数,即可得到pdf的关系,
所以,对数正态分布函数的密度函数是:
,把y换成x:
2. 求期望:
这里使用换元法简化一下积分,令
,
那么原积分转化为
因为有
,所以
3.方差的推导:
总结,对数正态分布的期望与方差计算公式:
4.given期望值与方差,也可以用这个关系求μ与σ的大小
即,已知
,
, and
,求
5 在实际运用中,通常情况是我们通过某种方式已知或假设变量
服从对数正态分布
,通过试验获得的一组X的样本,现在想估算
和
。如果这个实验并不是我们做的,得不到
的每个具体的数据,做实验的人只是给我们一些简单的统计特征值,比如,只知道样本均值Mean(X), 样本方差Var(X), 样本中位数Median(X),这样我们就不能用极大似然法来估计总体中的参数,但可以用矩法进行简单的估计。
如果样本的数量足够大,可以认为
,
,然后就可以用上面的公式估算
和
。
实际上如果用样本中位数估算
更方便也准确,
为什么可以用样本中位值的对数来估算
值呢,来看一下变量X中位值与
的关系:
变量X总体的中位值等于
方程的解,
而
,我们知道
,
所以方程转化为
,解为
,
即