概率论几种常见分布
- 正态分布
- 概要
- 分析
- 泊松分布
- 适用范围
- 伽玛分布
- 对数正态分布
本文也算是一种对大学知识的回顾吧!学习数据分析看到几种统计方法,没办法,过来总计一下吧,反正感觉我以后用的次数还多着哩。
正态分布
正态分布(normal distribution)又名高斯分布,是一个非常常见的连续概率分布。正态分布在统计学上十分重要,经常用在自然和社会科学来代表一个不明的随机变量。
概要
正态分布是自然科学与行为科学中的定量现象的一个方便模型。各种各样的心理学测试分数和物理现象比如光子计数都被发现近似地服从正态分布。尽管这些现象的根本原因经常是未知的,理论上可以证明如果把许多小作用加起来看做一个变量,那么这个变量服从正态分布(在R.N.Bracewell的Fourier transform and its application中可以找到一种简单的证明)。正态分布出现在许多区域统计:例如,采样分布均值是近似地正态的,即使被采样的样本的原始群体分布并不服从正态分布。另外,正态分布信息熵在所有的已知均值及方差的分布中最大,这使得它作为一种均值以及方差已知的分布的自然选择。正态分布是在统计以及许多统计测试中最广泛应用的一类分布。在概率论,正态分布是几种连续以及离散分布的极限分布。
分析
正态分布是一种概率分布。正态分布是具有两个参数μ和σ2的连续型随机变量的分布,第一参数μ是服从正态分布的随机变量的均值,第二个参数σ2是此随机变量的方差,所以正态分布记作N(μ,σ2 )。 服从正态分布的随机变量的概率规律为取与μ邻近的值的概率大 ,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。正态分布的密度函数的特点是:关于μ对称,在μ处达到较大值,在正(负)无穷远处取值为0,在μ±σ处有拐点。它的形状是中间高两边低 ,图像是一条位于x轴上方的钟形曲线。当μ=0,σ2 =1时,称为标准正态分布,记为N(0,1)。μ维随机向量具有类似的概率规律时,称此随机向量遵从多维正态分布。多元正态分布有很好的性质,例如,多元正态分布的边缘分布仍为正态分布,它经任何线性变换得到的随机向量仍为多维正态分布,特别它的线性组合为一元正态分布。
正态分布最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。
生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。例如,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的速度分量,等等。一般来说,如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布(见中心极限定理)。从理论上看,正态分布具有很多良好的性质 ,许多概率分布可以用它来近似;还有一些常用的概率分布是由它直接导出的,例如对数正态分布、t分布、F分布等。
正态分布应用最广泛的连续概率分布,其特征是“钟”形曲线。
正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。正态曲线呈钟型,两头低,中间高,左右对称,曲线与横轴间的面积总等于1。
正态分布一种概率分布,也称“常态分布”。正态分布具有两个参数μ和σ^2 的连续型随机变量的分布,第一参数μ是服从正态分布的随机变量的均值,第二个参数σ^2 是此随机变量的方差,所以正态分布记作N(μ,σ^2)。服从正态分布的随机变量的概率规律为取与μ邻近的值的概率大,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。
正态分布的密度函数的特点是:关于μ对称,并在μ处取较大值,在正(负)无穷远处取值为0,在μ±σ处有拐点,形状呈现中间高两边低,图像是一条位于x轴上方的钟形曲线。当μ=0,σ^2 =1时,称为标准正态分布,记为N(0,1)。μ维随机向量具有类似的概率规律时,称此随机向量遵从多维正态分布。多元正态分布有很好的性质,例如,多元正态分布的边缘分布仍为正态分布,它经任何线性变换得到的随机向量仍为多维正态分布,特别它的线性组合为一元正态分布。正态分布最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。正态分布应用最广泛的连续概率分布,其特征是“钟”形曲线。
以下变量非常接近正态分布:
- 人群的身高
- 成年人的血压
- 扩散后的粒子的位置
- 测量误差
- 人群的鞋码
- 员工回家所需时间
泊松分布
泊松分布(法语:loi de Poisson,英语:Poisson distribution)又称帕松分布、普阿松分布、布瓦松分布、布阿松分布、波以松分布、卜氏分配、泊松小数法则(Poisson law of small numbers),是一种统计与概率学里常见到的离散概率分布,由法国数学家西莫恩·德尼·泊松在1838年时发表。
泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数,电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数、激光的光子数分布等等。
适用范围
泊松分布使用范围
Poisson分布主要用于描述在单位时间(空间)中稀有事件的发生数. 即需满足以下四个条件:[1]
1、给定区域内的特定事件产生的次数,可以是根据时间,长度,面积来定义;
2、各段相等区域内的特定事件产生的概率是一样的;
3、各区域内,事件发生的概率是相互独立的;
4、当给定区域变得非常小时,两次以上事件发生的概率趋向于0。
例如:
1、放射性物质在单位时间内的放射次数;
2、在单位容积充分摇匀的水中的细菌数;
3、野外单位空间中的某种昆虫数等。
伽玛分布
Gamma分布常用于概率统计模型,它在水文学和气象学、可靠性和生存分析等领域都有广泛的应用。因此,对Gamma分布特别是Gamma分布的参数估计展开研究有着重要意义。本文对现有的Gamma分布的性质和参数估计方法进行总结,并且提出一种新的参数估计方法——参数分离法,最后用MATLAB进行数值模拟,计算三种估计的估计值和均方误差,并在均方误差的准则下,比较这三种估计方法的优劣。对于回归,一直以来研究最多的是多元线性回归模型,但在许多实际问题中,响应变量及其期望并不都满足其假定条件,因此常常应用其直接推广的模型,即广义线性模型。其中Gamma回归模型以及Gamma分布好其它指数族分布的混合模型有着广泛的应用,因此本文对Gamma回归展开深入的研究。
对数正态分布
在概率论与统计学中,任意随机变量的对数服从正态分布,则这个随机变量服从的分布称为对数正态分布。如果 Y 是正态分布的随机变量,则 exp(Y)(指数函数)为对数正态分布;同样,如果 X 是对数正态分布,则ln X为正态分布。 如果一个变量可以看作是许多很小独立因子的乘积,则这个变量可以看作是对数正态分布。一个典型的例子是股票投资的长期收益率,它可以看作是每天收益率的乘积。
对数正态分布通常用于对失效模式具有疲劳应力性质的单元的寿命进行建模。由于这包括大多数(如果不是全部)机械系统,因此对数正态分布可以得到广泛应用。因此,当尝试对这些类型的单位建模时,对数正态分布是Weibull分布的良好伴侣。顾名思义,对数正态分布与正态分布具有某些相似性。如果随机变量的对数为正态分布,则随机变量为对数正态分布。因此,两个分布之间存在许多数学相似性。