连续型随机变量的概率分布

德国的高斯

数据统计分析 — 正态分布_标准差


法国的拉普拉斯

数据统计分析 — 正态分布_正态分布_02


回到最开始的业务场景

通过统计描述,分析师已经了解了配件A过去的日消耗量波动情况,现希望基于历史数据设定库存控制线,要求该库存量能够保证99%的使用日不会出现库存断货情况。

该怎么办呢?

控制线设置成均数可以吗?

肯定是不可以的,因为均值只是代表一般水平,换句话说,有大概一半的数据在均数以下,有一半在以上,如果把均数设置为库存控制线,最多也就只能满足50%左右的使用日不会出现库存断货情况

如果使用百分位数呢?

计算P99位置的数值,这样理论是可以的,但是百分位数对于样本量比较大的数据集才具有意义,样本量太小,实际意义不大

举个例子:零件日消耗量分布从1-100,我们随机抽取50个样本,计算P99,要求这个值要大于99%的日消耗,假设这个样本数据的最大值是80,比这个数小的是78,最终我们计算出来的是78,显然跟100差的很远,这个数据拿到实际应用中,是不满足要求的,因为样本量少造成的误差太大的缘故。

那该怎么办?

那就用到接下来要讲的内容

从频数分布到概率分布

数据统计分析 — 正态分布_数据_03

那我们来分析一下

直方图/频率图的性质

直条的面积实质上就是频率(或者百分比)

面积=直条高度X宽度(组距) = 频率

因此直条的面积相加等于1

当样本量越来越大,频率(面积) 趋向概率

并且组距越来越小时,直方条的顶缩成点并且各个直方条的顶连接成一条曲线,这条曲线就是 概率密度分布曲线

概率密度的概念和固体的密度基本类似

哪个地方的概率大说明密度就大

数据统计分析 — 正态分布_正态分布_04


这就是正态分布

官方概念

数据统计分析 — 正态分布_标准差_05


正态分布的两个重要特征:均数μ和标准差σ

数据统计分析 — 正态分布_标准差_06


μ是分布曲线的最高峰的位置(集中趋势)

σ标准差是离散程度的度量(离散趋势)

正态分布是具有对称性的

正态分布是应用最广泛的一种分布,在我们生活中正态分布随处可见

人的智商

数据统计分析 — 正态分布_数据_07


大部分人的智商是正常的,只有少数像爱伊斯坦老爷子这样的才会智商发飙人的身高,这个是西方国家的

数据统计分析 — 正态分布_标准差_08


什么是标准正态分布?

不同的正态分布,其曲线下方的面积分布规律各不相同,使得在应用上很不方便,需要为每种分布单独计算曲线下面积的分布规律

为此统计学家优先计算了均数为0,标准差为1的正态分布N(0,1)曲线下面积分布规律。

其曲线下概率面积分布规律非常常用

95% 99%
双侧 1.96 2.58
单侧 1.64 2.33

95%的情况下最常用

数据统计分析 — 正态分布_数据_09


标准正态分布的曲线下面积分布规律

只要将相应的指标转换成服从标准正态分布,就可以根据该面积分布规律计算出累积概率。

例:95%的双侧个体参考值范围

数据统计分析 — 正态分布_数据_10


看看这张图,参考值就是应用了正态分布的知识

数据统计分析 — 正态分布_正态分布_11


回到刚才的例子中

解题思路

首先确定数据是否大致服从正态分布

如果服从,直接采用正态分布公式计算参考值范围

如果不服从,那么是否可以采取某种形式进行变换成正态分布

如果还不行,只能采用百分位数,但是如果样本量小的话,数据可能不准确

举个栗子,详细看看如何根据正态分布计算区间范围

某零件的长度服从正态分布,平均长度为10mm,标准差为0.2mm,问: 从该批零件中随机抽取一件,其长度不到9.4,mm的概率是多少?

计算过程

数据统计分析 — 正态分布_数据_12


使用Excel如何计算

=NORMDIST(9.4,10,0.2,TRUE)

函数介绍

NORMDIST(x,mean,standard_dev,cumulative)

NORMDIST 函数语法具有下列参数:

  • X 必需。 需要计算其分布的数值。
  • Mean 必需。 分布的算术平均值。
  • standard_dev 必需。 分布的标准偏差。
  • cumulative 必需。 决定函数形式的逻辑值。 如果 cumulative 为 TRUE,则 NORMDIST 返回累积分布函数;如果为 FALSE,则返回概率密度函数。

正态分布的经验法则

数据统计分析 — 正态分布_数据_13


数据统计分析 — 正态分布_正态分布_14

根据Z值,查概率

数据统计分析 — 正态分布_数据_15


根据概率,查Z值

数据统计分析 — 正态分布_数据_16

X 服从 N

数据统计分析 — 正态分布_正态分布_17

数据统计分析 — 正态分布_标准差_18


数据统计分析 — 正态分布_标准差_19


数据统计分析 — 正态分布_数据_20


数据统计分析 — 正态分布_标准差_21


数据统计分析 — 正态分布_标准差_22


仲尼曰:“中庸者,不偏不倚、无过不及,而平常之理,乃天命所当然,精微之极致也。” -- 朱熹《中庸单句》

数据统计分析 — 正态分布_正态分布_23


数据统计分析 — 正态分布_标准差_24

数据统计分析 — 正态分布_标准差_25


数据统计分析 — 正态分布_标准差_26

数据统计分析 — 正态分布_数据_27

伽尔顿板虚拟仿真-正态曲线的产生:http://vr.1zhidian.cn/bean/index.html

https://zhuanlan.zhihu.com/p/123314439



作者:VipSoft