python 按照一定的概率分布生成数据 python数据概率分布拟合_标准差


了解前的热身—几个概念你需要弄懂~

随机事件:在一定条件下,可能发生,也可能不发生的事件

随机变量:用以量化随机事件的函数

随机变量又主要包括两种类型:

1.离散随机变量

2.连续随机变量

概率分布: 是指用于表述随机变量取值的概率规律。事件的概率表示了一次试验中某一个结果发生的可能性大小。若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即随机试验的概率分布。


python 按照一定的概率分布生成数据 python数据概率分布拟合_概率分布_02


学习概率分布的方法:

1.有什么用→如何检验→计算概率→python实现

离散型概率分布:

· 伯努利分布

1.有什么用?

对于只有两个结果的事件,用以分析其发生的概率,是概率分布的基础

2.如何检验?

做一次事情,只有成功和失败两种结果.

每次事件成功或者失败的概率相等.

3.如何计算概率

概率即为给定的发生概率p或者失败概率1-p

4.代码实现


python 按照一定的概率分布生成数据 python数据概率分布拟合_代码实现_03


python 按照一定的概率分布生成数据 python数据概率分布拟合_标准差_04


· 二项分布

1.有什么用?

简单理解就是多个相互独立的伯努利事件的概率分布,这时我们想知道成功k次的概率是多少

2.如何检验:

a.做某件事情的次数是固定的,次数用n表示,n次事件相互独立

b.每一次事件有两个可能的结果

c.每一次成功的概率相等

3.如何计算?


python 按照一定的概率分布生成数据 python数据概率分布拟合_标准差_05


4.代码实现


python 按照一定的概率分布生成数据 python数据概率分布拟合_概率分布_06


python 按照一定的概率分布生成数据 python数据概率分布拟合_代码实现_07


· 几何分布

1.有什么用?

在n次伯努利试验中,求得试验k次才得到第一次成功的机率。

2.如何检验?

a.做某件事情的次数是固定的,次数用n表示,n次事件相互独立

b.每一次事件有两个可能的结果

c.每一次成功的概率相等

3.如何计算?



4.代码实现


python 按照一定的概率分布生成数据 python数据概率分布拟合_python 拟合幂律分布_08


python 按照一定的概率分布生成数据 python数据概率分布拟合_概率分布_09


· 泊松分布

1.有什么用?

某个时间范围内,发生某件事k次的概率是多少?

2.如何检验?

a.事件相互独立

b.任意相同的时间范围内,事件发生的概率相同

3.如何计算?

给出时间范围内,某件事发生的平均次数是u

求这段时间内,发生k次事的概率:



4.代码实现


python 按照一定的概率分布生成数据 python数据概率分布拟合_代码实现_10


python 按照一定的概率分布生成数据 python数据概率分布拟合_python 拟合幂律分布_11


连续型概率分布

· 正态分布

1)定义:概率分布满足中间高、两边低的“钟形曲线”的就是正态分布


python 按照一定的概率分布生成数据 python数据概率分布拟合_概率分布_12


曲线越高,也就代表着这个区间的概率越大,曲线下的面积就相当于概率。

2)平均值和标准差


python 按照一定的概率分布生成数据 python数据概率分布拟合_python 拟合幂律分布_13


从此图可以看出:

1)概率密度曲线在均值处达到最大,并且对称;

2)均数的大小决定了曲线的位置,标准差的大小决定了曲线的胖瘦,标准差越小,意味着大多数变量值离均数的距离越短,因此大多数值都紧密地聚集在均数周围。

3)绝大多数数据处于3个标准差以内,所以如果某个数据超出了3个标准差,可以判定为异常值,在数据清洗环节清除。

3)查正态表求概率

step1:确定概率范围 P(k < 1.05)

step2:求标准分


平均值为u, 标准差为σ


step3:查正态分布表得到概率。


python 按照一定的概率分布生成数据 python数据概率分布拟合_python 拟合幂律分布_14


python 按照一定的概率分布生成数据 python数据概率分布拟合_python 拟合幂律分布_15


· 幂律分布

这种分布是自然界中的一种常见现象。譬如地震的大小,通常震级越小发生的频率越大,震级越大发生的频率就越小。以震级为自变量,以其发生的频率(或概率)为因变量,符合(负)幂函数。


python 按照一定的概率分布生成数据 python数据概率分布拟合_概率分布_16


如何避免偏差

1.样本偏差

2.幸存者偏差

3.概率偏见

4.信息茧房