随机变量

随机变量是表示随机现象各种结果的变量。举例来说,掷一枚质地均匀的硬币,可能出现的结果有正面和反面。那么可以定义随机变量 python将对应的离散变量转化为连续变量 离散变量连续变量举例_概率

离散型随机变量

如果随机变量的取值是有限的或可数无限的,称为离散型随机变量。
比如:投掷硬币或这骰子,出现的结果是有限的,商场的顾客数,地区的人数,理论上是可以数的尽的。

连续型随机变量

如果随机变量的取值是无限不可数的·,则成为连续型随机变量。
比如:明天的下雨量,灯泡的使用寿命

期望值

期望值类似于均值,均值是偏统计学的概念,期望值则属于概率论范畴。
均值是 实验后 根据实际结果统计得到的样本的平均值
期望是 实验前 根据概率分布**“预测”**的样本平均值。
比如:
进行了10次投掷硬币的试验,正面朝上出现了8次,反面朝上出现了2次
所以投掷硬币 正面出现的平均值是 8/10 = 0.8,正面出现的概率p也是0.8

投掷硬币正反面出现的概率均是0.5,所以正面出现的期望 python将对应的离散变量转化为连续变量 离散变量连续变量举例_二项分布_02

伯努利分布

伯努利分布又称两点分布/0-1分布,是基于伯努利试验:单次随机试验,每次试验中只有两种可能的结果,出现的结果只有两种结果,而且两种结果发生与否互相对立(如果成功的概率是p,那么失败的概率则为1-p)
例如:投掷硬币,不是正面就是反面;升职是否成功,不是成功就是失败等
其概率质量函数为:

二项分布

二项分布:
进行有限次(n)次伯努利试验,每次伯努利试验相互独立,与其它各次试验结果无关。
如果成功的概率用p表示,失败的概率q=1-p;进行了n次伯努利试验,成功了x次,失败的次数为n-x次,那么发生这种情况的概率为:
python将对应的离散变量转化为连续变量 离散变量连续变量举例_二项分布_03

泊松分布

泊松分布基于二项分布,进行n次伯努利试验,假设某个随机试验再同一时间或者空间发生的平均次数是 python将对应的离散变量转化为连续变量 离散变量连续变量举例_概率_04 ,可以将这段时间或空间切分为n等分,那么再每等分时间内,这个随机事件发生的概率是 python将对应的离散变量转化为连续变量 离散变量连续变量举例_概率_05,当n趋于无穷大,python将对应的离散变量转化为连续变量 离散变量连续变量举例_概率_05趋于0,所以在每等分时间内,该随机事件发生两次或两次以上是不可能的。
例如:观测得到平均一小时通过的汽车数量时10,那么python将对应的离散变量转化为连续变量 离散变量连续变量举例_概率_07 ,那么平均每分钟通过汽车的数量为python将对应的离散变量转化为连续变量 离散变量连续变量举例_概率_08,所以在这段时间内,该随机事件(比如1小时经过3辆车的概率,将1小时划分为60分钟,要进行60次试验,发生3次通过)发生k次的概率服从二项分布。
概率可以表示为:
python将对应的离散变量转化为连续变量 离散变量连续变量举例_二项分布_09
当n趋于无穷大时,可以推导以下公式为:
python将对应的离散变量转化为连续变量 离散变量连续变量举例_正态分布_10

正态分布

正态分布是所有概率分布中最重要的形式,在现实生活中有广泛的应用。

如果某个随机变量(数据集合) python将对应的离散变量转化为连续变量 离散变量连续变量举例_概率_11 服从正态分布,则均值和标准差是决定正态分布的两个参数。
正态分布的概率密度函数为:
python将对应的离散变量转化为连续变量 离散变量连续变量举例_随机变量_12
python将对应的离散变量转化为连续变量 离散变量连续变量举例_泊松分布_13表示均值,python将对应的离散变量转化为连续变量 离散变量连续变量举例_概率_14表示标准差
z分数等于 python将对应的离散变量转化为连续变量 离散变量连续变量举例_泊松分布_15,所以可变换为:
python将对应的离散变量转化为连续变量 离散变量连续变量举例_随机变量_16
z分数表示为,x离均值有多少个标准差远。
标准差越小,说明数据分布越集中,离均值越近,正态曲线越高耸。
标准差越大,说明数据分布越分散,离均值越远,正态曲线越平缓。

标准正态分布为均值为0,标准差为1。
正态分布的经验法则:
对于服从正态分布或近似服从正态分布的数据总体,他们的均值为python将对应的离散变量转化为连续变量 离散变量连续变量举例_泊松分布_13,标准差为python将对应的离散变量转化为连续变量 离散变量连续变量举例_概率_14
大约有68.3%的数据会落在python将对应的离散变量转化为连续变量 离散变量连续变量举例_随机变量_19内(即python将对应的离散变量转化为连续变量 离散变量连续变量举例_正态分布_20区间下正态曲线的面积68.3%),大约有95.4的数据会落在区间python将对应的离散变量转化为连续变量 离散变量连续变量举例_二项分布_21内,大约有99.7的数据会落在区间python将对应的离散变量转化为连续变量 离散变量连续变量举例_二项分布_22内。

中心极限定理

无论总体服从什么分布,只要从总体中抽取的样本容量足够大,这些样本组成的样本均值分布都近似于正态分布。

Z分布/T分布

抽样分布中,均值抽样分布的情况有两种,分别是Z分布和T分布
Z分布:适合总体标准差python将对应的离散变量转化为连续变量 离散变量连续变量举例_概率_14已知的正态分布总体或样本容量大于或等于30的任意分布总体的抽样情况。
T分布:在总体的标准差python将对应的离散变量转化为连续变量 离散变量连续变量举例_概率_14未知的情况下,知道样本标准差即可用T分布

卡方分布

卡方分布是指样本方差和总体方差之间的比值关系。
如果样本量为n的样本集取自方差为python将对应的离散变量转化为连续变量 离散变量连续变量举例_概率_14的正态分布总体,对每一个样本都计算他的卡方值(python将对应的离散变量转化为连续变量 离散变量连续变量举例_二项分布_26),那么卡方值将构成样本方差和总体方差的卡方分布。
卡方分布是右偏的,但是当样本量,即自由度增加时,会逐渐趋向于正态分布。