正态分布(连续随机分布)¶
连续变量取某个值时,概率近似为0,因为值不固定,可以无限细分
连续变量是随机变量在某个区间内取值的概率,此时的概率函数叫做概率密度函数。
世界上绝大部分的分布都属于正态分布,人的身高体重、考试成绩、降雨量等都近似服从。
正态分布概率密度函数:f(x)=$\cfrac{1}{\sigma\sqrt{2\pi}}$e$\frac{^{-{(x-u)^2}}}{2\sigma^2}$
u代表均值,σ代表标准差。
两者不同的取值将会造成不同形状的正态分布。均值表示正态分布的左右偏移,标准差决定曲线的宽度和平坦,标准差越大曲线越平坦。
一个正态分布的经验法则:
正态随机变量有69.3%的值在均值加减一个标准差的范围内,95.4%的值在两个标准差内,99.7%的值在三个标准差内。这条经验法则可以帮助我们快速计算数据的大体分布。
均值u=0,标准差σ=1的正态分布叫做标准正态分布
它的随机变量用z表示,它是推断统计的基础。将均值和标准差代入正态概率密度函数,得到一个简化的公式:f(x)=$\cfrac{1}{\sqrt{2\pi}}$e$\frac{{-z}^2}{2}$
累计分布函数:它是概率密度函数的积分
用P(X$\leq$x)表示随机变量小于或者等于某个数值的概率,F(x) = P(X$\leq$x)
曲线就是概率密度函数,当x取某个值时,曲线上f(x)点的数值即表示随机变量在对应的x点值的取值概率,曲线与X轴相交的阴影面积就是累计分布函数
当我们具有一个任意均值的u和标准差σ,都能将其转换成标准状态分布。z=$\frac{x-u}{\sigma}$
现在有一个u=10和σ=2的正态随机变量,求x在10与14之间的概率是多少?
当x=10时,z=(10-10)/2=2。当x=14时,z=(14-10)/2=2。于是x在10和14之间的概率等价于标准正态分布中0和2之间的概率。计算P(0$\leq$z$\leq$2)=P(z$\leq$2) – P(z$\leq$0)=0.4772