《统计学基于R》:第四章 随机变量的概率分布
文章目录
- 《统计学基于R》:第四章 随机变量的概率分布
- 4.1 什么是概率
- 4.2 随机变量的概率分布
- 4.2.1 随机变量及其概括度量
- 4.2.2 随机变量的概率分布
- 4.3 样本统计量的概率分布
- 4.3.1 统计量及其分布
- 4.3.2 样本均值的分布
- 4.3.3 样本方差的分布
- 4.3.4 样本比例的分布
- 4.3.5 统计量的标准误
4.1 什么是概率
1、概率:对事件发生的可能性大小的度量。
2、概率的性质
- 一个介于0和1之间的一个值
- 事件A的概率记为P(A) 。在相同条件下,大量重复进行n次试验,事件A发生了m次,则事件A发生的概率为m/n
4.2 随机变量的概率分布
4.2.1 随机变量及其概括度量
1、随机变量:用数值来描述特定实验一切可能出现的结果,有多个取值,但实现不能确定,具有随机性。
- 离散型随机变量:随机变量 X 取有限个值或所有取值都可以逐个列举出来。以确定的概率取这些不同的值。如:骰子的点数
- 连续型随机变量:可以取一个或多个区间中任何值 。所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任意点。如:灯泡的寿命
(性质见概率论与数理统计)
2、随机变量的概括性度量
- 期望值——随机变量X所有可能取值与其取相对应的概率乘积之和,记为μ或E(X)
- 方差——随机变量X的每一个取值与期望值的离差平方和的数学期望,记为σ²或D(X)
概括性度量值 | 意义 |
期望值 | 描述随机变量水平的统计量 |
方差 | 描述随机变量离散程度的统计量 |
(计算方法见概率论与数理统计)
4.2.2 随机变量的概率分布
概率分布类型 | 概率分布 |
离散型概率分布 | 二项分布、泊松分布、超几何分布 |
连续型概率分布 | 正态分布、均匀分布、指数分布 |
1、正态分布
R函数 | 意义 |
rnorm(n,mean,sd) | 生成n个随机数 |
dnorm(x,mean,sd) | 输出某个值的概率 |
pnorm(x,mean,sd) | 输出(-00,x)的左尾面积(即累积概率) |
qnorm(p,mean,sd) | 给定左尾面积,输出对应z分数 |
2、均匀分布
R函数 | 意义 |
runif(n,min,max) | 生成n个随机数 |
dunif(x,min,max) | 输出某个值的概率 |
punif(x,min,max) | 输出(-00,x)的左尾面积(即累积概率) |
qunif(p,min,max) | 给定左尾面积,输出对应z分数 |
3、二项分布
R函数 | 意义 |
rbinom(n,size,prob) | 生成n个随机数 |
dbinom(x,size,prob) | 输出某个值的概率 |
pbinom(x,size,prob) | 输出(-00,x)的左尾面积(即累积概率) |
qbinom(p,size,prob) | 给定左尾面积,输出对应z分数 |
4、泊松分布
R函数 | 意义 |
rpois(n,lambda) | 生成n个随机数 |
dpois(x,lambda) | 输出某个值的概率 |
ppois(x,lambda) | 输出(-00,x)的左尾面积(即累积概率) |
qpois(p,lambda) | 给定左尾面积,输出对应z分数 |
5、指数分布
R函数 | 意义 |
rexp(n) | 生成n个随机数 |
dexp(x) | 输出某个值的概率 |
pexp(x) | 输出(-00,x)的左尾面积(即累积概率) |
qexp§ | 给定左尾面积,输出对应z分数 |
6、其他分布
- t分布:是类似正态分布的一种对称分布,通常要比正态分布平坦和分散。随着自由度的增大,分布也逐渐趋于正态分布
- χ²分布:n个独立标准正态随机变量平方和的分布。通常为不对称右偏分布,但随着自由度的增大逐渐趋于对称。
- F分布:两个卡方分布的比。
R函数 | 意义 |
r/d/p/q-t(t,df) | t分布 |
r/d/p/q-chisq(x,df) | χ²分布 |
r/d/p/q-f(f,df1,df2) | F分布 |
4.3 样本统计量的概率分布
4.3.1 统计量及其分布
1、总体参数:对总体特征的某个概括性度量。
总体参数 | 表示 |
总体均值 | μ |
总体方差 | σ² |
总体比例 | π |
2、样本统计量:对样本特征的某个概括性度量,是样本的函数。样本统计量是随机变量,随机变量就要服从一定的分布(抽样分布),统计量的取值因样本的不同而变化。
样本统计量 | 表示 |
样本均值 | ̅x |
样本方差 | s² |
样本比例 | p |
3、抽样分布:样本统计量的概率分布。
4.3.2 样本均值的分布
1、定理
- 样本均值的均值=总体均值
- 样本均值的方差=总体方差/n
- 正态总体,样本均值分布也呈正态分布
- 非正态总体,大样本,样本均值分布也接近正态分布
2、中心极限定理:从均值为 μ,方差为σ²的总体中抽取样本量为n的所有随机样本,当n充分大时,样本均值近似服从期望为 μ,方差为σ²/n的正态分布。
4.3.3 样本方差的分布
- 正态总体的简单,方差比值(n−1)s²/σ²服从自由度为(n−1)的χ²分布。
- 随着样本的增大,逐渐趋于对称。
4.3.4 样本比例的分布
- 样本比例的均值=π
- 样本比例的方差=π(1-π)/n
- 大样本,样本比例分布近似正态分布。样本量越大,样本比例趋于正态分布,且分布越来越集中。
4.3.5 统计量的标准误
1、标准误:统计量的抽样分布的标准差。
- 样本均值标准误
- 样本方差标准误
- 样本比例标准误
2、作用:衡量统计量的离散程度,测度了用样本统计量估计总体参数的精确程度。
- 标准误越小,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大。
3、估计标准误:当计算标准误时涉及的总体参数未知时,用样本统计量代替计算标准误。以样本均值为例:当总体标准差未知时,可用样本标准差代替计算。