《统计学基于R》:第四章 随机变量的概率分布


文章目录

  • 《统计学基于R》:第四章 随机变量的概率分布
  • 4.1 什么是概率
  • 4.2 随机变量的概率分布
  • 4.2.1 随机变量及其概括度量
  • 4.2.2 随机变量的概率分布
  • 4.3 样本统计量的概率分布
  • 4.3.1 统计量及其分布
  • 4.3.2 样本均值的分布
  • 4.3.3 样本方差的分布
  • 4.3.4 样本比例的分布
  • 4.3.5 统计量的标准误



r语言画出数据的概率图 r语言概率论_概率论

4.1 什么是概率

1、概率:对事件发生的可能性大小的度量。

2、概率的性质

  • 一个介于0和1之间的一个值
  • 事件A的概率记为P(A) 。在相同条件下,大量重复进行n次试验,事件A发生了m次,则事件A发生的概率为m/n

4.2 随机变量的概率分布

4.2.1 随机变量及其概括度量

1、随机变量:用数值来描述特定实验一切可能出现的结果,有多个取值,但实现不能确定,具有随机性。

  • 离散型随机变量:随机变量 X 取有限个值或所有取值都可以逐个列举出来。以确定的概率取这些不同的值。如:骰子的点数
  • 连续型随机变量:可以取一个或多个区间中任何值 。所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任意点。如:灯泡的寿命

(性质见概率论与数理统计)

2、随机变量的概括性度量

  • 期望值——随机变量X所有可能取值与其取相对应的概率乘积之和,记为μ或E(X)
  • 方差——随机变量X的每一个取值与期望值的离差平方和的数学期望,记为σ²或D(X)

概括性度量值

意义

期望值

描述随机变量水平的统计量

方差

描述随机变量离散程度的统计量

(计算方法见概率论与数理统计)

4.2.2 随机变量的概率分布

概率分布类型

概率分布

离散型概率分布

二项分布、泊松分布、超几何分布

连续型概率分布

正态分布、均匀分布、指数分布

1、正态分布

R函数

意义

rnorm(n,mean,sd)

生成n个随机数

dnorm(x,mean,sd)

输出某个值的概率

pnorm(x,mean,sd)

输出(-00,x)的左尾面积(即累积概率)

qnorm(p,mean,sd)

给定左尾面积,输出对应z分数

2、均匀分布

R函数

意义

runif(n,min,max)

生成n个随机数

dunif(x,min,max)

输出某个值的概率

punif(x,min,max)

输出(-00,x)的左尾面积(即累积概率)

qunif(p,min,max)

给定左尾面积,输出对应z分数

3、二项分布

R函数

意义

rbinom(n,size,prob)

生成n个随机数

dbinom(x,size,prob)

输出某个值的概率

pbinom(x,size,prob)

输出(-00,x)的左尾面积(即累积概率)

qbinom(p,size,prob)

给定左尾面积,输出对应z分数

4、泊松分布

R函数

意义

rpois(n,lambda)

生成n个随机数

dpois(x,lambda)

输出某个值的概率

ppois(x,lambda)

输出(-00,x)的左尾面积(即累积概率)

qpois(p,lambda)

给定左尾面积,输出对应z分数

5、指数分布

R函数

意义

rexp(n)

生成n个随机数

dexp(x)

输出某个值的概率

pexp(x)

输出(-00,x)的左尾面积(即累积概率)

qexp§

给定左尾面积,输出对应z分数

6、其他分布

  • t分布:是类似正态分布的一种对称分布,通常要比正态分布平坦和分散。随着自由度的增大,分布也逐渐趋于正态分布
  • χ²分布:n个独立标准正态随机变量平方和的分布。通常为不对称右偏分布,但随着自由度的增大逐渐趋于对称。
  • F分布:两个卡方分布的比。

R函数

意义

r/d/p/q-t(t,df)

t分布

r/d/p/q-chisq(x,df)

χ²分布

r/d/p/q-f(f,df1,df2)

F分布

4.3 样本统计量的概率分布

4.3.1 统计量及其分布

1、总体参数:对总体特征的某个概括性度量。

总体参数

表示

总体均值

μ

总体方差

σ²

总体比例

π

2、样本统计量:对样本特征的某个概括性度量,是样本的函数。样本统计量是随机变量,随机变量就要服从一定的分布(抽样分布),统计量的取值因样本的不同而变化。

样本统计量

表示

样本均值

̅x

样本方差


样本比例

p

3、抽样分布:样本统计量的概率分布。

4.3.2 样本均值的分布

1、定理

  • 样本均值的均值=总体均值
  • 样本均值的方差=总体方差/n
  • 正态总体,样本均值分布也呈正态分布
  • 非正态总体,大样本,样本均值分布也接近正态分布

r语言画出数据的概率图 r语言概率论_概率论_02

2、中心极限定理:从均值为 μ,方差为σ²的总体中抽取样本量为n的所有随机样本,当n充分大时,样本均值近似服从期望为 μ,方差为σ²/n的正态分布。

4.3.3 样本方差的分布

  • 正态总体的简单,方差比值(n−1)s²/σ²服从自由度为(n−1)的χ²分布。
  • 随着样本的增大,逐渐趋于对称。

4.3.4 样本比例的分布

  • 样本比例的均值=π
  • 样本比例的方差=π(1-π)/n
  • 大样本,样本比例分布近似正态分布。样本量越大,样本比例趋于正态分布,且分布越来越集中。

4.3.5 统计量的标准误

1、标准误:统计量的抽样分布的标准差。

  • 样本均值标准误
  • 样本方差标准误
  • 样本比例标准误

2、作用:衡量统计量的离散程度,测度了用样本统计量估计总体参数的精确程度。

  • 标准误越小,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大。

3、估计标准误:当计算标准误时涉及的总体参数未知时,用样本统计量代替计算标准误。以样本均值为例:当总体标准差未知时,可用样本标准差代替计算。