随机抽样

#等可能不放回的随机抽样:
#sample(x,n),x要抽取的向量,n为样本容量。
sample(1:52,4)

#等可能有放回随机抽样:
#sample(x,n,replace=TRUE),replace=TRUE表示有放回,=FALSE表示不放回
#例如抛一枚均匀的硬币10次:
sample(c("H","T"),10,replace = T)

#掷骰子10次:
sample(1:6,10,replace = T)

#不等可能的随机抽样
#sample(x,n,reaplce=TRUE,prob=y),prob用于指定x中元素出现的概率
#例如一名外科医生做手术成功的概率为0.90,那么10次手术表示为:
sample(c("S","F"),10,replace = T,prob = c(0.9,0.1))

排列组合与概率的计算

  • 从一幅完全打乱的52张扑克中取4张,求以下事件的概率:
    1) 4张依次为红心A,方块A,黑桃A和梅花A的概率;
    2)抽取的4张为红心A,方块A,黑桃A和梅花A的概率;

    1)抽取的4张是有次序的,因此使用排列来求解。所求的事件(记为A)概率为
    r语言重复数据 r语言统计重复次数_概率分布
    2)抽取的4张是没有次序的,因此使用组合数来求解。所有的事件(记为B)概率为
    r语言重复数据 r语言统计重复次数_r语言重复数据_02, 其中r语言重复数据 r语言统计重复次数_多项式_03
#1)
1/prod(52:49)
#2)
1/choose(52,4)

概率分布

离散分布的分布律

  • 贝努里分布:binom(1,p)意义:一试验中有二个事件:成功(1)与失败(0),出现的概率是分别为p和1-p,则一次试验成功的次数服从一个参数为p的贝努里分布。
    分布律
    r语言重复数据 r语言统计重复次数_二项分布_04
    数字特征
    r语言重复数据 r语言统计重复次数_多项式_05
  • 二项分布:binom(n,p)意义:贝努里试验独立重复n次,则试验成功的次数服从一个参数为(n,p)的二项分布。
    分布律
    r语言重复数据 r语言统计重复次数_概率分布_06
    数字特征
    r语言重复数据 r语言统计重复次数_多项式_07
    特例:n=1时分布为贝努里分布。
  • 多项式分布:multinom(n,p1,...,pk)意义:一试验中有r语言重复数据 r语言统计重复次数_概率分布_08个事件r语言重复数据 r语言统计重复次数_多项式_09, 且r语言重复数据 r语言统计重复次数_二项分布_10。将此试验独立地重复r语言重复数据 r语言统计重复次数_多项式_11次,则事件r语言重复数据 r语言统计重复次数_二项分布_12出现的次数服从一个参数为r语言重复数据 r语言统计重复次数_二项分布_13的多项分布,其中p=r语言重复数据 r语言统计重复次数_二项分布_14
    分布律
    r语言重复数据 r语言统计重复次数_r语言重复数据_15

  • 负二项分布:nbinom(k,p)
  • 几何分布:geom(p)
  • 超几何分布:hyper(N,M,n) 从装有N个白球和M个黑球的罐子中不放回地取出r语言重复数据 r语言统计重复次数_概率分布_16个球,则其中的白球数据服从超几何分布。
  • 泊松分布:pois(r语言重复数据 r语言统计重复次数_多项式_17) 单位时间,单位长度,单位面积,单位体积中发生某一件事的次数常可以用泊松(Poisson)分布来刻划,例如某段高速公路上一年内的交通事故数和某办公室一天中收到的电话数可以认为近似服从泊松分布。

连续分布的密度函数

  • 贝塔分布:Beta(a,b) 在贝叶斯分析中,贝塔分布常作为二项分布参数的共轭先验分布。
  • 均匀分布:unif(a,b) 区间|a,b|上随机投点对应的坐标服从[a,b]上的均匀分布。
  • 柯西分布:cauchy(a,b) 柯西分布(又称为Lorentz分布)用于描述共振行为。以一随机的角度投向X轴的水平距离服从柯西分布。
  • 威布尔分布:weibull(a,b) 最为常用的寿命分布,用来刻划滚珠轴承、电子元器件等产品的寿命。
  • 指数分布:exp(r语言重复数据 r语言统计重复次数_多项式_17) 泊松过程的等待时间服从指数分布。形状参数b=1的Weibull分布为指数分布。
  • 瑞利(Rayleigh)分布:rayl(b) 瑞利分布为Weibull分布的又一个特例:它是参数为r语言重复数据 r语言统计重复次数_r语言重复数据_19的Weibull分布。
  • 正态分布/高斯分布:r语言重复数据 r语言统计重复次数_r语言重复数据_20
    高斯分布是概率论与数理统计中最重要的一个分布。中心极限定理表明,一个变量如果是由大量微小的、独立的随机因素的叠加结果,那么这个变量一定是正态变量。因此许多随机变量可以用高斯分布表述或近似描述
    密度函数:
    r语言重复数据 r语言统计重复次数_二项分布_21
    数字特征:
    r语言重复数据 r语言统计重复次数_多项式_22
  • 对数正态分布:r语言重复数据 r语言统计重复次数_概率分布_23
    r语言重复数据 r语言统计重复次数_多项式_24服从参数为r语言重复数据 r语言统计重复次数_二项分布_25的正态分布,则X服从参数为r语言重复数据 r语言统计重复次数_二项分布_25的对数正态分布。
  • 逆正态分布:r语言重复数据 r语言统计重复次数_多项式_27
    正态随机变量的倒数服从的分布。
  • 伽马分布:gamma(a,b)
  • 逆伽马分布:igmma(a,b)
  • 卡方r语言重复数据 r语言统计重复次数_二项分布_28分布:chisq(n)
    n个独立正态随机变量的平方和服从自由度为n的卡方分布。
  • 逆卡方分布:ichisq(n)
  • t分布:t(n)
    随机变量x和y独立,x服从标准正态分布,y服从自由度为n的卡方分布,则r语言重复数据 r语言统计重复次数_多项式_29服从自由度为n的t分布。
  • F分布:f(n,m)
    随机变量x和y独立,x服从自由度为n的卡方分布,y服从自由度为m的卡方分布,则r语言重复数据 r语言统计重复次数_二项分布_30服从自由度为(n,m)的F分布。
  • logistic分布:logis(a,b)
    生态学中的增长模型常用logistic分布来刻划,它也常用于logistic回归中。
  • Dirichlet分布:r语言重复数据 r语言统计重复次数_概率分布_31
    在贝叶斯分析中可作为多项分布参数的共轭分布。
  • Pareto分布:pd(a,b)
    财富的分配规则是大部分的财富(80%)被少数(20%)的人拥有,这可以较好地用Pareto分布来刻画。
  • 非中心分布
  • 非中心卡方分布r语言重复数据 r语言统计重复次数_多项式_32
  • 非中心的t分布r语言重复数据 r语言统计重复次数_二项分布_33
  • 非中心的F分布r语言重复数据 r语言统计重复次数_多项式_34

R中内嵌的分布

分布名称

R名称

选项

beta

beta

shape1,shape2

binomial

binom

size,prob

Cauchy

cauchy

location=0,scale=1

chi-sqauredr语言重复数据 r语言统计重复次数_多项式_34

chisq

df,ncp

exponential

exp

rate

Fisher-Snedecor(F)

f

df1,df2,ncp

gamma

gamma

shape,scale=1

geometric

geom

prob

hypergeometric

hyper

m,n,k

logistic

logis

location=0,scale=1

mutinomial

multinom

size,prob

normal

norm

mean=0,sd=1

negative binomial

nbinom

size,prob

Poisson

pois

lambda

Student’s(t)

t

df

uniform

unif

min=0,max=1

Weibull

weibull

shape,scale=1

Wilcoxon’s statistics

wilcox

signrank

m,n

n

对于所给的分布名称,
加前缀“d”(代表密度函数, density)就得到R的密度函数(对于离散分布, 指分布律);
加前缀“p”(代表分布函数或概率, CDF)就得到R的分布函数;
加前缀“q”(代表分位函数, quantile)就得到R的分位数函数;
加前缀“r”(代表随机模拟, random)就得到R的随机数发生函数.

查找分布的分位数,用于计算假设检验中分布的临界值或置信区间的置信限。例如,显著性水平为5%的正态分布的双侧临界值是:

> qnorm(0.025)
[1] -1.959964
> qnorm(0.975)
[1] 1.959964

计算假设检验的p值。比如自由度df=1的r语言重复数据 r语言统计重复次数_r语言重复数据_36时的r语言重复数据 r语言统计重复次数_概率分布_37检验的p值为

> 1-pchisq(3.84,1)
[1] 0.05004352

容量为14的双边t检验的p值为

> 2*pt(-2.43,df=13)
[1] 0.0303309

应用:中心极限定理

中心极限定理

当独立观察的样本容量n足够大是,所观察的随机变量的和近似服从正态分布。

# runif:分布为[0,1]的均匀分布
# distpar:随机函数的参数,比如对二项分布,[1]为试验次数,[2]为每次试验的概率
# m:分布的均值
# s:分布的标准差
# n:样本容量有4个:1,3,10,30
# 重复次数为1000
limite.central <- function (r=runif, distpar=c(0,1), m=.5,
                            s=1/sqrt(12),
                            n=c(1,3,10,30), N=1000) {
   #依次调用n内的数值
  for (i in n) {
    if (length(distpar)==2){
    #将每组概率事件并入一列
      x <- matrix(r(i*N, distpar[1],distpar[2]),nc=i)
    }
    else {
      x <- matrix(r(i*N, distpar), nc=i)
    }
    #计算随机变量的和的分布
    x <- (apply(x, 1, sum) - i*m )/(sqrt(i)*s)
    hist(x,col='light blue',probability=T,main=paste("n=",i),
         ylim=c(0,max(.4, density(x)$y)))
    lines(density(x), col='red', lwd=3)
    curve(dnorm(x), col='blue', lwd=3, lty=3, add=T)
    if( N>100 ) {
      rug(sample(x,100))
    }
    else {
      rug(x)
    }
  }
}

举例

二项分布:b(10,0.1)

op <- par(mfrow=c(2,2))
limite.central(rbinom,distpar = c(10,0.1),m=1,s=0.9)

r语言重复数据 r语言统计重复次数_多项式_38


泊松分布:pois(1)

limite.central(rpois,distpar = 1,m=1,s=1,n=c(3,10,30,50))

r语言重复数据 r语言统计重复次数_多项式_39