r语言重复数据 r语言统计重复次数

转载

mob6454cc673226 2023-09-14 14:21:03

文章标签 r语言重复数据二项分布概率分布多项式 文章分类 R语言后端开发

随机抽样

#等可能不放回的随机抽样：
#sample(x,n),x要抽取的向量，n为样本容量。
sample(1:52,4)

#等可能有放回随机抽样：
#sample(x,n,replace=TRUE),replace=TRUE表示有放回，=FALSE表示不放回
#例如抛一枚均匀的硬币10次：
sample(c("H","T"),10,replace = T)

#掷骰子10次：
sample(1:6,10,replace = T)

#不等可能的随机抽样
#sample(x,n,reaplce=TRUE,prob=y),prob用于指定x中元素出现的概率
#例如一名外科医生做手术成功的概率为0.90，那么10次手术表示为：
sample(c("S","F"),10,replace = T,prob = c(0.9,0.1))

排列组合与概率的计算

从一幅完全打乱的52张扑克中取4张，求以下事件的概率：
1） 4张依次为红心A，方块A，黑桃A和梅花A的概率；
2）抽取的4张为红心A，方块A，黑桃A和梅花A的概率；
解
1）抽取的4张是有次序的，因此使用排列来求解。所求的事件（记为A）概率为
$r语言重复数据 r语言统计重复次数_概率分布$
2）抽取的4张是没有次序的，因此使用组合数来求解。所有的事件(记为B)概率为
$r语言重复数据 r语言统计重复次数_r语言重复数据_02$ , 其中 $r语言重复数据 r语言统计重复次数_多项式_03$

#1）
1/prod(52:49)
#2）
1/choose(52,4)

概率分布

离散分布的分布律

贝努里分布：binom(1,p)意义：一试验中有二个事件：成功(1)与失败(0)，出现的概率是分别为p和1-p，则一次试验成功的次数服从一个参数为p的贝努里分布。
分布律：
$r语言重复数据 r语言统计重复次数_二项分布_04$
数字特征：
$r语言重复数据 r语言统计重复次数_多项式_05$
二项分布：binom(n,p)意义：贝努里试验独立重复n次，则试验成功的次数服从一个参数为(n,p)的二项分布。
分布律：
$r语言重复数据 r语言统计重复次数_概率分布_06$
数字特征：
$r语言重复数据 r语言统计重复次数_多项式_07$
特例：n=1时分布为贝努里分布。
多项式分布：multinom(n,p1,...,pk)意义：一试验中有 $r语言重复数据 r语言统计重复次数_概率分布_08$ 个事件 $r语言重复数据 r语言统计重复次数_多项式_09$ , 且 $r语言重复数据 r语言统计重复次数_二项分布_10$ 。将此试验独立地重复 $r语言重复数据 r语言统计重复次数_多项式_11$ 次，则事件 $r语言重复数据 r语言统计重复次数_二项分布_12$ 出现的次数服从一个参数为 $r语言重复数据 r语言统计重复次数_二项分布_13$ 的多项分布，其中p= $r语言重复数据 r语言统计重复次数_二项分布_14$
分布律：
$r语言重复数据 r语言统计重复次数_r语言重复数据_15$
…
…
负二项分布：nbinom(k,p)
几何分布：geom(p)
超几何分布：hyper(N,M,n) 从装有N个白球和M个黑球的罐子中不放回地取出 $r语言重复数据 r语言统计重复次数_概率分布_16$ 个球，则其中的白球数据服从超几何分布。
泊松分布：pois( $r语言重复数据 r语言统计重复次数_多项式_17$ ) 单位时间，单位长度，单位面积，单位体积中发生某一件事的次数常可以用泊松（Poisson）分布来刻划，例如某段高速公路上一年内的交通事故数和某办公室一天中收到的电话数可以认为近似服从泊松分布。

连续分布的密度函数

贝塔分布：Beta(a,b) 在贝叶斯分析中，贝塔分布常作为二项分布参数的共轭先验分布。
均匀分布：unif(a,b) 区间|a,b|上随机投点对应的坐标服从[a,b]上的均匀分布。
柯西分布：cauchy(a,b) 柯西分布（又称为Lorentz分布）用于描述共振行为。以一随机的角度投向X轴的水平距离服从柯西分布。
威布尔分布：weibull(a,b) 最为常用的寿命分布，用来刻划滚珠轴承、电子元器件等产品的寿命。
指数分布：exp( $r语言重复数据 r语言统计重复次数_多项式_17$ ) 泊松过程的等待时间服从指数分布。形状参数b=1的Weibull分布为指数分布。
瑞利(Rayleigh)分布：rayl(b) 瑞利分布为Weibull分布的又一个特例：它是参数为 $r语言重复数据 r语言统计重复次数_r语言重复数据_19$ 的Weibull分布。
正态分布/高斯分布： $r语言重复数据 r语言统计重复次数_r语言重复数据_20$
高斯分布是概率论与数理统计中最重要的一个分布。中心极限定理表明，一个变量如果是由大量微小的、独立的随机因素的叠加结果，那么这个变量一定是正态变量。因此许多随机变量可以用高斯分布表述或近似描述
密度函数：
$r语言重复数据 r语言统计重复次数_二项分布_21$
数字特征：
$r语言重复数据 r语言统计重复次数_多项式_22$
对数正态分布： $r语言重复数据 r语言统计重复次数_概率分布_23$
$r语言重复数据 r语言统计重复次数_多项式_24$ 服从参数为 $r语言重复数据 r语言统计重复次数_二项分布_25$ 的正态分布，则X服从参数为 $r语言重复数据 r语言统计重复次数_二项分布_25$ 的对数正态分布。
逆正态分布： $r语言重复数据 r语言统计重复次数_多项式_27$
正态随机变量的倒数服从的分布。
伽马分布：gamma(a,b)
逆伽马分布：igmma(a,b)
卡方 $r语言重复数据 r语言统计重复次数_二项分布_28$ 分布：chisq(n)
n个独立正态随机变量的平方和服从自由度为n的卡方分布。
逆卡方分布：ichisq(n)
t分布：t(n)
随机变量x和y独立，x服从标准正态分布，y服从自由度为n的卡方分布，则 $r语言重复数据 r语言统计重复次数_多项式_29$ 服从自由度为n的t分布。
F分布：f(n,m)
随机变量x和y独立，x服从自由度为n的卡方分布，y服从自由度为m的卡方分布，则 $r语言重复数据 r语言统计重复次数_二项分布_30$ 服从自由度为(n,m)的F分布。
logistic分布：logis(a,b)
生态学中的增长模型常用logistic分布来刻划，它也常用于logistic回归中。
Dirichlet分布： $r语言重复数据 r语言统计重复次数_概率分布_31$
在贝叶斯分析中可作为多项分布参数的共轭分布。
Pareto分布：pd(a,b)
财富的分配规则是大部分的财富（80%）被少数（20%）的人拥有，这可以较好地用Pareto分布来刻画。
非中心分布

非中心卡方分布 $r语言重复数据 r语言统计重复次数_多项式_32$
非中心的t分布 $r语言重复数据 r语言统计重复次数_二项分布_33$
非中心的F分布 $r语言重复数据 r语言统计重复次数_多项式_34$

R中内嵌的分布

分布名称	R名称	选项
beta	beta	shape1,shape2
binomial	binom	size,prob
Cauchy	cauchy	location=0,scale=1
chi-sqaured $r语言重复数据 r语言统计重复次数_多项式_34$	chisq	df,ncp
exponential	exp	rate
Fisher-Snedecor(F)	f	df1,df2,ncp
gamma	gamma	shape,scale=1
geometric	geom	prob
hypergeometric	hyper	m,n,k
logistic	logis	location=0,scale=1
mutinomial	multinom	size,prob
normal	norm	mean=0,sd=1
negative binomial	nbinom	size,prob
Poisson	pois	lambda
Student’s(t)	t	df
uniform	unif	min=0,max=1
Weibull	weibull	shape,scale=1
Wilcoxon’s statistics	wilcox signrank	m,n n

对于所给的分布名称，
加前缀“d”(代表密度函数, density)就得到R的密度函数(对于离散分布, 指分布律);
加前缀“p”(代表分布函数或概率, CDF)就得到R的分布函数;
加前缀“q”(代表分位函数, quantile)就得到R的分位数函数;
加前缀“r”(代表随机模拟, random)就得到R的随机数发生函数.

查找分布的分位数，用于计算假设检验中分布的临界值或置信区间的置信限。例如，显著性水平为5%的正态分布的双侧临界值是：

> qnorm(0.025)
[1] -1.959964
> qnorm(0.975)
[1] 1.959964

计算假设检验的p值。比如自由度df=1的 $r语言重复数据 r语言统计重复次数_r语言重复数据_36$ 时的 $r语言重复数据 r语言统计重复次数_概率分布_37$ 检验的p值为

> 1-pchisq(3.84,1)
[1] 0.05004352

容量为14的双边t检验的p值为

> 2*pt(-2.43,df=13)
[1] 0.0303309

应用：中心极限定理

中心极限定理

当独立观察的样本容量n足够大是，所观察的随机变量的和近似服从正态分布。

# runif:分布为[0,1]的均匀分布
# distpar:随机函数的参数，比如对二项分布，[1]为试验次数，[2]为每次试验的概率
# m:分布的均值
# s:分布的标准差
# n:样本容量有4个：1，3，10，30
# 重复次数为1000
limite.central <- function (r=runif, distpar=c(0,1), m=.5,
                            s=1/sqrt(12),
                            n=c(1,3,10,30), N=1000) {
   #依次调用n内的数值
  for (i in n) {
    if (length(distpar)==2){
    #将每组概率事件并入一列
      x <- matrix(r(i*N, distpar[1],distpar[2]),nc=i)
    }
    else {
      x <- matrix(r(i*N, distpar), nc=i)
    }
    #计算随机变量的和的分布
    x <- (apply(x, 1, sum) - i*m )/(sqrt(i)*s)
    hist(x,col='light blue',probability=T,main=paste("n=",i),
         ylim=c(0,max(.4, density(x)$y)))
    lines(density(x), col='red', lwd=3)
    curve(dnorm(x), col='blue', lwd=3, lty=3, add=T)
    if( N>100 ) {
      rug(sample(x,100))
    }
    else {
      rug(x)
    }
  }
}

举例

二项分布：b(10,0.1)

op <- par(mfrow=c(2,2))
limite.central(rbinom,distpar = c(10,0.1),m=1,s=0.9)

r语言重复数据 r语言统计重复次数_多项式_38

泊松分布：pois(1)

limite.central(rpois,distpar = 1,m=1,s=1,n=c(3,10,30,50))

r语言重复数据 r语言统计重复次数_多项式_39

…

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：mysql5.5安装教程详解 mysql5.5安装教程图解

下一篇：hadoop平台搭建和操作 hadoop平台搭建教程

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

r语言重复数据 r语言统计重复次数

r语言重复数据 r语言统计重复次数

随机抽样

排列组合与概率的计算

概率分布

离散分布的分布律

连续分布的密度函数

R中内嵌的分布

应用：中心极限定理

中心极限定理

举例

51CTO博客