什么是中心极限定理

中心极限定理Central Limit Theorem:设从均值为μ、方差为σ^2;(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ^2/n的正态分布。

注意:原来的分布不一定要符合正态分布,可以是任何的分布,可以是离散也可以是连续,即无要求。n为sample size,每次取n个样本,每次样本的mean,分别为:

Khan公开课 - 统计学学习笔记:(六)中心极限定理_正态分布

。这些样本均值的分布似正态分布。当n到达一定大时,sample mean的频率分布很好符合normal distribution。

在同样取样次数,例如取10000次样本均值,n越大,skew和kurtosis越接近零,说明n越大,越接近正态分布。这个可以想象,n=1,就如同原来的分布,n→∞时,mean就是μ,无方差的正态分布,直线一条。

正态分布适用于样本均值,不管原来分布是怎样,即sampling distribution of the sample mean当sample size n越大时,越趋向正态分布,且收敛得很快,即n=10的或者更小的时候已经和正态分布非常相似,故用途非常广泛。

Khan公开课 - 统计学学习笔记:(六)中心极限定理_样本均值_02

注意是趋向,例如有些分布式有范围的,而正态分布只有x趋向±∞时,才为0。

中心极限定理的例子

中心极限定理的应用范围很广泛,例如我们知道一个分布(可以是非正态分布)的均值和标准差,例如一个户外饮水的例子,当我们组织一个50人的队伍时,这50人的人均饮水量符合正态分布,带多少水有90%概率能完全满足。这就是推导

Khan公开课 - 统计学学习笔记:(六)中心极限定理_样本均值_03


Khan公开课 - 统计学学习笔记:(六)中心极限定理_样本均值_04

的例子。

在实际的应用情景中,通常采样情况可知,而总本情况不详,需要估计总本情况,如下面置信区间的例子:You sample 36 apples from you farm‘s harvest of over 200,000 apples. The mean weight of the sample is 112 grams (with a 40 gram sample standard deviation). What is the probability that the mean weight of all 200,000 apples is within 100 and 124 grams?

这里给出一个样本集的情况,这36个样本(或者n=36的一次样本集采样中)

Khan公开课 - 统计学学习笔记:(六)中心极限定理_table_05

=112,这36个样本的σ=40。注意这里给出的是一个样本集的情况,不是多个样板集的sampling distribution of the sample mean。从样本的方差,可以估算总本方差。还记得无偏差样本方差吗?是除以n-1,而不是n,无偏差样本方差,可以近似为总本方差σ,进而可得样本均值的方差

Khan公开课 - 统计学学习笔记:(六)中心极限定理_方差_06

这个题目的相当于

Khan公开课 - 统计学学习笔记:(六)中心极限定理_正态分布_07

然后查一下z table就可以了,Z score近似为1.8,查Z table可得此区间的概率为92.8%。