学习之前,需强调:概率是已知模型和参数,推数据;而统计是已知数据,推模型和参数。

第十二集:样本与总体
  首先,为何需要样本呢?因为人类并不能总是获取总体数据,例如:人类的身高数据,全世界每秒都有人出生和死去,要获取总体数据是不现实的,故需要样本。样本就是从总体中抽取的一部分数据,人类希望用样本来估计总体,这样做可以节省人力物力而且可行,对么?其次,在统计学中,样本的均值通常用,总体的均值用。均值,中位数,众数是用来衡量数据集中趋势。

第十三集:总体方差
  总体方差是用来描述总体数据离散程度的统计工具。即数据偏离总体中间水平的程度,用符号来表示,请注意这是总体方差。下面会讲述样本方差。

第十四集:样本方差
  总体方差是用来描述样本数据离散程度的统计工具。即数据偏离样本中间水平的程度,用符号来表示,具体计算如图1,需注意均值为样本均值。图1算样本方差存在一个问题:就是样本集的选择问题,由于事前不知道样本的分布,选择样本集求均值时,容易出现偏差,如紫色的点,选取前四个会让样本均值偏大,从而导致样本方差低于总体方差。为避免这种情况,提供无偏估计,我们定义无偏样本方差。如图2所示。

第十五集:标准差
  标准差就是方差开平方,用表示。意义与方差一样,优点是直观。注意总体方差与样本方差的区别和联系。

第十六集:诸方差公式
  为了更快的计算方差,给出方差化简后的公式。黄线圈住的。

第十七集:随机变量介绍
  随机变量与普通变量不同,因为随机变量通常是一个函数,用于量化随机过程。通常用大写字母X,Y,Z等表示,而传统变量通常用小写字母x,y,z表示。随机变量有两类:离散型和连续型。例如:明天是否下雨,用随机变量X来表示,它只有0,1两种值即取值有限且不连续,X是离散型随机变量;而对于明天下雨量,用Y表示,它可以取连续值0.1,0.2,0.5,0.511等,可以是无穷的数据,Y是连续型随机变量。

第十八集:概率密度函数
建议看这篇博客:https://www.jianshu.com/p/b570b1ba92bb。需要指出的是概率密度函数是针对连续性随机变量而言的。

第十八集-----二十二集 二项分布   这几节主要讲了二项分布的例子,便于理解。。需注意的是二项分布针对的是离散型随机变量。

第二十三集:期望
  随机变量的期望值其实是总体的均值,但有时由于总体样本无限多,用均值计算方法很难计算,故提出期望计算均值的方法.其思想是用频率作为权重计算出所有结果的加权平均值。

第二十四集:二项分布的期望值
  对于二项分布的期望计算如图所示,本课有详细推导,感兴趣可以跟着推导一遍。

第二十五、六集:泊松过程   泊松分布是来自于二项分布。在使用泊松分布前,我们应该知道它是用来求取某个时间段内发生事情x的概率有多大且其是离散分布。具体推导可以学习这章内容。

第二十七集 大数定律   大数定律描述了随机现象最根本的一个性质:平均结果的稳定性。大数定律告诉我们:对于独立同分布的随机序列,只要总体均值(随机变量期望)存在,则随着样本数的增加,样本均值会收敛到总体均值。注意样本数的足够性,概率是频率的一个极限值,这样可以避免赌徒谬误。

第二十八–三十四集 正态分布
  二项分布,泊松分布都是离散分布,而正态分布是连续分布。二项分布和泊松分布都可以转化为正态分布。泊松分布是,而正太分布是为无穷大。图1是正态分布的概率密度函数图和表达式,图二是计算时使用的一些经验法则,具体说:与均值相差一个标准差概率是68%, 两个标准差概率是95%,三个标准差概率是99.7%。当然具体计算也可以查阅正态分布表。