一、p值
P值指的是在一个特定的统计模型H_0下,随机变量的某个统计量T等于数据观测值t或比观测值更为极端的概率。样本数据决定。
准则1:P值可以表达的是数据与原假设的不匹配程度。P值越小越不匹配。
准则2:P值并不能衡量原假设为真的概率。只解释数据与假设之间的关系,不解释假设本身。
准则3:科学结论、商业决策或政策制定不应该仅依赖于P值是否超过一个给定的阈值。这一条给出了对决策制定的建议:成功的决策取决于很多方面,包括实验的设计,测量的质量,外部的信息和证据,假设的合理性等等。仅仅看P值是否小于0.05是非常具有误导性的。
准则4:合理的推断过程需要完整的报告和透明度。在给出统计分析的结果时,不能有选择地给出P值和相关分析。
准则5:P值或统计显著性并不衡量影响的大小或结果的重要性。
准则6:P值就其本身而言,并不是一个非常好的对模型或假设所含证据大小的衡量。
二、显著性水平alpha
显著性水平alpha越大,我们拒绝原假设的概率应该也越大。是控制第一类错误的阀值(容忍度),并以此来确定拒绝域。取值0.05,是因为正态分布中2 sigma 可以涵盖到95.4%
显著性水平实质上是指最大的 能拒绝P值。
三、置信区间
频率学派:真值在或不在某个区间内。构造很多次置信区间,有95%的置信区间包含真值。
贝叶斯学派:某个特定的区间包含真值的概率是多少。
四、大数定律
大数定律讨论在什么情况下,随机变量序列的算术平均 依概率收敛到 其均值(期望)的算术平均。
伯努利大数定律:伯努利试验中,事件发生的频率依概率收敛于其概率。
大数定律结论:
切比雪夫大数定律:{X_i}两两不相关,方差存在且有共同的上界,则服从大数定律。
马尔可夫大数定律:若有
,则服从大数定律。
辛钦大数定律:{X_i}独立同分布,且期望存在,则额服从大数定律。
五、中心极限定理
中心极限定理讨论的是,在什么情况下,独立随机变量和的分布会收敛到正态分布。
林德伯格-莱维中心极限定理:当{X_i}独立同分布,且期望、方差存在时,有: