统计学知识

原创

维格堂406小队 2022-08-04 17:31:36 博主文章分类：★★★统计学 ©著作权

©著作权归作者所有：来自51CTO博客作者维格堂406小队的原创作品，请联系作者获取转载授权，否则将追究法律责任

title: “统计学知识”
author: “”
date: “2018年2月27日”
output: word_document

knitr::opts_chunk$set(echo = TRUE)

总结统计学中基础知识，以原理叙述为主。

数据度量

集中趋势的度量

分类数据—众数(mode)：一组数据中出现次数最多的变量值。
顺序数据—中位数：一组数据排序后处于中间位置上的变量值。
顺序数据—四分位数：一组数据排序后处于25%和75%位置上的值。
数值数据—平均数：分为简单平均数、加权平均数等，不赘~
众数、中位数和平均数的关系

统计学知识_数据

离散程度的度量

分类数据—异众比率：非众数组的频数占总频数的比例
顺序数据—四分位差：上下四分位数的差。
数值型数据—极差、方差、标准差：不赘。

偏态和峰态的度量

偏态(skewness)：是对数据分布对称性的测度，对称分布则偏态系数等于0，明显不等于0表名非对称的。大于0表示右偏（定义存在歧义，上图中的右偏，有的地方称之为左偏）。
峰态(kurtosis)：是对数据分布平峰或者尖峰程度的测度，标准正态分布峰态系数为0，大于0为尖峰分布，数据分布更集中，反之扁平分布。

##　概率论

条件概率

$统计学知识_数据_02$

全概率公式

$统计学知识_正态分布_03$

贝叶斯公式

$统计学知识_方差_04$

三大分布

正态分布

$统计学知识_方差_05$ ：随机变量 $统计学知识_数据_06$ 服从均值为 $统计学知识_数据_07$ 、方差为 $统计学知识_正态分布_08$ 的正态分布。其中 $统计学知识_数据_07$ 决定图形的中心位置， $统计学知识_方差_10$ 决定图形中峰的陡峭程度。 $统计学知识_方差_10$ 越大图形越平缓，反之陡峭(陡峭意为分布集中，所以方差小)。密度函数如下：
$统计学知识_数据_12$

卡方分布

设随机变量 $统计学知识_方差_13$ 相互独立，且 $统计学知识_正态分布_14$ 服从标准正态分布 $统计学知识_正态分布_15$ ，则随机变量的平方和$\sum\limits_{i = 1}^n {X_i^2} $统计学知识_数据_16$ n $统计学知识_数据_17$ {\chi ^2} $统计学知识_方差_18$ n $统计学知识_数据_17$ {\chi ^2} $统计学知识_数据_20$ n$，方差为 $统计学知识_正态分布_21$

t分布

t分布也称为学生氏分布。设随机变量 $统计学知识_方差_22$ ，且 $统计学知识_数据_06$ 与 $统计学知识_方差_24$ 独立，则
$统计学知识_数据_25$
该分布为 $统计学知识_正态分布_26$ 分布。

F分布

设随机变量 $统计学知识_方差_24$ 与 $统计学知识_数据_28$ 相互独立，且 $统计学知识_方差_24$ 和 $统计学知识_数据_28$ 分别服从自由度为 $统计学知识_方差_31$ 和 $统计学知识_正态分布_32$ 的 $统计学知识_正态分布_33$ 分布，随机变量 $统计学知识_数据_06$ 有如下表达式;
$统计学知识_数据_35$
则称 $统计学知识_数据_06$ 服从第一自由度为 $统计学知识_方差_31$ ，第二自由度为 $统计学知识_正态分布_32$ 的 $统计学知识_正态分布_39$ 分布，即为 $统计学知识_方差_40$ ，简记为 $统计学知识_正态分布_41$

大数定律和中心极限定理

大数定律

讨论的是在什么条件下，随机变量序列的算术平均值依概率收敛到其均值(期望)的算数平均。
即随机变量 $统计学知识_方差_42$ 满足：
$统计学知识_正态分布_43$

中心极限定理

研究随机变量和的极限分布在什么条件下为正态分布。如林德伯格-莱维中心极限定理：
设 $统计学知识_方差_44$ 是独立同分布的随机变量序列，且 $统计学知识_方差_45$ , $统计学知识_正态分布_46$ 存在，则当 $统计学知识_正态分布_32$ 足够大时， $统计学知识_正态分布_48$ 近似服从 $统计学知识_正态分布_49$ 。

简单的统计推断

P值

当原假设为真时所得到的样本观察结果或者更极端结果出现的概率。

假设检验

基本思想为小概率反证法，流程为：先提出原假设，再用适当的统计方法确定假设成立的可能性大小(P值)，如果可能性小(小于事先设定的显著性水平),则认为原假设不成立，这里只能说明现有数据不能支撑原假设，但是不能说明备注假设成立。

列联表分析

研究两个类别型变量之间是否独立的方法。原假设为两变量独立，通常通过构建列联表进行计算分析。

简单叙述原理：原假设两个类别型变量是独立的，那么可以通过边际概率的乘积，计算独立时各种组合发生的概率，继而求出所谓的期望频数，如果期望频数和实际频数相差很大，则认为独立。贴个书上的例子：

统计学知识_数据_50

统计学知识_正态分布_51

方差分析

方差分析通过检验各总体均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
方差分析的主要思想是误差分解，总误差分解为组内误差和组间误差，直观的想法：如果分类型自变量对数值型因变量没有显著影响，那么组间均方和组内均方误差应该比较接近。
以单因子方差为例，简述相关内容。

方差分析基本假定

每个总体服从正态分布
每个总体的方差必须相同(统计软件会输出方差同质性检验，如果不一致，参看另外一个统计量即可)
观测值是独立的(一般由实验或者抽样满足)
这三个假定成立的前提下，分析自变量对因变量是否有影响形式上转换为检验自变量的各个水平(不同的总体)的均值是否相等。因此原假设为自变量对因变量没有显著影响，即各个总体的均值全部相等。