在学习统计学贾书的过程,在第6—14章节出有许多需要理解与记忆的公式和概念,在此通过博客的形式做一次梳理,主要内容为统计学中抽样分布、假设检验、参数估计、分类数据分析、方差分析、一元二元线性分析、时间序列分析、指数的理论知识,不足之处望多多指正。
分类数据与统计量
- 什么是分类数据?
(1)分类变量的结果表现为类别
例如:性别 (男, 女)
(2)各类别用符号或数字代码来测度
使用分类或顺序尺度
你吸烟吗?
1.是;2.否
你赞成还是反对这一改革方案?
1.赞成;2.反对
(3)对分类数据的描述和分析通常使用列联表
(4)可使用检验 - 检验统计量计算公式(自由度为分类变量R-1)
(其中f0为观察频数,fe为观察频数)
拟合优度检验
- 作用:判断期望频数与观察频数是否有显著差异。
- 案例:1912年4月15日,豪华巨轮泰坦尼克号与冰山相撞沉没。当时船上共有共2208人,其中男性1738人,女性470人。海难发生后,幸存者为718人,其中男性374人,女性344人,以的显著性水平检验存活状况与性别是否有关。
解要回答观察频数与期望频数是否一致,检验如下假设:
H0:观察频数与期望频数一致
H1:观察频数与期望频数不一致
自由度df=2-1=1,经查分布表, (0.1)(1)=2.706,故拒绝H0,说明存活状况与性别显著相关
列联分析:独立性检验
- 列联表的概念与性质:
由两个以上的变量交叉分类的频数分布表;
行变量的类别用 r 表示, ri 表示第 i 个类别;
列变量的类别用 c 表示, cj 表示第 j 个类别;
每种组合的观察频数用 fij 表示;
表中列出了行变量和列变量的所有可能的组合,所以称为列联表;
一个 r 行 c 列的列联表称为 r *c 列联表 - 相关系数计算公式
二维情况下简化公式:
- C列联相关系数计算公式:
- V相关系数计算公式
- 三个系数间的关系
(1)相同点:取值0-1之间,取0说明两变量间独立,取1时说明两变量完全相关。
(2)不同行和列的列联表计算的列联系数不便于比较
(3)当列联表中有一维为2,min[(r-1),(c-1)]=1,此时V=