title: “统计学知识”
author: “”
date: “2018年2月27日”
output: word_document

knitr::opts_chunk$set(echo = TRUE)

总结统计学中基础知识,以原理叙述为主。

数据度量

集中趋势的度量

  1. 分类数据—众数(mode):一组数据中出现次数最多的变量值。
  2. 顺序数据—中位数:一组数据排序后处于中间位置上的变量值。
  3. 顺序数据—四分位数:一组数据排序后处于25%和75%位置上的值。
  4. 数值数据—平均数:分为简单平均数、加权平均数等,不赘~
  5. 众数、中位数和平均数的关系

统计学知识_数据

离散程度的度量

  1. 分类数据—异众比率:非众数组的频数占总频数的比例
  2. 顺序数据—四分位差:上下四分位数的差。
  3. 数值型数据—极差、方差、标准差:不赘。

偏态和峰态的度量

  1. 偏态(skewness):是对数据分布对称性的测度,对称分布则偏态系数等于0,明显不等于0表名非对称的。大于0表示右偏(定义存在歧义,上图中的右偏,有的地方称之为左偏)。
  2. 峰态(kurtosis):是对数据分布平峰或者尖峰程度的测度,标准正态分布峰态系数为0,大于0为尖峰分布,数据分布更集中,反之扁平分布。

## 概率论

条件概率

统计学知识_数据_02

全概率公式

统计学知识_正态分布_03

贝叶斯公式

统计学知识_方差_04

三大分布

正态分布

统计学知识_方差_05:随机变量统计学知识_数据_06服从均值为统计学知识_数据_07、方差为统计学知识_正态分布_08的正态分布。其中统计学知识_数据_07决定图形的中心位置,统计学知识_方差_10决定图形中峰的陡峭程度。统计学知识_方差_10越大图形越平缓,反之陡峭(陡峭意为分布集中,所以方差小)。密度函数如下:
统计学知识_数据_12

卡方分布

设随机变量统计学知识_方差_13相互独立,且统计学知识_正态分布_14服从标准正态分布统计学知识_正态分布_15,则随机变量的平方和$\sum\limits_{i = 1}^n {X_i^2} 统计学知识_数据_16n统计学知识_数据_17{\chi ^2}统计学知识_方差_18n统计学知识_数据_17{\chi ^2}统计学知识_数据_20n$,方差为统计学知识_正态分布_21

t分布

t分布也称为学生氏分布。设随机变量统计学知识_方差_22,且统计学知识_数据_06统计学知识_方差_24独立,则
统计学知识_数据_25
该分布为统计学知识_正态分布_26分布。

F分布

设随机变量统计学知识_方差_24统计学知识_数据_28相互独立,且统计学知识_方差_24统计学知识_数据_28分别服从自由度为统计学知识_方差_31统计学知识_正态分布_32统计学知识_正态分布_33分布,随机变量统计学知识_数据_06有如下表达式;
统计学知识_数据_35
则称统计学知识_数据_06服从第一自由度为统计学知识_方差_31,第二自由度为统计学知识_正态分布_32统计学知识_正态分布_39分布,即为统计学知识_方差_40,简记为统计学知识_正态分布_41

大数定律和中心极限定理

大数定律

讨论的是在什么条件下,随机变量序列的算术平均值依概率收敛到其均值(期望)的算数平均。
即随机变量统计学知识_方差_42满足:
统计学知识_正态分布_43

中心极限定理

研究随机变量和的极限分布在什么条件下为正态分布。如林德伯格-莱维中心极限定理:
统计学知识_方差_44是独立同分布的随机变量序列,且统计学知识_方差_45,统计学知识_正态分布_46存在,则当统计学知识_正态分布_32足够大时,统计学知识_正态分布_48近似服从统计学知识_正态分布_49

简单的统计推断

P值

当原假设为真时所得到的样本观察结果或者更极端结果出现的概率。

假设检验

基本思想为小概率反证法,流程为:先提出原假设,再用适当的统计方法确定假设成立的可能性大小(P值),如果可能性小(小于事先设定的显著性水平),则认为原假设不成立,这里只能说明现有数据不能支撑原假设,但是不能说明备注假设成立。

列联表分析

研究两个类别型变量之间是否独立的方法。原假设为两变量独立,通常通过构建列联表进行计算分析。

简单叙述原理:原假设两个类别型变量是独立的,那么可以通过边际概率的乘积,计算独立时各种组合发生的概率,继而求出所谓的期望频数,如果期望频数和实际频数相差很大,则认为独立。贴个书上的例子:

统计学知识_数据_50

统计学知识_正态分布_51

方差分析

方差分析通过检验各总体均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
方差分析的主要思想是误差分解,总误差分解为组内误差和组间误差,直观的想法:如果分类型自变量对数值型因变量没有显著影响,那么组间均方和组内均方误差应该比较接近。
以单因子方差为例,简述相关内容。

方差分析基本假定

  1. 每个总体服从正态分布
  2. 每个总体的方差必须相同(统计软件会输出方差同质性检验,如果不一致,参看另外一个统计量即可)
  3. 观测值是独立的(一般由实验或者抽样满足)
    这三个假定成立的前提下,分析自变量对因变量是否有影响形式上转换为检验自变量的各个水平(不同的总体)的均值是否相等。因此原假设为自变量对因变量没有显著影响,即各个总体的均值全部相等。

统计量的构造

前面提到通过对总体误差的分解得到组间误差和组内误差,两者除以对应的自由度,得到组间均方(MSA)和组内均方(MSE),构造统计量统计学知识_数据_52


回归

列联表分析可以看做研究类别型自变量和类别型因变量的关系,方差分析则是类别型自变量和数值型因变量的关系,那么回归分析可以看做研究数值型自变量和数值型因变量的关系。

基本假定

  1. 误差项服从均值为0的正态分布
  2. 误差项之间相互独立
  3. 误差项的方差对所有的统计学知识_方差_53的值都不变

逻辑

主要思想是构造误差平方和为目标函数,通过最小二乘方法求出目标函数最小时候的各个参数。通过构造不同的惩罚项,可以变形为岭回归和lasso回归。具体不赘~

求参

  1. 损失函数的hesse matrix是正定矩阵,所以损失函数是凸函数
  2. 正定矩阵定义:实对称+统计学知识_正态分布_54
  3. ​梯度下降法or随机梯度下降​

逻辑回归

logstic变换

统计学知识_数据_55

目标函数和求参

极大似然估计法求参数,目标函数如下:
统计学知识_数据_56


PCA

基本思想

研究问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵或协方差阵内部结构关系的研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提条件下起到降维和简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。

基本理论

主成分定义

统计学知识_正态分布_57


统计学知识_数据_58

主成分的条件

统计学知识_正态分布_59

主成分的几何意义

以二维为例:

统计学知识_数据_60

主成分的求法

目标很明确:想要统计学知识_正态分布_61最大,并且要满足前面所讲的主成分的三个条件。可以使用拉格朗日乘子法求解。具体如下:

统计学知识_方差_62


统计学知识_数据_63

剩下的细节不多说,有空写的详细点吧。


因子分析

在主成分分析中,每一个主成分可以看做变量的线性组合;而在因子分析中,把每个变量分解成几个公共因子的线性组合和特殊因子,一般因子数量小于变量数量。

因子模型

统计学知识_数据_64

两个假定

因子模型有两个前提假定:

统计学知识_数据_65

因子载荷

因子载荷矩阵为模型的汇总矩阵统计学知识_数据_66,矩阵中的元素统计学知识_方差_67表示第统计学知识_方差_68个变量与第统计学知识_数据_69个公共因子的相关系数。

参数估计

也就是载荷矩阵的求解,一般有主成分法、主因子解和极大似然法。主成分求法相当于先求出主成分,然后矩阵求逆可得。具体不太清楚,可以参看多元统计的教材。

2018-03-01 于杭州