前言

数据分析是目前数据时代的热门方向,统计学又是数据分析必备的基础知识。 本文简单总结了一下需要的统计学知识。

基础的统计学知识

1.集中趋势(Central Tendency)
2.变异性(Variability)
3.归一化(Standardizing)
4.正态分布(Normal Distributions)
5.抽样分布(Sampling Distributions)
6.估计(Estimation)
7.假设检验(Hypothesis testing)
8.T检验(T-test)

一、集中趋势(Central Tendency)

1.众数
定义:出现频率最高的数;
特点:不受极端值的影响,当一组数据中苛些数据多次重复出现时,众数往往是人们最关心的一个量。但它不能象平均数那样充分利用数据提供信息。
适用场景:有极端值,有某些数据多次重复出现时
案例:一家鞋店在一段时间内销售了某种女鞋30双,各种尺码鞋的销量如下: 尺码/厘米 22 22.5 23 23.5 24 24.5 25 销售量/双 1 1 2 5 15 5 1 你能为这家鞋店提供进货建议吗?
分析:由于进货最关心的是哪种尺码的鞋最多,而这里很明显24码的要占相当大的量15双。较好的得到所需信息。
2.中位数
定义: 把样本值排序,分布在最中间的值;样本总数为奇数时,中位数为第(n+1)/2个值;样本总数为偶数时,中位数是第n/2个,第(n/2)+1个值的平均数;
特点:计算简单,不受极端值的影响,但不能充分利用每个数据所提供的信息
适用场景:有极端值,且无某数据重复出现多次的情况
案例:某公司员工月工资如下: 员工 经理 副经理 员工a 员工b 员工c 员工d 员工e 员工f 杂工 月工资/元 6000 4000 1700 1300 1200 1100 1100 1100 500 这个公司员工的月工资有一般水平是多少? 分析:这组数据的平均数是2000,而高于这一水平的只有2人,不具有代表性。其中位数是1200,处于其相当水平的有5人,占大多数。较好的反映了一般水平。
3.平均数
定义:所有数的总和除以样本数量;
特点:用到所有的数据,充分利用数据提供的信息,它具有优的数学性质,在实际应用中较为广泛。但它受极端值的影响较大。
适用场景:没有极端值的情况
案例说明:
现在大家接触最多的概念应该是 平均数,但有时候,平均数会因为某些极值(Outlier)的出现收到很大影响; 举个小例子,你们班有20人,大家收入差不多,19人都是5000左右,但是有1个同学创业成功了,年入1个亿,这时候统计你们班同学收入的“平均数”就是500万了,这也很好的解释了,每年各地的平均收入数据出炉,小伙伴们直呼给祖国拖后腿了,那是因为大家收入被平均了,此时,“中位数”更能合理的反映真实的情况;

二、变异性(Variability)

1.四分位数
上面说到了“中位数”,把样本分成了2部分,再找个这2部分各自的“中位数”,也就把样本分为了4个部分,其中1/4处的值记为Q1,2/4处的值记为Q2,3/4处的值记为Q3 2.四分位距 IQR=Q3-Q1

3.异常值(Outlier):
小于Q1-1.5(IQR)或者大于Q3+1.5(IQR); 对于异常值,我们在处理时需要剔除;
4.方差(Variance)
方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。

5.平方偏差(Standard Deviation)
-方差的算术平方根
6.贝塞尔矫正:修正样本方差
-问:为什么要用贝塞尔矫正? 实际在计算方差时,分母要用n-1,而不是样本数量n

三、归一化(Standardizing)

1.标准分数(Z-score)
一个给定分数 距离 平均数 多少个标准差?
标准分数是一种可以看出某分数在分布中相对位置的方法。 标准分数能够真实的反映一个分数距离平均数的相对标准距离。

四、正态分布(Normal Distributions)

1.定义:随机变量X服从一个数学期望为μ,方差为σ²的正态分布,记为N(μ,σ²) 随机取一个样本,有68.3%的概率位于距离均值μ有1个标准差σ内; 有95.4%的概率位于距离均值μ有2个标准差σ内; 有99.7%的概率位于距离均值μ有3个标准差σ内;

2.Z-表格的查阅

五、抽样分布(Sampling Distributions)

1.中心极限定理(Central Limit Theorem)
设从均值为μ,方差为σ²的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ²/n的正态分布
2.抽样分布(Sampling Distributions)
设总体共有N个元素,从中随机抽取一个容量为n的样本,在重置抽样时,共有N·n种抽法,即可以组成N·n不同的样本,在不重复抽样时,共有N·n个可能的样本。每一个样本都可以计算出一个均值,这些所有可能的抽样均值形成的分布就是样本均值的分布。但现实中不可能将所有的样本都抽取出来,因此,样本均值的概率分布实际上是一种理论分布。数理统计学的相关定理已经证明:在重置抽样时,样本均值的方差为总体方差的1/n
例子:
48盆MM豆,计算出每盆有几个蓝色的MM豆,48个数据构成了总体样本。然后随机选择五盆,计算五盆中含有蓝色MM豆的平均数,然后反复进行了50次。这就是n为5的样本均值抽样。

六、估计(Estimation)

  1. 误差界限(Margin of error)
  2. 置信度(Confidence level)
    We are some % sure the true population parameter falls within a specific range 我们有百分之多少确信总体中的值落在一个特定范围内; 一般情况下,取95%的置信度就可以;
  3. 置信区间(Confidence Interval)

七、假设检验(Hypothesis testing)

  1. 问题:什么是显著性水平?
    • 显著性水平是估计总体参数落在某一区间内,可能犯错误的概率,也就是Type I Error • A Type II Error is when you fail to reject the null when it is actually false.原文地址: https://discussions.youdaxue.com/t/topic/29031
  2. 如何选择备选检验和零假设?
    一个研究者想证明自己的研究结论是正确的,备择假设的方向就要与想要证明其正确性的方向一致; 同时将研究者想收集证据证明其不正确的假设作为原假设H0 推荐阅读: http://bbs.pinggu.org/thread-1071082-1-1.html

八、T检验(T-test)

  1. 主要用于样本含量较小
    用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著;
    一般检验水准α取0.05即可;
    计算检验统计量的方法根据样本形式不同;
  2. 独立样本T检验:
    现在要分析男生和女生的身高是否相同两者的主要区别在于数据的来源和要分析的问题。
    问题:为什么T检验查表时候要n-1? 样本均值替代总体均值损失了一个自由度
  3. 配对样本t检验:
    分析人的早晨和晚上的身高是否不同,于是找来一拨人测他们早上和晚上的身高,这里每个人就有两个值,这里出现了配对。
    样本误差(Standard Error)
  4. Pooled variance 合并方差
    当样本平均数不一样,但实际上认为他们的方差是一样的时候,需要合并方差
    不要被公式吓到,他的本质是两个样本方差加权平均
  5. Cohen’s d
    效应量(effect size):提示组间真正的差异占统计学差异的比例,值越大,组间差异越可靠。