统计数据的展示

数据类型

数值型:采用某些特定的统计学方法

连续数值型:

身高、体重

离散数值型:

子女的个数:012345

分类型:其他方法

分类数据

  1. 布尔变量



python数据分析统计 python数据分析统计学_学习


  1. 名义变量


python数据分析统计 python数据分析统计学_正态分布_02


  1. 等级变量


python数据分析统计 python数据分析统计学_正态分布_03


python数据分析统计 python数据分析统计学_Powered by 金山文档_04


在python中作图

函数式和面向对象式的绘图方法

函数式


python数据分析统计 python数据分析统计学_python数据分析统计_05


面向对象式(优势:学术上表达事情明确清晰)


python数据分析统计 python数据分析统计学_python数据分析统计_06


python数据分析统计 python数据分析统计学_数据_07


交互式绘图

matplotlib交互不如Matlab直观

展示统计学数据集

seaborn\pandas 都是基于matplotlib

seaborn 旨在提供一个简洁、高层的接口,用于绘制富含信息扯且美观的统计学图形

pandas 提供了许多可视化数据框的方法


python数据分析统计 python数据分析统计学_正态分布_08


单变量数据


python数据分析统计 python数据分析统计学_数据_09


1.散点图


python数据分析统计 python数据分析统计学_python数据分析统计_10



python数据分析统计 python数据分析统计学_Powered by 金山文档_11


python数据分析统计 python数据分析统计学_Powered by 金山文档_12


2.直方图


python数据分析统计 python数据分析统计学_学习_13


python数据分析统计 python数据分析统计学_学习_14


3.核密度(KDE)估计图

用正态分布解决直方图非连续的问题


python数据分析统计 python数据分析统计学_学习_15


python数据分析统计 python数据分析统计学_数据_16


4.累积频率


python数据分析统计 python数据分析统计学_正态分布_17


python数据分析统计 python数据分析统计学_正态分布_18


python数据分析统计 python数据分析统计学_学习_19


正态分布的累积频率函数

5.误差条图


python数据分析统计 python数据分析统计学_数据_20


使用标准误有一个很好的特性:当基于标准误的两组误差条图之间有重叠时,我们可以确定两组之间的均值没有统计学差异( p >0.05 )。反之则不一定成立!


python数据分析统计 python数据分析统计学_正态分布_21


python数据分析统计 python数据分析统计学_正态分布_22


6.箱形图

箱子的底部和顶部分别表示第一分位数和第三分位数,箱子内部中间的线表示中位数,

下面的须表示在第一分位数外 1.5 x IQR (四分位距)范围内的最低值,而上面的须表示在第三分位数外

1.5 X IQR (四分位距)范围内的最高值。(另一个习惯用法是须表示了整个数据的范围。)


python数据分析统计 python数据分析统计学_数据_23


python数据分析统计 python数据分析统计学_Powered by 金山文档_24


小提琴图=箱形图+核密度估计图

纵轴和箱形图一样,但是在水平方向上额外绘制了对称的核密度估计图


python数据分析统计 python数据分析统计学_Powered by 金山文档_25


python数据分析统计 python数据分析统计学_Powered by 金山文档_26


7.分组的条形图


python数据分析统计 python数据分析统计学_正态分布_27


python数据分析统计 python数据分析统计学_Powered by 金山文档_28


python数据分析统计 python数据分析统计学_python数据分析统计_29


8.饼图


python数据分析统计 python数据分析统计学_数据_30


python数据分析统计 python数据分析统计学_正态分布_31


二元变量和多元变量绘图

1.二元变量散点图

带有不同大小数据点的散点图


python数据分析统计 python数据分析统计学_Powered by 金山文档_32


python数据分析统计 python数据分析统计学_正态分布_33


2.3D图

3D图坐标轴需要显式声明,一旦正确定义坐标轴,剩下的部分就很直观了


python数据分析统计 python数据分析统计学_Powered by 金山文档_34


python数据分析统计 python数据分析统计学_Powered by 金山文档_35


python数据分析统计 python数据分析统计学_python数据分析统计_36


分布和假设检验

总体和样本

总体 :包括数据集中的所有元素

样本 :总体中的一个或多个观察值组成

参数 :总体的特征,如均值或标准偏差(度量数据分布的分散程度)通常用希腊字母表示

统计量: 一个样本的可测量的特征

• 样本数据的均值;

• 样本数据的极差;

• 数据与样本均值的偏离

抽样分布:基于随机样本的给定统计量的概率分布


python数据分析统计 python数据分析统计学_学习_37


概率分布

概率密度:X为连续型随机变量,称f(x)为X的概率密度函数,简称为概率密度

概率分布:,在统计图上画出概率密度,概率分布是描述总体和样中数值数据分布的数学工具

离散分布

掷骰子

对于给定的离散分布, Pi称为该分布的概率质量函数 (PMF)


python数据分析统计 python数据分析统计学_python数据分析统计_38


python数据分析统计 python数据分析统计学_数据_39


python数据分析统计 python数据分析统计学_Powered by 金山文档_40


连续分布

例如,一个人的重量可以是任意正数,描述每个值的概率的曲线,即概率分布,是一个连续函数,称为概率

密度函数 (PDF)。


python数据分析统计 python数据分析统计学_学习_41


p(x) 是值 x 的概率密度函数。在 a 和 b 之间的 p(x) 上的积分表示在该范围内找到 x 的值的可能性


python数据分析统计 python数据分析统计学_Powered by 金山文档_42


期望值和方差

1.期望值

离散分布:


python数据分析统计 python数据分析统计学_Powered by 金山文档_43


连续分布:


python数据分析统计 python数据分析统计学_数据_44


2.方差


python数据分析统计 python数据分析统计学_python数据分析统计_45


自由度Degrees of Freedom(DOF)

自由度:取值不受限制的变量个数


python数据分析统计 python数据分析统计学_学习_46


22个人,分三组,两组样本均值知道,总体样本均值知道,即可求出第三组样本均值,因此确定的值终于三个,自由度减三。


python数据分析统计 python数据分析统计学_数据_47


求方差,分母是自由度

研究设计

术语

因素:被控制的输入变量

协同因素:木被控制的输入变量

协变量:一个对研究结局有可能做出预测的变量,并且可以是因素或协同因素

两个输入和 个输出:


python数据分析统计 python数据分析统计学_python数据分析统计_48


python数据分析统计 python数据分析统计学_学习_49


python数据分析统计 python数据分析统计学_Powered by 金山文档_50


python数据分析统计 python数据分析统计学_正态分布_51


python数据分析统计 python数据分析统计学_正态分布_52


python数据分析统计 python数据分析统计学_正态分布_53


python数据分析统计 python数据分析统计学_学习_54


python数据分析统计 python数据分析统计学_Powered by 金山文档_55


python数据分析统计 python数据分析统计学_正态分布_56


概述


python数据分析统计 python数据分析统计学_正态分布_57


python数据分析统计 python数据分析统计学_正态分布_58


单变量的分布

单变量的分布:一个变量的分布

离散分布:整数值

连续分布:浮点值

分布的特征描述

分布中心

用参数描述分布中心

  1. 均值(算术均值)

受异常值影响


python数据分析统计 python数据分析统计学_学习_59


numpy


python数据分析统计 python数据分析统计学_学习_60


2.中位数

数据按顺序排列时中间的值,不受异常值影响


python数据分析统计 python数据分析统计学_python数据分析统计_61


3.众数

一个分布中出现最频繁的值


python数据分析统计 python数据分析统计学_Powered by 金山文档_62


4.几何均值

几何平均可以用来描述分布的位置,通过计算每个值的对数的算数平均值得到


python数据分析统计 python数据分析统计学_正态分布_63


python数据分析统计 python数据分析统计学_Powered by 金山文档_64


量化变异度

1.极差


python数据分析统计 python数据分析统计学_学习_65


2.百分位数


python数据分析统计 python数据分析统计学_python数据分析统计_66


CDF是PDF从负无穷大到给定值的积分


python数据分析统计 python数据分析统计学_正态分布_67


3.标准差和方差


python数据分析统计 python数据分析统计学_学习_68


样本方差的极大似然估计(’有偏估计‘)(被除数为样本数)


python数据分析统计 python数据分析统计学_数据_69


群体方差的‘无偏估计‘(被除数为自由度n-1)


python数据分析统计 python数据分析统计学_学习_70


样本标准差


python数据分析统计 python数据分析统计学_学习_71


python数据分析统计 python数据分析统计学_正态分布_72


python数据分析统计 python数据分析统计学_学习_73


4.标准误

样本均值的标准误(Standard Error for the Sample Mean)

对一个总体多次抽样,每次样本大小都为n,那么每个样本都有自己的平均值,这些平均值的标准差叫做标准误

反映样本平均数对总体平均数的变异程度。


python数据分析统计 python数据分析统计学_正态分布_74


5.置信区间

[a,b]称为置信区间

a = 样本均值 - z标准误差

b = 样本均值 + z标准误差


python数据分析统计 python数据分析统计学_Powered by 金山文档_75


分布形状的参数描述

1.位置


python数据分析统计 python数据分析统计学_python数据分析统计_76


2.尺度

尺度参数描述了概率分布的宽度

3.形状参数

偏度:标准差大于均值的一半是偏斜分布而不是正态

峰度:概率分布的’陡峭程度‘,正太分布峰度为3


python数据分析统计 python数据分析统计学_正态分布_77


离散分布

伯努利分布

抛硬币一次,是二项分布的特殊情况


python数据分析统计 python数据分析统计学_数据_78


python数据分析统计 python数据分析统计学_python数据分析统计_79


二项分布

抛硬币多次


python数据分析统计 python数据分析统计学_python数据分析统计_80


python数据分析统计 python数据分析统计学_python数据分析统计_81


泊松分布

在连续的空间或时间内离散事件发生的次数(X为整数)


python数据分析统计 python数据分析统计学_数据_82


python数据分析统计 python数据分析统计学_Powered by 金山文档_83


python数据分析统计 python数据分析统计学_学习_84


正态分布


python数据分析统计 python数据分析统计学_学习_85


python数据分析统计 python数据分析统计学_Powered by 金山文档_86


python数据分析统计 python数据分析统计学_学习_87


python数据分析统计 python数据分析统计学_Powered by 金山文档_75


python数据分析统计 python数据分析统计学_正态分布_89


分布和假设检验


python数据分析统计 python数据分析统计学_数据_90


来自正态分布的连续型分布

t分布:正态分布的总体中,样本均值的样本分布。通常用于小样本数且真实的均值/标准差不知道的情况。

卡方分布:用于描述正态分布数据的变异程度

F分布:用于比较两组正态分布的变异程度

t分布

在大多数情况下,总体的均值和方差是未知的,我们在分析样本数据的时候一般都是处理t分布

常见应用是:计算均值的置信区间


python数据分析统计 python数据分析统计学_python数据分析统计_91


python数据分析统计 python数据分析统计学_学习_92


python数据分析统计 python数据分析统计学_学习_93


import numpy as np
from scipy import stats 
n=20
df=n-1#自由度
alpha=0.05#alpha是分位点 置信区间95%~0.05
stats.t(df).isf(alpha/2)
stats.norm.isf(alpha/2)
#均值的 95% 可信区间
alpha=0.95
df=len(data)-1
ci=stats.interval(alpha,df,loc=np.mean(data),scale=stats.sem(data))

t分布的尾部比正态分布长,它更不易受极端例子影响


python数据分析统计 python数据分析统计学_数据_94


t 分布在处理异常值时比正态分布更加稳健。(上图)以来自正态分布的样本进行最佳拟合的正态分布和 t 分布。(下图)是相同的分布,但是加上了 20 个异常值,这些异常值在 5 附近呈正态分布

卡方分布

用于描述正态分布数据的变异程度


python数据分析统计 python数据分析统计学_python数据分析统计_95


 


python数据分析统计 python数据分析统计学_python数据分析统计_96


当服从正态分布的随机变量数(n)越大时,自由度也越大,卡方分布图像越接近正态分布

F分布

  • 比较两组正态分布的变异程度
  • 方差分析


python数据分析统计 python数据分析统计学_python数据分析统计_97


方差分析(Analysis of Variance,简称ANOVA)

又称“变异数分析”,用于两个及两个以上样本均数差别的显著性检验

F分布图


python数据分析统计 python数据分析统计学_Powered by 金山文档_98


F分布和卡方分布:

F分布定义:设X、Y为两个独立的随机变量,X服从自由度为k1的卡方分布,Y服从自由度为k2的卡方分布,这2 个独立的卡方分布被各自的自由度除以后的比率这一统计量的分布


python数据分析统计 python数据分析统计学_数据_99


其他连续型分布

  • 对数正态分布:在对数坐标系上绘制的正态分布 我们常将强烈偏斜的分布通过对数转换成正态分布
  • 韦伯分布:主要用于可靠性或生存数据
  • 指数分布:指数曲线
  • 均匀分布:所有的值的可能性都相同

对数正态分布

对数正态分布,在线性横坐标(左)和对数横坐标(右)下绘制。


python数据分析统计 python数据分析统计学_正态分布_100


韦伯分布


python数据分析统计 python数据分析统计学_正态分布_101


韦伯分布 所有曲线的尺度参数都是 λ=1


python数据分析统计 python数据分析统计学_数据_102


python数据分析统计 python数据分析统计学_Powered by 金山文档_103


python数据分析统计 python数据分析统计学_Powered by 金山文档_104


指数分布

概率分布函数:


python数据分析统计 python数据分析统计学_数据_105


指数分布


python数据分析统计 python数据分析统计学_学习_106


均匀分布

所有的数据值的概率都相同


python数据分析统计 python数据分析统计学_正态分布_107


假设检验

数据筛选和离群值

离群值:离祥本均值超过 1.5 x IQR (4 分位数间距),或两个以上的标准偏差之外的数据(对于正态分布的样本)

正态性检验

假设检验:

参数检验:数据可被多个参数定义

非参数检验:不依赖数据服从特定分布

概率图:

QQ-图:quantile (分位数)

PP-图:数据集和参考分布的CDF一起绘制


python数据分析统计 python数据分析统计学_Powered by 金山文档_108


正态性检验

基于样本的描述性统计学的检验,例如偏度检验、峰度检验

转换

对数据进行对数转换成正态分布

假设概念、错误、P值和样本量

  • 假设检验步骤:
  • 从总体中抽取一个随机样本
  • 构建一个无效假设,同时构建与无效假设对立的备择假设(无效假设:总体均值和样本均值之间没有差异)
  • 计算已知概率分布的检验统计量(确定样本服从的概率分布,正态/t/F分布)
  • 比较观测值的统计量(p值:probability value)
  • 拒绝或接受假设(p值和alpha比较,P值小于alpha,则拒绝无效假设,因为在该假设前提下,小概率事件发生了,因此假设不成立)

错误的类型


python数据分析统计 python数据分析统计学_Powered by 金山文档_109


检验效能:与备择假设结合分析才有意义,它的意义是:当两总体确有差别时,按规定的检验水准.α能够发现该差别的能力

受试者操作特征(ROC)曲线

接受者操作特性曲线是指在特定刺激条件下,以被试在不同判断标准下所得的虚报概率P(y/N)为横坐标,以击中概率P(y/SN)为纵坐标,画得的各点的连线。


python数据分析统计 python数据分析统计学_学习_110


数值型数据的均值检验

样本均值的分布

单样本均值的t检验

从样本中估计均值和标准差,并用来描述来自正态分布的样本均值的t分布(标准误:平均值的标准差)


python数据分析统计 python数据分析统计学_数据_111


左:样本数据的频率直方图,带有正态拟合(绿线)。样本均值和总体均值非常接近,黄色三角形代表样本均值,红色三角形代表作为对比的值。右:均值的抽样分布(t 分布,自由度是 n -1)。底部是标准化的样本均值(黄色三角形)和进行比较的值(红色三角形)。红色阴影面积的和表示和红色箭头一样极端或更极端的值对应的 p 值

两组之间的比较

配对t检验

用学生们进入初中时的尺寸和他们第一年后的尺寸`来检验他们是否生长了 由于我们只是对每个个体在第一次和第二次测量之间的差异感兴趣,该检验被叫作配对t检验,该检验基本上和单样本均值t检验相对应


python数据分析统计 python数据分析统计学_学习_112


独立组别之间的t检验(非配对t检验)

基本 的思想和单样本t检验是一样 但我们需要的是两组之间均值差异的方差而不是均值的方差


python数据分析统计 python数据分析统计学_数据_113


统计学假设检验和统计学建模

1.经典t检验


python数据分析统计 python数据分析统计学_数据_114


2.统计学建模

建立一个统计模型,并分析模型参数的显著性


python数据分析统计 python数据分析统计学_数据_115


多组比较

方差分析

方差分析的思想是将方差分为组间方差和组内方差,看这些分布是否符合零假设,即所有组都来自同一分布

用于样本平均数与总体平均数或者两个样本平均数间的差异显著性检验


python数据分析统计 python数据分析统计学_学习_116


python数据分析统计 python数据分析统计学_正态分布_117


python数据分析统计 python数据分析统计学_学习_118


在两个例子中,两组间的差异是相同的。但在左边,组内差异比组间差异要小;而在右边,组内差异比组间差异要大

单因素方差分析

假定所有的样本都来自同方差的正态分布的总体,同方差的假设可以用 Levene 检验来检查。

多重比较:

无效假设是所有样本的均值是相同的,所以如果单因索方差分析产生了一个显著的结果,我们只知逍他们不是相同的。

进行多种检验,每一种检验用于一对样本,可以分析得到等均值假设在哪对样本中被拒绝。(一般来说,这由t检验完成)

多重检验:


python数据分析统计 python数据分析统计学_Powered by 金山文档_119


两因素方差分析

观察每个因素是否显著,检查这些因素的交互因素是否对数据的分布有显著影响。

三因素方差分析

有两个以 的因素的话,建议使用统计学建校的方法进行数据分析

选择正确的检验方法进行组间比较

典型的检验


python数据分析统计 python数据分析统计学_Powered by 金山文档_120


假设的例子

名义变量

2组,名义变量

2组, 配对名义量

有序变量

2组,有序变量,牙买加人/美国人,1 00 米短跑排名 比如,"牙买加短跑运动员比美国短跑运动员更成功?”

2组,配对有序变量,短跑运动员,进食前/后 。比如,”进食巧克力会让短跑运动员更成功吗?”

分类数据的检验

置信区间

样本服从分布,样本是否能代表标准总体,对样本的标准误进行假设检验,假设检验结果在置信区间内则可以代表总体。

统计建模

假设检验可以决定两组或两组以上的数据样本是否来自同一总体或不同的总体,但它们不能量化两个或多个变量之间的关系强度


python数据分析统计 python数据分析统计学_Powered by 金山文档_121


线性回归模型


python数据分析统计 python数据分析统计学_正态分布_122


线性相关

相关系数

pearson方法确定相关系数


python数据分析统计 python数据分析统计学_python数据分析统计_123


秩相关

数据不是正态分布的,需要采取不同的方法(Spearman's ,Kendall's )

对数据集的每个变量进行排序,并比较这个顺序

一般线性回归模型

用一个或多个其他的变量预测一个变量


python数据分析统计 python数据分析统计学_学习_124


python数据分析统计 python数据分析统计学_数据_125


最小二乘法求最佳拟合线

决定系数R^2

多元数据分析

两个变量变为多个变量是,相关系数被相关矩阵取代,需要预测许多其他变量的值,线性回归必须被多重线性回归替代即多多元线性回归。

可视化多元相关

散点图矩阵

散点图表示不同变量之间的相关性


python数据分析统计 python数据分析统计学_正态分布_126


python数据分析统计 python数据分析统计学_Powered by 金山文档_127


相关性矩阵


python数据分析统计 python数据分析统计学_正态分布_128


python数据分析统计 python数据分析统计学_数据_129


python数据分析统计 python数据分析统计学_正态分布_130


多元线性回归


python数据分析统计 python数据分析统计学_python数据分析统计_131


python数据分析统计 python数据分析统计学_python数据分析统计_132


离散数据检验

掷骰子,数据的离散的结果

引入广义线性模型(GLM)

GLM应用:python 实现logistic回归

贝叶斯统计学

probability 概率(P)的解释

频率学派:P为出现的频率

如果一个实验的结果有着P的概率.那意味着如果实验重复N次(其中N是个很大

的数),那么我们会观察到 Nxp 次该结果。

贝叶斯学派:P是对于一个特定结果可能性的信心

将观察到的数据固定下来,观察找到特定校型参数的可能性

贝叶斯学派和频率学派的解释

贝叶斯的优势:在计算概率P的时候应用贝叶斯定理,引入先验知识。


python数据分析统计 python数据分析统计学_python数据分析统计_133


贝叶斯解释:概率测量的是置信度

例如,假设我们有 50% 的程度相信一个硬币正面朝上的概率是背面朝上的2倍,

如果硬币抛了很多次,并观察到了结果,那么基于这个结果,置信度可能上升、下降或保持不变

(会用到全概率法则拓展)


python数据分析统计 python数据分析统计学_python数据分析统计_134


python数据分析统计 python数据分析统计学_学习_135


贝叶斯方法提供了处理参数和模型的不确定性的自然框架,借助如 PyMC或,scikit-learn 等工具进行实现