描述性检验

顾名思义,就是对数据用均值,中位数,众数,四分位数,标准差等对数据进行描述。属于初级的数据分析方法。描述性统计又分为集中趋势和离散趋势。常用的集中趋势统计量为均值,中位数,众数。

均值——全部数据的算数平均值

中位数——全部数据中间的那个数

众数——全部数据中出现次数最多的那个数

比如,要分析A,B组学生的成绩。A组有5个人,4个考了92分,1个考了85分,B组也有5个人,3个考了95分,2个考了80分。

A组:

均值为 90.6分,中位数为92分,众数为92分

B组:

均值为89分,中位数为95分,众数为95分

从均值来看,A组的成绩比B组好,而从中位数和众数来看,B组的学生的成绩比A组好,到底是使用均值,中位数还是众数,这取决于具体的情况。如果是相比较大部分学生的成绩,那么使用中位数比均值更好,因为均值容易受到极值的影响。比如说有10个人,9个人工资是5千,1个人工资是100万,那么平均下也有大约10万元的工资,但是并代表不了什么。

假设检验

假设检验简单来说先凭借自己的直觉,经验,知识的储备做出合理的假设,再通过数据进行验证假设是否正确。常用的假设检验方法有u—检验法、t检验法、χ2检验法(卡方检验)、F—检验法,秩和检验等

假设检验首先需要提出两个相反的假设,分别为零假设H0和备选假设H1 。在进行假设检验时,先假设零假设为真,如果有足够的证据表明零假设不正确,则拒绝零假设,接受备选假设。

在假设检验之前,我们需要先引入P值这个概念,根据百度百科的定义:

P值(P value)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。

举个例子:

假如一个班参数学考试,按照要求平均分需要高于75分,现从班级中抽出11人,查看他们的考试成绩,得分如下:

95,81,76,75,77,70,59,65,78,70,72

H0:他们班平均分<=75

H1:他们平均分>75

计算得出P值为0.588,大于0.05 ,所以不能拒绝H0,因此他们班的成绩可能低于75分。

方差分析

方差分析其实就是假设检验中的F-检验,主要针对的是两个及以上样本均值差别的显著检验。通过分析研究中不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。具体的方法也与上面假设检验相似,不在叙述。

回归分析

回归分析只要研究的是因变量和自变量之间的定量关系,运用十分广泛,也有很多中回归的方法。下面来一一说明。

1. 线性回归

线性回归通常是人们在学习预测模型时最常用的方法。它研究的是因变量Y与一个或多个自变量X的直线关系,通常的形式为:

Y = aX+b+e

其中a表示直线的斜率,b表示截距,e为残差。那么如何获得最佳的a,b的值呢?通常我们是采用最小二乘法来完成。




描述性数据分析 探索性数据分析 验证性数据分析有什么区别_聚类


2. 多项式回归

如果上述公式中自变量的指数大于1,那么我们就称之为多项式回归如:Y=aX2+b,用来拟合数据之间的曲线关系。

3. .Logistic Regression逻辑回归

上面的回归分析因变量是连续的,而逻辑回归的因变量是离散的。它主要是用来学习分类模型。从本质上来说逻辑回归是线性回归,只是在最后增加一层映射,通常是采用Sigmoid函数。

4.其他各种回归:套索回归,ElasticNet回归,岭回归,非线性回归、有序回归等

聚类分析

聚类分析就是通过不同的统计量,算法将样本分成不同的类,同一类的样本相似度尽可能的高。在分类的开始,无需人为地确定分类标准,而是从数据出发,自法进行分类。主要有以下几种聚类方法:

划分聚类法。K均值。是基于原型的、划分的聚类技术。它试图发现用户指定个数K的簇(由质心代表)。

系统聚类。适合小样本的样本聚类。

基于密度的聚类。DBSCAN。一般假定类别可以通过样本分布的紧密程度决定,通过将紧密相连的样本划为一类,这样就得到了一个聚类类别。通过将所有各组紧密相连的样本划为各个不同的类别,则我们就得到了最终的所有聚类类别结果。

因子分析

用少数的几个因子去描述因素之间的关系,把冗余,杂乱的变量归结于几个主要的不相关的因子。类似于初中学因式分解。具体的方法有很多,如重心法、影像分析法,最大似然解、最小平方法、阿尔发抽因法、拉奥典型抽因法等等。

主成分分析(PCA)

主成分分析主要是利用降维的思想,将K维数据映射到N维上,N维是全新的正交特征。