写在前面:数据分析的真正目的是从数据中找出规律,从数据中寻找启发,而不是寻找支持。

一、导论

       统计学是一门收集、处理、分析、解释数据并从数据中得出结论的科学。分为描述性统计和推断性统计。应用领域有:企业发展战略、产品质量管理、市场研究、财务分析、经济预测、人力资源管理等。

       统计数据的类型:

  • 按计量尺度:分类数据、顺序数据和数值型数据。
  • 按收集方法:观测数据、实验数据。
  • 按时间状况:截面数据、时间序列数据。

数据来源一般分为间接来源(即原始数据已经存在,只需对其进行重新加工整理即可)和直接来源(需要通过调查和实验的方法来获得)。其中调查方法又分为概率抽样和非概率抽样:

  • 概率抽样:
  • 简单随机抽样;
  • 分层抽样;
  • 整群抽样(先将总体中若干个单位合并为组,这样的组称为群,再直接对群进行抽样);
  • 系统抽样(将总体中所有单位按一定顺序排列,在规定的范围内随机抽取一个单位作为初始单位,然后再按事先指定好的规则确定其他样本单位);
  • 多阶段抽样(先抽群,然后在群内进行二阶段抽样)。
  • 非概率抽样:
  • 方便抽样(依据方便原则自行确定);
  • 判断抽样(依据专业知识进行判断);
  • 自愿样本(调查者自愿参加);
  • 滚雪球样本(类似树结构);
  • 配额样本(类似分层抽样);
  • 两者之间的比较:
  • 非概率抽样适合探索性的研究,为更深入的数据分析做准备,特点是操作简便、时效快、成本低。而且对于抽样中的统计专业技术要求不是很高;
  • 概率抽样的技术含量更高,调查成本更高,统计学专业知识要求更高,适合调查目的为研究对象总体,得到总体参数的置信区间。

在搜集数据时可能会遇到抽样误差和非抽样误差。其中抽样误差所描述的是所有样本可能的结果与总体真值之间的平均差异;非抽样误差则主要有以下几种类型:抽样框误差、回答误差、无回答误差、调查员误差以及测量误差等。

关于数据的整理与展示:

  • 分类数据——指标有频数、频数分布、比率、比例;图形有条形图、帕累托图、饼图、环形图等。
  • 顺序数据——指标有累积频数和累积频率;可以绘制累积频数分布或频率图。
  • 数值型数据——除了前两种类型的图,还有直方图、茎叶图和箱线图。
  • 时间序列数据——线形图。
  • 多变量数据图示——散点图、气泡图、雷达图。

二、数据的概括性度量

1、集中趋势的度量

       分类数据——众数;

       顺序数据——中位数和分位数;

       数值型数据——平均数。其中几何平均数是使用特殊数据的一种平均数,主要用于计算平均比率。

       众数只有在数据量很多的时候才有意义,当数据量较少时,不宜使用众数。当一组数据的分布偏斜程度较大时(信贷数据),使用中位数是一个较好的选择。当数据呈对称分布时,适合使用平均数,当数据为偏态分布时,特别是偏斜程度较大时,选择中位数或众数的代表性要比平均数好。

2、离散程度的度量

(1)分类数据

       异众比率——指非众数组的频数占总频数的比率:


统计分析用数据库还是数据仓库 统计分析和数据分析_数据分析

其中fm为众数组的频数。异众比率越大,说明非众数组的频数占比越大,即众数的代表性越差,反之则反。

(2)顺序数据

       四分位数——上四分位数与下四分位数之差。用来衡量离散程度,数值越小,说明中间的数据越集中。

(3)数值型数据

       极差、方差、标准差。

(4)相对位置的度量

       标准分数——变量值与其平均值的离差除以标准差后的值。

       切比雪夫不等式——适用于任何分布形态的数据,其提供的是下界,即所占比例至少是多少。根据不等式,至少有(1-1/k2)的数据落在k个标准差内,其中k是任意大于1的值,但不一定是整数:

  • 至少有75%的数据落在平均数2个标准差内;
  • 至少有89%的数据落在平均数3个标准差内;
  • 至少有94%的数据落在平均数4个标准差内。

(5)相对离散程度的度量

       离散系数——指一组数据的标准差与其相应的平均数之比。

统计分析用数据库还是数据仓库 统计分析和数据分析_数据分析_02

离散系数越大,说明数据的离散程度越大;反之则反。

(6)偏态及其测度

       偏态是对数据对称性的测度,统计量为偏态系数(SK):

统计分析用数据库还是数据仓库 统计分析和数据分析_数据分析_03

其中s3是样本标准差的3次方。

       若数据对称,则SK=0;当SK大于1或小于-1时,称为高度偏态分布;0.5~1或-1~-0.5时,为中等偏态分布;越接近于0,偏斜程度就越小。

       偏态系数为正值,但数值不是很大,说明为右偏分布。

(7)峰态及其测度

统计分析用数据库还是数据仓库 统计分析和数据分析_大数据_04

       当K>0时为尖峰分布。