基本统计数据概念
统计数据基本分为3大类,分别如下
- 分类数据(categorical data)
- 顺序数据(rank data)
- 数值型数据(metric data)
分类数据:是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述的。
顺序数据:是只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别,但这些类别是有序的。
数值型数据:是按数字尺度测量的观察值,其结果表现为具体的数值。
分类数据和顺序数据说明的是事物的品质特征,通常是用文字来表述,其结果均表现为类别,因而也可统称为定性数据或品质数据;
数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此也可称为定量数据或数量数据。
(1)如何测度和描述数据分布特征?方法如下:
1.分布的集中趋势
2.分布的离散程度
3.分布形状
(2)啥是集中趋势?是否有具体的值来描述?
集中趋势(Central Tendency):是指一组数据向某一个中心值靠拢的程度,它反映了一组数据中心点的位置所在。
度量集中趋势可以使用:众数、中位数、分位数、平均数
众数(Mode):是一组数据中出现次数最多的变量值。众数主要应用于测度分类数据的集中趋势,也可以作为顺序数据及数值型数据集中趋势的测度值。一般情况下,只有在数据量较大的情况下众数才有意义。众数是一个位置代表值,它不受数据中极端值的影响。
中位数(Median):是一组数据排序后处于中间位置上的变量值。中位数主要测度顺序数据的集中趋势,当然也适用于测度数值型数据的集中趋势,但不适用于分类数据。
四分位数(Quartile):是一组数据排序后处于25%和75%位置上的值。
平均数(Mean):是一组数据相加后除以数据的个数得到的结果。是集中趋势的最主要测度值,它主要适用于数值型数据,而不适用于分类数据和顺序数据。平均数又分为:简单平均数、加权平均数、几何平均数。
众数、中位数和平均数的优缺点:
众数优点:
- 众数是一组数据分布的峰值,不受极端值的影响
- 只有在数据量较多时才有意义
- 适合作为分类数据的集中趋势测度值
众数缺点:
- 众数是具有不唯一性,一组数据可能有一个众数,也可以有两个或多个众数,也可能没有众数
- 当数据量较少时,不宜使用众数
中位数优点:
- 中位数是一组中间位置上的值,不受数据极端值的影响
- 中位数适合作为顺序数据的集中趋势测度值
中位数缺点:
- 不适用于分类数据
平均数优点:
- 是针对数值型数据计算的,而且利用了全部数据信息
平均数缺点:
- 易受数据极端值影响
- 对于偏态分布的数据,平均数的代表性较差
- 不适用于分类数据和顺序数据
(3)啥是离散程度?是否有具体的值来描述或度量?
离散程度:是指各变量值远离其中心值的程度。数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差;离散程度越小,其代表性就越好。
描述数据离散程度,可以采用的测度值有:异众比率、四分位差、极差、平均差、方差、标准差、离散系数
异众比率(variation rate):是指非众数组的频数占总频数的比例。
- 异众比率主要用于衡量众数对一组数据的代表程度。
- 异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差;
- 异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好;
- 异众比率适合测度分类数据的离散程度,但对于顺序数据和数值型数据也可以计算异众比率
四分位差(Quartile Deviation):是上四分位数与下四分位数之差。
- 四分位差反映了中间50%的数据的离散程度,数值越小,说明中间数据越集中;数值越大,说明中间数据越分散
- 四分位差不受极值的影响
- 由于中位数处于数据的中间位置,因此,四分位差的大小在一定程度上说明了中位数对一组数据的代表程度
- 四分位差主要用于测度顺序数据的离散程度
- 四分位差不适合分类数据,但对于数值型数据是可以计算四分位差
极差(Range):是一组数据的最大值和最小值之差。
- 极差是最简单的描述数据离散程度的测度值,计算简单,易于理解
- 易受极端值的影响
- 极差只是利用了一组数据两端的信息,不能反映出中间数据的分散状况,因而不能准确描述出数据的分散程度
平均差(Mean Deviation):是各变量值与其平均数离差绝对值的平均数。
- 平均差以平均数为中心,反映了每个数据与平均数的平均差异程度,能够全面反映一组数据的离散程度
- 平均差越大,说明数据的离散程度越大;反之,则说明数据离散程度越小
方差(Variance):是各变量值与其平均数离差平方的平均数。
标准差(Standard Deviation):方差的平方根。
- 方差(或标准差)能较好地反映出数据的离散程度,是应用最广的离散程度的测度值。
- 方差开方后即得到标准差。与方差不同的是,标准差是有量纲的,它与变量值的计量单位相同,其实际意义要比方差清楚
(4)数据分布的形状有哪些?是否有具体的测度值?
数据分布的形状是否对称、偏斜的程度以及分布的扁平程度等。
偏态(Skewness): 是对数据分布对称性的测度。
偏态系数(coefficient of skewness):是测量偏态的统计量。
- 如果一组数据的分布是对称的,则偏态系数等于0
- 如果偏态系数明显不等于0表明分布是非对称的
- 若偏态系数大于1或小于-1,称为高度偏态分布
- 若偏态系数在0.5~1或-1~-0.5之间,则认为是中等偏态分布
- 偏态分布越接近于0,偏斜程度就越小
峰态(kurtosis): 是对数据分布平峰或尖峰程度的测度。
峰态系数(coefficient of skewness):是测度峰态的统计量。
- 峰态通常是与标准正态分布相比较而言
- 如果一组数据服从标准正态分布,则峰态系数的值等于0
- 若峰态系数的值明显不等于0,则表明分布比正态分布更平或更尖【通常称为平峰分布或尖峰分布】