R语言描述性统计

在做数据分析时,一般先会对数据进行描述性统计分析,以便于描述该数据的各种特征及其所代表的总体的特征。描述性统计分析包括对数据的集中趋势、离散程度以及分布进行分析。

集中趋势统计量: 均值(Mean)、中位数(Median)、众数(Mode)、百分位数

离散趋势统计量:标准差(sd)、方差(var)、极差(range)、变异系数(CV)、标准误、样本校正平方和(CSS)、样本未校正平方和(USS)

分布情况统计量:偏度、峰度

统计量

函数

均值

mean(x, …);mean(x, trim = 0, na.rm = FALSE, …)

中位数

median(x, …);median(x, trim = 0, na.rm = FALSE, …)

频数

table(x, …)

众数

which.max(table(x))

五数/描述统计

summary(x, …);fivenum(x, …)

方差

var(x, na.rm = FALSE)

标准差

sd(x, na.rm = FALSE)

偏度

需要先加载moments包或fBasic包,再用函数skewness()

峰度

需要先加载moments包或fBasic包,再用函数kurtosis()

极差

range(…, na.rm = FALSE)

注:

  • trim可设为(0,0.5)之间的值,表示删除x的最大和最小百分几的数,然后对剩下数进行计算,得到的平均值为截尾均值;na.rm表示计算前是否删除NA值
  • summary()与fivenum()计算得出的第一四分位和第三四分位可能会略有不同,原因如下:
    fivenum()是从所有数中找出小于中位数的数,将这些数的中位数设为第一四分位;同理,从所有数中找出大于中位数的数,将这些数的中位数设为第三四分位。因此 fivenum()得到的第一四分位和第三四分位分别被称为四分位低值、四分位高值。
  • 偏度衡量数据的对称性。

    若为负,则数据均值左侧的离散度比右侧强,左偏;若为正,则数据均值左侧的离散度比右侧弱,右偏。
  • 峰度 研究数据分布陡峭或平滑的统计量,通过对峰度系数的测量,我们能够判定数据分布相对于正态分布而言是更陡峭还是平缓。峰值越大,分布越陡峭。

    正态分布的峰度系数为3,而均匀分布的峰度为1.8(但是SPSS等软件为了方便比较,先将峰度减去3处理,再将正态分布峰度值定为0)。
    当峰度系数>0,从形态上看,它相比于正态分布要更陡峭或尾部更厚;而峰度系数<0,从形态山看,则它相比于正态分布更平缓或尾部更薄。在实际环境当中,如果一个分部是厚尾的,这个分布往往比正态分布的尾部具有更大的“质量”,即含又更多的极端值。

    拉帕拉斯(D),双曲正割(S),逻辑斯底(L)分布的峰度系数均大于0,且他们的峰更陡峭,同时尾部也更厚。而像升余弦©分布,半圆形(W)分布,以及均匀分布U则是峰度系数<0
  • 极差(Range): 描述样本分散性的数字特征.当数据越分散,其极差越大,R函数语法: range(…, na.rm = FALSE),计算公式为:
  • 变异系数(CV): 又称离散系数,是刻划数据相对分散性的一种度量,它是一个无量钢的量,用百分数表示,R无对应函数,计算公式为:
  • 样本校正平方和(CSS):无R函数,计算公式:
  • 样本未校正平方和(USS): 无R函数,计算公式:
  • 四分位差(quartile deviation):也称为内距或四分间距(inter-quartile range),它是上四分位数(QL)与下四分位数(QU)之差,通常用Qd表示。计算公式为:
  • 标准误:均值标准误差就是样本均值的标准差,是描述样本均值和总体均值平均偏差程度的统计量,计算公式为: