数据

如:
定性数据:
性别:男、女
颜色:红、绿、青、蓝、紫
教育程度:高中、本科、硕士、博士
评价:好评、中评、差评

定量数据:
年份:2019、2018、2017、2016
温度:10、15、20、25、30、35、40
身高:160、165、170、175、180
体重:40、45、50、55、60、65

数据和变量

  • 数据(data)是由变量(variable)组成的

性别 颜色 教育程度 评价
年份 温度 身高 体重

  • 一个变量(variable)应该包含至少2个不同的取值

定性 /分类变量

性别:男(1)、女(2)
颜色:红(1)、绿(2)、青(3)、蓝(4)、紫(5)
类别;性质上的差异,而非数量上的差异
只能进行是否相等的比较
无顺序(不能比较大小)或等级(不能比较优劣)

教育程度:高中(3)、本科(4)、硕士(5)、博士(6)
评价:好评(5)、中评(3)、差评(1)
类别;性质上的差异,而非数量上的差异
可以进行是否相等的比较
有顺序(可以比较大小)或等级(可以比较优劣)
好评不等于5倍的差评

定量/数值变量

年份:2019、2018、2017、2016
温度:10、15、20、25、30、35、40
数值
可以进行是否相等的比较
有顺序(可以比较大小)
等间距,可以进行加减运算

身高:160、165、170、175、180
体重:40、45、50、55、60、65
数值
可以进行是否相等的比较
有顺序(可以比较大小)
等间距,可以进行加减运算
可以进行乘除运算

观测、变量、与数据矩阵

性别

教育程度

出生年份

身高


高中

1999

165


本科

2000

175


硕士

2001

170


博士

1995

166

一行叫作 一次观测(observation)
一列叫作 一个变量(variable)
这个表格叫作 数据矩阵(data matrix)

测量尺度

抽象数字系统的属性

四个属性

  • 每一个数字有其独特的含义(identity) 性别 颜色
  • 数字具有从小到大的固有顺序(magnitude)教育程序 评价
  • 任意位置的单位间距是相同的(equal intervals)年份 温度
  • 零(0)表示被测量的属性不存在(absolute/true zero)身高 体重

测量(measurement)

  • 测量是指根据一定的规则,把数字(numbers)分配给观测(observations)
  • 把数字分配给观测的方式,决定了测量尺度(scale of measurement)
  • 每个测量尺度代表抽象数字系统的特定属性或属性集合

名目尺度(nominal scale)

  • 名目尺度是根据事物的特征对其进行分类的一种尺度

只具备第一个属性,即每一个数字有其独特的含义
得到的变量称为: 名目变量(nominal variable) 性别 颜色

次序尺度(ordinal scale)

  • 次序尺度是根据事物的特征对其进行等级排序的一种尺度

具备前两个属性 :
每一个数字有其独特的含义
数字具有从小到大的固有顺序
得到的变量称为: 次序变量(ordinal variable) 教育程度 评价

等距尺度(interval scale)

  • 等距尺度是指数值之间的单位间隔是等距的一种尺度

具备前三个属性:
每一个数字有其独特的含义
数字具有从小到大的固有顺序
任意位置的单位间距是相同的
得到的变量称为: 等距变量(interval variable)年份 温度 时间

等比尺度(ratio scale)

  • 等比尺度是具有等距尺度的所有特性并且零点有意义的尺度

具备所有四个属性:
每一个数字有其独特的含义
数字具有从小到大的固有顺序
任意位置的单位间距是相同的
零(0)表示被测量的属性不存在
得到的变量称为:等比变量(ratio variable) 身高 体重
因为有真零点,因此可以进行乘除运算
没有真零点,则乘除运算结果不唯一(无意义)

测量尺度的重要性

测量尺度决定了可以进行哪些逻辑与数学运算和使用哪种统计方法

尺度

举例

逻辑与数学运算

类别

名目

性别、颜色

等于、不等于

定性/(无序)分类变量

次序

教育程度、评价

等于、不等于、大于、小于

定性/(有序)分类变量

等距

温度、年份、时间

等于、不等于、大于、小于、加、减

定量/数值变量

等比

身高、体重、年龄

等于、不等于、大于、小于、加、减、乘、除

定量/数值变量

统计学-认识数据_类变量