文章目录
- 1. 数据的属性
- 1.1 数据对象
- 1.2 属性
- 1.3 属性类型
- 1.4 离散属性vs连续属性
- 2. 数据的基本统计描述
- 2.1 中心趋势度量
- 2.2 数据分散度量
- 2.3 数据图形显示
- 3. 数据的相似性和相异性
- 3.1 数据矩阵与相异矩阵
- 3.2 标称属性的临近性度量
- 3.3 二进制属性的临近性度量
- 3.4 数值属性的相异性
- 3.5 序数属性的邻近性度量
- 3.6 余弦相似性
1. 数据的属性
1.1 数据对象
- 数据集由数据对象组成。一个数据对象代表一个实体。
例如:
销售数据库: 顾客、 商品、销售
医疗数据库: 患者、医生、诊断治疗
选课数据库: 学生、教师、课程 - 数据对象又称为样本、实例、数据点、对象或元组。
- 数据对象用属性描述。数据表的行对应数据对象; 列对应属性。
1.2 属性
属性(特征,变量)是一个数据字段,表示数据对象的一个特征。
例如:客户编号、姓名、地址、商品编号、商品名、价格、种类等
1.3 属性类型
- 标称属性(nominal attribute):类别,状态或事物的名字。
每个值代表某种类别、编码或状态,这些值不必具有有意义的序,可以看做是枚举的。例如:头发颜色= {赤褐色,黑色,金色,棕色,褐色,灰色,白色,红色}
也可以用数值表示这些符号或名称,但并不定量地使用这些数。例如: 婚姻状况,职业,ID号,邮政编码,可以用0表示未婚、1表示已婚 - 二元属性(binary attribute):布尔属性,是一种标称属性,只有两个状态:0或1。
对称的(symmetric): 两种状态具有同等价值,且具有相同的权重。例如:性别
非对称的(asymmetric): 其状态的结果不是同样重要。例如:体检结果(阴性和阳性),惯例:重要的结果用1编码(如,HIV阳性)。 - 序数属性(ordinal attribute),其可能的值之间具有有意义的序或者秩评定(ranking),但是相继值之间的差是未知的。例如:尺寸={小,中,大},军衔,职称
序数属性可用于主观质量评估例如:顾客对客服的满意度调查。0-很不满意;1-不太满意;2-基本满意;3-满意;4-非常满意 - 数值属性(numeric attribute):定量度量,用整数或实数值表示
区间标度(interval-scaled)属性:使用相等的单位尺度度量。值有序,可以评估值之间的差,不能评估倍数。没有绝对的零点。例如:日期,摄氏温度,华氏温度
比率标度(ratio-scaled)属性:具有固定零点的数值属性。值有序,可以评估值之间的差,也可以说一个值是另一个的倍数。例如:开式温标(K),重量,高度,速度
1.4 离散属性vs连续属性
- 离散属性(discrete Attribute):具有有限或者无限可数个值。有时,表示为整型量。
例如:邮编、职业或文库中的字集
二进制属性是离散属性的一个特例 - 连续属性(Continuous Attribute):属性值为实数,一般用浮点变量表示。
例如,温度,高度或重量,实际上,真实值只能使用一个有限的数字来测量和表示。
2. 数据的基本统计描述
- 目的:更好地识别数据性质,把握数据全貌
- 数据的基本统计描述:中心趋势度量,世俗据分散度量,数据地图形表示
- 中心趋势度量:均值,加权算数均值,中位数,众数,中列数
- 数据分散度量:极差,分位数,四分位数,方差,标准差
- 数据的图形显示:箱图,饼图,频率直方图,散点图
2.1 中心趋势度量
- 均值(Mean)
- 加权平均数(Weighted Mean)
- 中位数(Median)
- 分组数据中位数(Grouped Median)
- 众数(Mode)
- 中列数(Midrange)
2.2 数据分散度量
- 极差(全距,Range)
- 分位数(Quantile)
- 四分位数极差(InterQuartile Range, IQR): Q3 - Q1
- 方差
- 标准差
2.3 数据图形显示
- 盒图(又称箱线图,Box-plot)
- 饼图(Pie Graph)
- 频率直方图(Frequency Histogram)
- 散点图(Scatter Diagram)
- 基本统计图
3. 数据的相似性和相异性
- 相似性(Similarity)
两个对象相似程度的数量表示
数值越高表明相似性越大
通常取值范围为[0,1] - 相异性(Dissimilarity)(例如距离)
两个对象不相似程度的数量表示
数值越低表明相似性越大
相异性的最小值通常为0
相异性的最大值(上限)是不同的 - 邻近性(Proximity):相似性和相异性都称为邻近性
3.1 数据矩阵与相异矩阵
- 数据矩阵:对象-属性结构
行-对象:n个对象
列-属性:p个属性
二模矩阵(Two modes) - 相异性矩阵:对象-对象结构
n个对象两两之间的邻近度
对称矩阵
单模(Single mode)
3.2 标称属性的临近性度量
- 相异性
p是对象的属性总数,m是匹配的属性数目(即对象i和j状态相同的属性数) - 相似性
3.3 二进制属性的临近性度量
- 相异性
- 对称二进制属性
- 非对称二进制属性
- 相似性
3.4 数值属性的相异性
- 欧几里得距离(Euclidean Distance)
- 曼哈顿距离(Manhattan Distance):每一项差的绝对值的和
- 欧几里得距离和曼哈顿距离都满足如下数学性质:
①非负性:d(i,j)≥0:距离是一个非负的数值。
②同一性:d(i,i)=0:对象到自身的距离为0。
③三角不等式:d(i,j)≤d(i,k)+d(k,j):从对象i到对象j的直接距离不会大于途经任何其他对象k的距离。 - 闵可夫斯基距离(Minkowski Distance)
- 切比雪夫距离(Chebyshev Distance)
- 例:数值属性的相异性计算
给定两个对象分别用元组(2,8,7,4)和(1,5,3,0)描述,计算这两个对象之间的欧几里得距离、曼哈顿距离、闵可夫斯基距离(h=4),以及切比雪夫距离。
- 欧几里得距离为:d(i,j)=√((2-1)2+(8-5)2+(7-3)2+(4-0)2 )=√42=6.48
- 曼哈顿距离为:d(i,j)=|2-1|+|8-5|+|7-3|+|4-0|=1+3+4+4=12
- 闵可夫斯基距离为:d(i,j)=∜(|2-1|4+|8-5|4+|7-3|4+|4-0|4 )=∜594≈4.94
- 切比雪夫距离为:d(i,j)=max{|2-1|,|8-5|,|7-3|,|4-0|}=max{1,3,4,4}=4
3.5 序数属性的邻近性度量
- 序数属性可以通过把数值属性的值域划分成有限个类别,对数值属性离散化得到。
- 相异性:
假设f是用于描述n个对象的序数属性,关于f的相异性计算步骤如下:
①第i个对象的f值为xif,属性f有Mf个有序的状态,表示排位1,…,Mf。用对应的排位rif∈{1,…,Mf}取代xif。
②将对象的每个序数属性的值域映射到[0.0,1.0]上,以便每个属性都有相同的权重。通过用zif代替第i个对象的rif来实现数据规格化,其中 - ③相异性可以用任意一种数值属性的距离度量计算,使用zif作为第i个对象的f值
3.6 余弦相似性
- 余弦相似性(又称余弦相似度,Cosine Similarity):是基于向量的,它利用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。