数据属性的分类:
视频:https://www.bilibili.com/video/av56690626
枚举或标称属性,二值属性,Ordinal【序数的;】,数值属性,区间标度属性,比率标度属性,离散属性,连续属性
p枚举或标称属性:能够用有限个元素对属性进行描述的集合。如事物的分类,状态或名称。
头发颜色 = {黑色,棕色,淡黄色,灰色,白色}
婚姻状态,职业,ID,邮编等
p二值属性:只有两个状态的枚举属性
对称的二值属性:两种状态具有相同的价值
e.g., 性别
非对称的二值属性:两种状态的重要性不同.
e.g., 医学测试(阴性 vs. 阳性)
惯例:将较为重要的取值置为1 (e.g., HIV positive)
pOrdinal【序数的;】
值的顺序具有意义的属性
尺寸= {小,中,大 }, 成绩等
p数值属性:可用整数或实数值度量的属性。
身高,体重,收入
p区间标度属性:使用相等的单位尺度度量,可以定量评估属性值的差。
取值有顺序
e.g., 摄氏温度和华氏温度
没有真实的0点
p比率标度属性:具有固定零点的数值属性
开始温度
工作年限、重量、高度和速度等
p离散属性:具有有限个数的取值或无限可数的取值。
年龄,工号
用整数表示的属性
注意:二元属性为一种特殊的离散属性
p连续属性:取值为实数的属性。
如温度、重量和高度等
取值通常用浮点数表示
中心趋势度量:均值,中位数,众数
均值(mean):
- 算数均值
- 加权平均
- 对极端值敏感:截尾平均
中位数(median):有序数值的中间值;
- 若N是奇数,则为中间值,若为偶数,这位最中间两个之间的任意值。
- 当观测数很大时,将取值划分为区间,并计算每个区间内数值的个数,然后采用差值计算中位数的近似值。
众数(mode):出现最频繁的值
一个众数:单峰
两个众数:双峰
三个众数:三峰
数据散布的度量:
极差、四分位数,方差,标准差,盒图
极差:最大值与最小值之差
分位数:取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。
如四分位数,分别为Q1,中位数,Q3。四分位数极差:Q3-Q1
方差与标准差:https://zhidao.baidu.com/question/489232522.html
平均数:
甲:1/5(1+2+3+4+5)=3
乙:1/5(101+102+103+104+105)=103
丙:1/5(3+6+9+12+15)=9
方差:
甲:1/5[(1-3)²+(2-3)²+(3-3)²+(4-3)²+(5-3)²]=2
乙:1/5[(101-103)²+(102-103)²+(103-103)²+(104-103)²+(105-103)²]=2
丙:1/5[(3-9)²+(6-9)²+(9-9)²+(12-9)²+(15-9)²]=18
标准差:方差的平方根
甲:根号2
乙:根号2
丙:3倍根号2
盒图:是一种流行的数据分布直观表示
数据的相似性和相异性是聚类、分类、离群点分析等数据挖掘算法的基础。
数据相似性的度量:
相似性: 衡量两个数据对象之间的相似程度。一般而言,值越大代表两个对象越相似。
枚举属性相似性:
二元属相邻性:
点此闵可夫斯基距离可以不用看下面的啦