数据属性的分类:

视频:​​https://www.bilibili.com/video/av56690626​

枚举或标称属性,二值属性,Ordinal【序数的;】,数值属性,区间标度属性,比率标度属性,离散属性,连续属性

p枚举或标称属性:能够用有限个元素对属性进行描述的集合。如事物的分类,状态或名称。

头发颜色 = {黑色,棕色,淡黄色,灰色,白色}

婚姻状态,职业,ID,邮编等

p二值属性:只有两个状态的枚举属性

对称的二值属性:两种状态具有相同的价值

e.g., 性别

非对称的二值属性:两种状态的重要性不同. 

e.g., 医学测试(阴性 vs. 阳性)

惯例:将较为重要的取值置为1 (e.g., HIV positive)

pOrdinal【序数的;】

值的顺序具有意义的属性

尺寸= {小,, }, 成绩等

p数值属性:可用整数或实数值度量的属性。

身高,体重,收入

p区间标度属性:使用相等的单位尺度度量,可以定量评估属性值的差。

取值有顺序

e.g., 摄氏温度和华氏温度

没有真实的0点

p比率标度属性:具有固定零点的数值属性

开始温度

工作年限、重量、高度和速度等

p离散属性:具有有限个数的取值或无限可数的取值。

年龄,工号

用整数表示的属性

注意:二元属性为一种特殊的离散属性

p连续属性:取值为实数的属性。

如温度、重量和高度等

取值通常用浮点数表示

 

中心趋势度量:均值,中位数,众数

均值(mean):

  • 算数均值
  • 加权平均
  • 对极端值敏感:截尾平均

中位数(median):有序数值的中间值;

  • 若N是奇数,则为中间值,若为偶数,这位最中间两个之间的任意值。
  • 当观测数很大时,将取值划分为区间,并计算每个区间内数值的个数,然后采用差值计算中位数的近似值。

众数(mode):出现最频繁的值

一个众数:单峰

两个众数:双峰

三个众数:三峰

认识数据_取值

数据散布的度量:

极差、四分位数,方差,标准差,盒图

极差:最大值与最小值之差

分位数:取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。

如四分位数,分别为Q1,中位数,Q3。四分位数极差:Q3-Q1

方差与标准差:​​https://zhidao.baidu.com/question/489232522.html​

平均数:
甲:1/5(1+2+3+4+5)=3
乙:1/5(101+102+103+104+105)=103
丙:1/5(3+6+9+12+15)=9
方差:
甲:1/5[(1-3)²+(2-3)²+(3-3)²+(4-3)²+(5-3)²]=2
乙:1/5[(101-103)²+(102-103)²+(103-103)²+(104-103)²+(105-103)²]=2
丙:1/5[(3-9)²+(6-9)²+(9-9)²+(12-9)²+(15-9)²]=18
标准差:方差的平方根
甲:根号2
乙:根号2
丙:3倍根号2

认识数据_认识数据_02

盒图:是一种流行的数据分布直观表示

认识数据_方差_03

数据的相似性和相异性是聚类、分类、离群点分析等数据挖掘算法的基础。

数据相似性的度量:

相似性:  衡量两个数据对象之间的相似程度。一般而言,值越大代表两个对象越相似。

枚举属性相似性:

二元属相邻性:

​点此闵可夫斯基距离​​​​可以不用看下面的啦​

认识数据_取值_04

认识数据_取值_05