《数据挖掘与机器学习》复习

根据复习阶段遇到的题型列出比较可能考的知识点

第1章 绪论

这部分基本概念了解即可

第2章 数据预处理

光滑噪声数据的方法——分箱

分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。

数据平滑方法:有3种按平均值平滑、按边界值平滑和按中值平滑。

分箱

  1. 等深分箱
    统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。
  2. 等宽分箱
    统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。
    例子、客户收入属性income排序后的值(人民币元):
    800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。
  1. 采用等深分箱
    统一权重:设定权重(箱子深度)为4,分箱后
    【就是每个箱子都是装4个数值】
    箱1:800 1000 1200 1500
    箱2:1500 1800 2000 2300
    箱3:2500 2800 3000 3500
    箱4:4000 4500 4800 5000
  2. 采用等宽分箱
    统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后
    如果,设定箱子宽度为W。那么(结合本例)
    第一个:800--800+W;第二个:2000--2000+W;第三个:3500--3500+W;第四个:4800--4800+W
    箱1:800 1000 1200 1500 1500 1800
    箱2:2000 2300 2500 2800 3000
    箱3:3500 4000 4500
    箱4:4800 5000

无论是等深还是等宽分箱第一步均是要对给定数据进行排序的

数据平滑

数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。

例子:

price 的排序后数据(美元): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
划分为(等深的)箱:
-箱1: 4, 8, 9, 15
-箱2: 21, 21, 24, 25
-箱3: 26, 28, 29, 34

用箱平均值平滑:
-箱1: 9, 9, 9, 9
-箱2: 23, 23, 23, 23
-箱3: 29, 29, 29, 29

用箱边界值平滑:
-箱1: 4, 4, 4, 15
-箱2: 21, 21, 25, 25
-箱3: 26, 26, 26, 34

⑴按平均值平滑 :对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。

⑵按边界值平滑 :用距离较小的边界值替代箱中每一数据。

等宽分箱Python代码 什么是等宽分箱法_复习

⑶按中值平滑 :取箱子的中值,用来替代箱子中的所有数据。

分箱和数据平滑,尊重知识产权

数据规范化

最小最大规范化(要注意的是规范目标在0~1之间这种特殊情况)

等宽分箱Python代码 什么是等宽分箱法_频繁项集_02

等宽分箱Python代码 什么是等宽分箱法_频繁项集_03

z-score规范化

等宽分箱Python代码 什么是等宽分箱法_复习_04

按小数定标规范

等宽分箱Python代码 什么是等宽分箱法_数据_05

第3章 关联规则挖掘(感觉必考)

Apriori算法的流程

等宽分箱Python代码 什么是等宽分箱法_数据_06

求出频繁项集后关联规则的求取(这点感觉不难,但不知道原理的时候可能无从下手)

等宽分箱Python代码 什么是等宽分箱法_等宽分箱Python代码_07

上图圈出的部分是重点,告诉了我们已知频繁项集的前提下求关联规则的两个步骤:1. 求出指定频繁项集的真子集;2. 对不同真子集之间求符合指定最小置信度的关联规则,切忌关联规则的前置项和后置项不能有交集。

举个小例子说明一下

比如最后求出的频繁项集中有一个频繁项集{T, M, P}。求这个频繁项集中是否有强关联规则。

解法:

  1. 求出频繁项集的真子集
  2. 求不同真子集间的关联(切忌前置项和后置项不能有交集)
    T => M(或T => P, T => MP)(这几个时合法的关联规则,再根据最小置信度判断是否为强关联规则)。
    非法的关联:T => TM, T => TP, T => TMP。为啥子不合法?因为它们前后项有交集呀。
    其他的合法关联以此类推。

Apriori算法的优缺点

  1. 优点
  1. 缺点

等宽分箱Python代码 什么是等宽分箱法_等宽分箱Python代码_08

实例分析

等宽分箱Python代码 什么是等宽分箱法_频繁项集_09

等宽分箱Python代码 什么是等宽分箱法_频繁项集_10

等宽分箱Python代码 什么是等宽分箱法_复习_11

等宽分箱Python代码 什么是等宽分箱法_复习_12

第4章 决策树分类算法

基本的决策树生成流程(结合实现过程不难理解)

等宽分箱Python代码 什么是等宽分箱法_数据_13

ID3算法

基本思路

等宽分箱Python代码 什么是等宽分箱法_关联规则_14

等宽分箱Python代码 什么是等宽分箱法_复习_15

生成一个节点需要了解的三个基本关系

根据熵增理论,当熵值越大其不确定越大。

训练样本集的期望信息(熵)

等宽分箱Python代码 什么是等宽分箱法_关联规则_16

属性划分的期望信息。 3. 信息增益

ID3实例分析

等宽分箱Python代码 什么是等宽分箱法_频繁项集_17

等宽分箱Python代码 什么是等宽分箱法_频繁项集_18

等宽分箱Python代码 什么是等宽分箱法_等宽分箱Python代码_19

等宽分箱Python代码 什么是等宽分箱法_频繁项集_20

等宽分箱Python代码 什么是等宽分箱法_数据_21

ID3算法的优缺点

  1. 优点
  1. 缺点

C4.5 与 ID3算法的区别

等宽分箱Python代码 什么是等宽分箱法_等宽分箱Python代码_22

C4.5 算法的判断标准——信息增益比

等宽分箱Python代码 什么是等宽分箱法_等宽分箱Python代码_23

等宽分箱Python代码 什么是等宽分箱法_复习_24

第5章 贝叶斯分类算法

贝叶斯定理和贝叶斯决策准则

等宽分箱Python代码 什么是等宽分箱法_数据_25

等宽分箱Python代码 什么是等宽分箱法_频繁项集_26

朴素贝叶斯分类器

核心公式

等宽分箱Python代码 什么是等宽分箱法_数据_27

等宽分箱Python代码 什么是等宽分箱法_数据_28

朴素贝叶斯分类的工作流程

等宽分箱Python代码 什么是等宽分箱法_数据_29

等宽分箱Python代码 什么是等宽分箱法_频繁项集_30

等宽分箱Python代码 什么是等宽分箱法_等宽分箱Python代码_31

朴素贝叶斯分类器的实例分析

等宽分箱Python代码 什么是等宽分箱法_关联规则_32

等宽分箱Python代码 什么是等宽分箱法_数据_33

等宽分箱Python代码 什么是等宽分箱法_关联规则_34

朴素贝叶斯的特点

等宽分箱Python代码 什么是等宽分箱法_复习_35

等宽分箱Python代码 什么是等宽分箱法_关联规则_36

第6章 人工神经网络算法

这一章想彻底弄懂要花时间呀,本人就只是了解个大概应付考试罢了😂

人工神经元模型

等宽分箱Python代码 什么是等宽分箱法_频繁项集_37

BP神经网络的原理

等宽分箱Python代码 什么是等宽分箱法_数据_38

等宽分箱Python代码 什么是等宽分箱法_复习_39

等宽分箱Python代码 什么是等宽分箱法_复习_40

等宽分箱Python代码 什么是等宽分箱法_关联规则_41

等宽分箱Python代码 什么是等宽分箱法_数据_42

等宽分箱Python代码 什么是等宽分箱法_等宽分箱Python代码_43

等宽分箱Python代码 什么是等宽分箱法_关联规则_44

等宽分箱Python代码 什么是等宽分箱法_频繁项集_45

等宽分箱Python代码 什么是等宽分箱法_关联规则_46

等宽分箱Python代码 什么是等宽分箱法_数据_47

优缺点

  1. 优点
  1. 缺点

第7章 支持向量机

这一章想彻底弄懂要花时间呀,本人就只是了解个大概应付考试罢了😂

支持向量机原理

等宽分箱Python代码 什么是等宽分箱法_等宽分箱Python代码_48

等宽分箱Python代码 什么是等宽分箱法_关联规则_49

等宽分箱Python代码 什么是等宽分箱法_复习_50

等宽分箱Python代码 什么是等宽分箱法_关联规则_51

等宽分箱Python代码 什么是等宽分箱法_复习_52

等宽分箱Python代码 什么是等宽分箱法_等宽分箱Python代码_53

等宽分箱Python代码 什么是等宽分箱法_数据_54

等宽分箱Python代码 什么是等宽分箱法_数据_55

等宽分箱Python代码 什么是等宽分箱法_复习_56

核函数

等宽分箱Python代码 什么是等宽分箱法_频繁项集_57

支持向量机的优缺点

  1. 优点
  1. 缺点

第8章 K-means聚类算法

K-means聚类算法流程

等宽分箱Python代码 什么是等宽分箱法_数据_58

等宽分箱Python代码 什么是等宽分箱法_关联规则_59

等宽分箱Python代码 什么是等宽分箱法_频繁项集_60

算法实例

等宽分箱Python代码 什么是等宽分箱法_数据_61

等宽分箱Python代码 什么是等宽分箱法_复习_62

等宽分箱Python代码 什么是等宽分箱法_数据_63

等宽分箱Python代码 什么是等宽分箱法_关联规则_64

等宽分箱Python代码 什么是等宽分箱法_数据_65

等宽分箱Python代码 什么是等宽分箱法_等宽分箱Python代码_66

K-means的优缺点

  1. 优点
  1. 缺点

K值的确定

等宽分箱Python代码 什么是等宽分箱法_数据_67

等宽分箱Python代码 什么是等宽分箱法_关联规则_68

等宽分箱Python代码 什么是等宽分箱法_关联规则_69

第9章 K-中心聚类算法

K-中心聚类算法流程

非中心点替换中心点的代价分析

等宽分箱Python代码 什么是等宽分箱法_频繁项集_70

四种情况的统一规律便是:指点样本点到新中心点的距离 - 指定样本点到旧中心点的距离。

流程(和K-means类似的流程图)

等宽分箱Python代码 什么是等宽分箱法_等宽分箱Python代码_71

实例分析

等宽分箱Python代码 什么是等宽分箱法_关联规则_72

等宽分箱Python代码 什么是等宽分箱法_等宽分箱Python代码_73

K-中心聚类算法优缺点

  1. 优点
  1. 缺点

密度聚类DBSCAN

等宽分箱Python代码 什么是等宽分箱法_复习_74

等宽分箱Python代码 什么是等宽分箱法_关联规则_75

等宽分箱Python代码 什么是等宽分箱法_频繁项集_76

等宽分箱Python代码 什么是等宽分箱法_关联规则_77

等宽分箱Python代码 什么是等宽分箱法_关联规则_78

密度峰值聚类

局部密度的定义:就是找和中心点距离在指定距离 dc以内点的个数

等宽分箱Python代码 什么是等宽分箱法_数据_79

距离的定义:对于样本点求和他最近的样本点的距离。对于最大密度的中心点找离他最远的的样本点。因为中心点要在第一象限的右上角的部位,而且越偏右上角约是有可能成为中心点。

等宽分箱Python代码 什么是等宽分箱法_数据_80

等宽分箱Python代码 什么是等宽分箱法_数据_81

等宽分箱Python代码 什么是等宽分箱法_数据_82

第10章 SOM神经网络聚类方法

这一章想彻底弄懂要花时间呀,本人就只是了解个大概应付考试罢了😂

SOM网络的拓扑结构

等宽分箱Python代码 什么是等宽分箱法_数据_83

等宽分箱Python代码 什么是等宽分箱法_数据_84

等宽分箱Python代码 什么是等宽分箱法_频繁项集_85

SOM网络的学习算法

等宽分箱Python代码 什么是等宽分箱法_数据_86

等宽分箱Python代码 什么是等宽分箱法_关联规则_87

等宽分箱Python代码 什么是等宽分箱法_复习_88

等宽分箱Python代码 什么是等宽分箱法_等宽分箱Python代码_89

SOM优缺点

等宽分箱Python代码 什么是等宽分箱法_数据_90

向大神看齐