《数据挖掘与机器学习》复习

根据复习阶段遇到的题型列出比较可能考的知识点

第1章 绪论

这部分基本概念了解即可

第2章 数据预处理

光滑噪声数据的方法——分箱

分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。

数据平滑方法:有3种按平均值平滑、按边界值平滑和按中值平滑。

分箱
  1. 等深分箱
    统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。
  2. 等宽分箱
    统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。
    例子、客户收入属性income排序后的值(人民币元):
    800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。
  1. 采用等深分箱
    统一权重:设定权重(箱子深度)为4,分箱后
    【就是每个箱子都是装4个数值】
    箱1:800 1000 1200 1500
    箱2:1500 1800 2000 2300
    箱3:2500 2800 3000 3500
    箱4:4000 4500 4800 5000
  2. 采用等宽分箱
    统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后
    如果,设定箱子宽度为W。那么(结合本例)
    第一个:800--800+W;第二个:2000--2000+W;第三个:3500--3500+W;第四个:4800--4800+W
    箱1:800 1000 1200 1500 1500 1800
    箱2:2000 2300 2500 2800 3000
    箱3:3500 4000 4500
    箱4:4800 5000

无论是等深还是等宽分箱第一步均是要对给定数据进行排序的

数据平滑

数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。

例子:

price 的排序后数据(美元): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
划分为(等深的)箱:
-箱1: 4, 8, 9, 15
-箱2: 21, 21, 24, 25
-箱3: 26, 28, 29, 34

用箱平均值平滑:
-箱1: 9, 9, 9, 9
-箱2: 23, 23, 23, 23
-箱3: 29, 29, 29, 29

用箱边界值平滑:
-箱1: 4, 4, 4, 15
-箱2: 21, 21, 25, 25
-箱3: 26, 26, 26, 34

⑴按平均值平滑 :对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。

⑵按边界值平滑 :用距离较小的边界值替代箱中每一数据。


python的等深分箱16个数据 等深分箱法例题_机器学习

⑶按中值平滑 :取箱子的中值,用来替代箱子中的所有数据。

分箱和数据平滑,尊重知识产权

数据规范化

最小最大规范化(要注意的是规范目标在0~1之间这种特殊情况)




python的等深分箱16个数据 等深分箱法例题_机器学习_02


python的等深分箱16个数据 等深分箱法例题_聚类_03


z-score规范化


python的等深分箱16个数据 等深分箱法例题_聚类_04


按小数定标规范


python的等深分箱16个数据 等深分箱法例题_人工智能_05


第3章 关联规则挖掘(感觉必考)

Apriori算法的流程


python的等深分箱16个数据 等深分箱法例题_数据挖掘_06


求出频繁项集后关联规则的求取(这点感觉不难,但不知道原理的时候可能无从下手)


python的等深分箱16个数据 等深分箱法例题_数据挖掘_07


上图圈出的部分是重点,告诉了我们已知频繁项集的前提下求关联规则的两个步骤:1. 求出指定频繁项集的真子集;2. 对不同真子集之间求符合指定最小置信度的关联规则,切忌关联规则的前置项和后置项不能有交集。

举个小例子说明一下

比如最后求出的频繁项集中有一个频繁项集{T, M, P}。求这个频繁项集中是否有强关联规则。

解法:

  1. 求出频繁项集的真子集{T, M, P, TM, TP, MP, TMP}
  2. 求不同真子集间的关联(切忌前置项和后置项不能有交集)
    T => M(或T => P, T => MP)(这几个时合法的关联规则,再根据最小置信度判断是否为强关联规则)。
    非法的关联:T => TM, T => TP, T => TMP。为啥子不合法?因为它们前后项有交集呀。
    其他的合法关联以此类推。
Apriori算法的优缺点
  1. 优点
  2. python的等深分箱16个数据 等深分箱法例题_python的等深分箱16个数据_08


  3. 缺点
  4. python的等深分箱16个数据 等深分箱法例题_机器学习_09

  5. python的等深分箱16个数据 等深分箱法例题_机器学习_10


实例分析


python的等深分箱16个数据 等深分箱法例题_人工智能_11


python的等深分箱16个数据 等深分箱法例题_机器学习_12


python的等深分箱16个数据 等深分箱法例题_聚类_13


python的等深分箱16个数据 等深分箱法例题_数据挖掘_14


第4章 决策树分类算法

基本的决策树生成流程(结合实现过程不难理解)


python的等深分箱16个数据 等深分箱法例题_数据挖掘_15


ID3算法

基本思路


python的等深分箱16个数据 等深分箱法例题_人工智能_16


python的等深分箱16个数据 等深分箱法例题_python的等深分箱16个数据_17


生成一个节点需要了解的三个基本关系

根据熵增理论,当熵值越大其不确定越大。

训练样本集的期望信息(熵)


python的等深分箱16个数据 等深分箱法例题_数据挖掘_18


属性划分的期望信息。 3. 信息增益
ID3实例分析


python的等深分箱16个数据 等深分箱法例题_机器学习_19


python的等深分箱16个数据 等深分箱法例题_数据挖掘_20


python的等深分箱16个数据 等深分箱法例题_python的等深分箱16个数据_21


python的等深分箱16个数据 等深分箱法例题_聚类_22


python的等深分箱16个数据 等深分箱法例题_人工智能_23


ID3算法的优缺点
  1. 优点
  2. python的等深分箱16个数据 等深分箱法例题_聚类_24


  3. 缺点
  4. python的等深分箱16个数据 等深分箱法例题_机器学习_25


C4.5 与 ID3算法的区别


python的等深分箱16个数据 等深分箱法例题_python的等深分箱16个数据_26


C4.5 算法的判断标准——信息增益比


python的等深分箱16个数据 等深分箱法例题_python的等深分箱16个数据_27


python的等深分箱16个数据 等深分箱法例题_机器学习_28


第5章 贝叶斯分类算法

贝叶斯定理和贝叶斯决策准则


python的等深分箱16个数据 等深分箱法例题_机器学习_29


python的等深分箱16个数据 等深分箱法例题_聚类_30


朴素贝叶斯分类器

核心公式


python的等深分箱16个数据 等深分箱法例题_数据挖掘_31


python的等深分箱16个数据 等深分箱法例题_机器学习_32


朴素贝叶斯分类的工作流程


python的等深分箱16个数据 等深分箱法例题_人工智能_33


python的等深分箱16个数据 等深分箱法例题_python的等深分箱16个数据_34


python的等深分箱16个数据 等深分箱法例题_数据挖掘_35


朴素贝叶斯分类器的实例分析


python的等深分箱16个数据 等深分箱法例题_python的等深分箱16个数据_36


python的等深分箱16个数据 等深分箱法例题_人工智能_37


python的等深分箱16个数据 等深分箱法例题_聚类_38


朴素贝叶斯的特点


python的等深分箱16个数据 等深分箱法例题_人工智能_39


python的等深分箱16个数据 等深分箱法例题_数据挖掘_40


第6章 人工神经网络算法

这一章想彻底弄懂要花时间呀,本人就只是了解个大概应付考试罢了😂

人工神经元模型


python的等深分箱16个数据 等深分箱法例题_数据挖掘_41


BP神经网络的原理


python的等深分箱16个数据 等深分箱法例题_python的等深分箱16个数据_42


python的等深分箱16个数据 等深分箱法例题_机器学习_43


python的等深分箱16个数据 等深分箱法例题_python的等深分箱16个数据_44


python的等深分箱16个数据 等深分箱法例题_机器学习_45


python的等深分箱16个数据 等深分箱法例题_python的等深分箱16个数据_46


python的等深分箱16个数据 等深分箱法例题_人工智能_47


python的等深分箱16个数据 等深分箱法例题_python的等深分箱16个数据_48


python的等深分箱16个数据 等深分箱法例题_机器学习_49


python的等深分箱16个数据 等深分箱法例题_数据挖掘_50


python的等深分箱16个数据 等深分箱法例题_机器学习_51


优缺点

  1. 优点
  2. python的等深分箱16个数据 等深分箱法例题_聚类_52


  3. 缺点
  4. python的等深分箱16个数据 等深分箱法例题_聚类_53


第7章 支持向量机

这一章想彻底弄懂要花时间呀,本人就只是了解个大概应付考试罢了😂

支持向量机原理


python的等深分箱16个数据 等深分箱法例题_人工智能_54


python的等深分箱16个数据 等深分箱法例题_python的等深分箱16个数据_55


python的等深分箱16个数据 等深分箱法例题_python的等深分箱16个数据_56


python的等深分箱16个数据 等深分箱法例题_数据挖掘_57


python的等深分箱16个数据 等深分箱法例题_数据挖掘_58


python的等深分箱16个数据 等深分箱法例题_数据挖掘_59


python的等深分箱16个数据 等深分箱法例题_人工智能_60


python的等深分箱16个数据 等深分箱法例题_数据挖掘_61


python的等深分箱16个数据 等深分箱法例题_数据挖掘_62


python的等深分箱16个数据 等深分箱法例题_人工智能_63


python的等深分箱16个数据 等深分箱法例题_机器学习_64


核函数


python的等深分箱16个数据 等深分箱法例题_聚类_65


支持向量机的优缺点

  1. 优点
  2. python的等深分箱16个数据 等深分箱法例题_人工智能_66


  3. 缺点
  4. python的等深分箱16个数据 等深分箱法例题_机器学习_67


第8章 K-means聚类算法

K-means聚类算法流程


python的等深分箱16个数据 等深分箱法例题_聚类_68


python的等深分箱16个数据 等深分箱法例题_人工智能_69


python的等深分箱16个数据 等深分箱法例题_数据挖掘_70


算法实例


python的等深分箱16个数据 等深分箱法例题_python的等深分箱16个数据_71


python的等深分箱16个数据 等深分箱法例题_聚类_72


python的等深分箱16个数据 等深分箱法例题_聚类_73


python的等深分箱16个数据 等深分箱法例题_机器学习_74


python的等深分箱16个数据 等深分箱法例题_数据挖掘_75


python的等深分箱16个数据 等深分箱法例题_聚类_76


K-means的优缺点

  1. 优点
  2. python的等深分箱16个数据 等深分箱法例题_人工智能_77


  3. 缺点
  4. python的等深分箱16个数据 等深分箱法例题_数据挖掘_78


K值的确定


python的等深分箱16个数据 等深分箱法例题_数据挖掘_79


python的等深分箱16个数据 等深分箱法例题_数据挖掘_80


python的等深分箱16个数据 等深分箱法例题_聚类_81


第9章 K-中心聚类算法

K-中心聚类算法流程

非中心点替换中心点的代价分析


python的等深分箱16个数据 等深分箱法例题_python的等深分箱16个数据_82


四种情况的统一规律便是:指点样本点到新中心点的距离 - 指定样本点到旧中心点的距离。

流程(和K-means类似的流程图)


python的等深分箱16个数据 等深分箱法例题_人工智能_83


实例分析


python的等深分箱16个数据 等深分箱法例题_聚类_84


python的等深分箱16个数据 等深分箱法例题_人工智能_85


K-中心聚类算法优缺点

  1. 优点
  2. python的等深分箱16个数据 等深分箱法例题_python的等深分箱16个数据_86


  3. 缺点
  4. python的等深分箱16个数据 等深分箱法例题_聚类_87


密度聚类DBSCAN


python的等深分箱16个数据 等深分箱法例题_聚类_88


python的等深分箱16个数据 等深分箱法例题_机器学习_89


python的等深分箱16个数据 等深分箱法例题_聚类_90


python的等深分箱16个数据 等深分箱法例题_机器学习_91


python的等深分箱16个数据 等深分箱法例题_机器学习_92


密度峰值聚类

局部密度的定义:就是找和中心点距离在指定距离 dc以内点的个数


python的等深分箱16个数据 等深分箱法例题_python的等深分箱16个数据_93


距离的定义:对于样本点求和他最近的样本点的距离。对于最大密度的中心点找离他最远的的样本点。因为中心点要在第一象限的右上角的部位,而且越偏右上角约是有可能成为中心点。


python的等深分箱16个数据 等深分箱法例题_人工智能_94


python的等深分箱16个数据 等深分箱法例题_数据挖掘_95


python的等深分箱16个数据 等深分箱法例题_人工智能_96


第10章 SOM神经网络聚类方法

这一章想彻底弄懂要花时间呀,本人就只是了解个大概应付考试罢了😂

SOM网络的拓扑结构


python的等深分箱16个数据 等深分箱法例题_人工智能_97


python的等深分箱16个数据 等深分箱法例题_机器学习_98


python的等深分箱16个数据 等深分箱法例题_数据挖掘_99


SOM网络的学习算法


python的等深分箱16个数据 等深分箱法例题_聚类_100


python的等深分箱16个数据 等深分箱法例题_数据挖掘_101


python的等深分箱16个数据 等深分箱法例题_聚类_102


python的等深分箱16个数据 等深分箱法例题_数据挖掘_103


SOM优缺点


python的等深分箱16个数据 等深分箱法例题_机器学习_104