头歌数据挖掘答案数据挖掘题

转载

mob64ca1409970a 2023-10-01 09:37:16

文章标签 头歌数据挖掘答案数据挖掘分类算法数据分析频繁项集 文章分类 数据挖掘人工智能

第三章：

1、

头歌数据挖掘答案数据挖掘题_数据分析

解：用皮尔逊相关系数判断X，Y是否相关，计算如下：

头歌数据挖掘答案数据挖掘题_数据挖掘_02

3.3

头歌数据挖掘答案数据挖掘题_分类算法_03

解：（a）将数据划分为深度为3的等频的箱：

Bin1：13，15，16 Bin2：16，19，20 Bin3：20，21，22

Bin4：22，25，25 Bin5：25，25，30 Bin6：33，33，35

Bin7：35，35，35 Bin8：36，40，45 Bin9：46，52，70

用箱均值光滑：

Bin1：44/3，44/3，44/3 Bin2：55/3，55/3，55/3

Bin3：21，21，21 Bin4：24，24，24

Bin5：80/3，80/3，80/3 Bin6：101/3，101/3，101/3

Bin7：35，35，35 Bin8：121/3，121/3，121/3

Bin9：56，56，56

这种技术对给定数据的效果：将属性值离散化，可以递归地用于结果划分，产生概念分层；

(b)通过聚类检测离群点；

©回归、聚类。

3.6

头歌数据挖掘答案数据挖掘题_数据分析_04

头歌数据挖掘答案数据挖掘题_分类算法_05

解：（a）由已知得：数据组中最小值与最大值分别为200和1000，把数据组映射到区间[0，1]中，根据最小-最大规范化，

头歌数据挖掘答案数据挖掘题_数据挖掘_06

200：（200-200)(1-0)/(1000-200)+0=0
300：（300-200)(1-0)/(1000-200)+0=0.125

400：（400-200)(1-0)/(1000-200)+0=0.25
600：（600-200)(1-0)/(1000-200)+0=0.5

1000：（1000-200)*(1-0)/(1000-200)+0=1

(b)z分数规范化：

头歌数据挖掘答案数据挖掘题_数据挖掘_07

数据组的均值为：（200+300+400+600+1000)/5=500；

标准差为：282.84

头歌数据挖掘答案数据挖掘题_头歌数据挖掘答案_08

200：(200-500)/282.84=-1.06

300：(300-500)/282.84=-0.71

400：(400-500)/282.84=-0.35

600：(600-500)/282.84=0.35

1000：(1000-500)/282.84=1.77

©用均值绝对偏差的z分数规范化：

头歌数据挖掘答案数据挖掘题_频繁项集_09

SA=(|200-500|+|300-500|+|400-500|+|600-500|+|1000-500|)/5=240

200：(200-500)/240=-1.25

300：(300-500)/240=-0.83

400：(400-500)/240=-0.42

600：(600-500)/240=0.42

1000：(1000-500)/240=2.08

(d)小数定标规范化：

数据组的最大绝对值为1000，用10000（即j=4），

头歌数据挖掘答案数据挖掘题_数据挖掘_10

200：0.02；300：0.03；400：0.04；600：0.06；1000：0.1

3.9

头歌数据挖掘答案数据挖掘题_数据分析_11

解：(a)等频划分：N/3=4

Bin1：5，10，11，13 Bin2：15，35，50，55

Bin3：72，92，204，215

(b)等宽划分：(215-5)/3=70

Bin1：5，10，11，13，15，35，50，55，72

Bin2：92

Bin3：204，215

©聚类：

Bin1：5，10，11，13，15 Bin2：35，50，55，72，92

Bin3：204，215

3.11

头歌数据挖掘答案数据挖掘题_频繁项集_12

解：(a)

头歌数据挖掘答案数据挖掘题_数据分析_13

(b) SRSWOR：无放回简单随机抽取，从数据组中抽取s个样本，每次收取一个样本且不放回；

SRSWR：有放回简单随机抽取，与SRSWOR的区别在于抽取出的样本会再放回；

头歌数据挖掘答案数据挖掘题_头歌数据挖掘答案_14

簇抽样：如果数据组中的元组被分组放到M个互不相交的簇中，则可以得到s（s<M）个簇的简单随机抽样；

头歌数据挖掘答案数据挖掘题_分类算法_15

分层抽样：如果数据组被划分成互不相交的部分，则对每一层进行简单随机抽样就可以得到数据组的分层抽样；

头歌数据挖掘答案数据挖掘题_分类算法_16

第六章：

头歌数据挖掘答案数据挖掘题_频繁项集_17

解：连接产生的C3={{a，b，c}，{a，b，d}，{a，c，d}，{b，c，d}}；

剪枝后产生的C3={{a，b，c}，{a，b，d}。

头歌数据挖掘答案数据挖掘题_数据挖掘_18

解：

头歌数据挖掘答案数据挖掘题_数据挖掘_19

头歌数据挖掘答案数据挖掘题_数据挖掘_20

解：（1）扫描数据集，对每个物品进行计数：

牛奶：6，鸡蛋：7，面包：7，薯片：7，

爆米花：2，啤酒：4，黄油：2；

（2）与最小支持度4相比，并按降序重排物品集：

鸡蛋：7，面包：7，薯片：7，牛奶：6，啤酒：4；

（3）根据项目出现的次数重新调整物品清单：

头歌数据挖掘答案数据挖掘题_分类算法_21

（4）构建FP树：

头歌数据挖掘答案数据挖掘题_头歌数据挖掘答案_22

（5）挖掘频繁项集：

<1>面包的条件模式基：{鸡蛋：5}，

频繁项集：{鸡蛋，面包：5}。

<2>薯片的条件模式基：{鸡蛋面包：4}，{鸡蛋：2}，{面包：1}；

形成单路径{鸡蛋：6，面包：5}；列举得薯片的频繁项集：

{{鸡蛋，薯片：6}，{面包，薯片：5}，{鸡蛋，面包，薯片：5}}。

<3>牛奶的条件模式基：{鸡蛋面包薯片：3}，

{鸡蛋薯片：1}，{面包：1}，{面包薯片：1}；

形成单路径{鸡蛋：4，面包：5，薯片：5}，

列举得到牛奶的频繁项集：

{{鸡蛋，牛奶：4}，{面包，牛奶：5}，{薯片，牛奶：5}，{鸡蛋，面包，牛奶：4}，{鸡蛋，薯片，牛奶：4}，{面包，薯片，牛奶：5}，{鸡蛋，面包，薯片，牛奶：4}}。

<4>啤酒的条件模式基：{鸡蛋面包薯片牛奶：1}，{鸡蛋面包：1}，

{鸡蛋薯片啤酒：1}，{面包牛奶啤酒：1}，都不大于4，所以啤酒没有频繁项集。

4、

头歌数据挖掘答案数据挖掘题_频繁项集_23

解：（a）有效性：Apriori需多次扫描数据库而FP只需要建立FP树的时候扫描一次；在Apriori算法中由于联接，产生候选比较慢，而FP-growth不产生任何候选；

头歌数据挖掘答案数据挖掘题_分类算法_24

（b）

头歌数据挖掘答案数据挖掘题_频繁项集_25

第八章：

1、基尼指数练习：

头歌数据挖掘答案数据挖掘题_数据挖掘_26

头歌数据挖掘答案数据挖掘题_数据挖掘_27

解：

头歌数据挖掘答案数据挖掘题_数据分析_28

8.5

头歌数据挖掘答案数据挖掘题_频繁项集_29

解：面对这种大型数据集构造决策树时，可以使用雨林算法；此算法内存中需要存储的是以avc_set为根的树，计算avc_set的根节点，扫描一次数据库，构建avc_list的50个属性，并令每个属性有100个不同的值，即需要的总大小是100 50|C|（|C|表示每个值占据的空间大小），对于一个合理的|C|能够适应512M的大小；使用这种每个节点存储一部分avc-集的方法，我们可以适应内存的水平。

8.6

头歌数据挖掘答案数据挖掘题_头歌数据挖掘答案_30