第三章:

1、

头歌数据挖掘答案 数据挖掘题_数据分析


解:用皮尔逊相关系数判断X,Y是否相关,计算如下:

头歌数据挖掘答案 数据挖掘题_数据挖掘_02


3.3

头歌数据挖掘答案 数据挖掘题_分类算法_03


解:(a)将数据划分为深度为3的等频的箱:

Bin1:13,15,16 Bin2:16,19,20 Bin3:20,21,22

Bin4:22,25,25 Bin5:25,25,30 Bin6:33,33,35

Bin7:35,35,35 Bin8:36,40,45 Bin9:46,52,70

用箱均值光滑:

Bin1:44/3,44/3,44/3 Bin2:55/3,55/3,55/3

Bin3:21,21,21 Bin4:24,24,24

Bin5:80/3,80/3,80/3 Bin6:101/3,101/3,101/3

Bin7:35,35,35 Bin8:121/3,121/3,121/3

Bin9:56,56,56

这种技术对给定数据的效果:将属性值离散化,可以递归地用于结果划分,产生概念分层;

(b)通过聚类检测离群点;

©回归、聚类。

3.6

头歌数据挖掘答案 数据挖掘题_数据分析_04

头歌数据挖掘答案 数据挖掘题_分类算法_05


解:(a)由已知得:数据组中最小值与最大值分别为200和1000,把数据组映射到区间[0,1]中,根据最小-最大规范化,

头歌数据挖掘答案 数据挖掘题_数据挖掘_06


200:(200-200)(1-0)/(1000-200)+0=0
300:(300-200)
(1-0)/(1000-200)+0=0.125

400:(400-200)(1-0)/(1000-200)+0=0.25
600:(600-200)
(1-0)/(1000-200)+0=0.5

1000:(1000-200)*(1-0)/(1000-200)+0=1

(b)z分数规范化:

头歌数据挖掘答案 数据挖掘题_数据挖掘_07


数据组的均值为:(200+300+400+600+1000)/5=500;

标准差为:282.84

头歌数据挖掘答案 数据挖掘题_头歌数据挖掘答案_08


200:(200-500)/282.84=-1.06

300:(300-500)/282.84=-0.71

400:(400-500)/282.84=-0.35

600:(600-500)/282.84=0.35

1000:(1000-500)/282.84=1.77

©用均值绝对偏差的z分数规范化:

头歌数据挖掘答案 数据挖掘题_频繁项集_09


SA=(|200-500|+|300-500|+|400-500|+|600-500|+|1000-500|)/5=240

200:(200-500)/240=-1.25

300:(300-500)/240=-0.83

400:(400-500)/240=-0.42

600:(600-500)/240=0.42

1000:(1000-500)/240=2.08

(d)小数定标规范化:

数据组的最大绝对值为1000,用10000(即j=4),

头歌数据挖掘答案 数据挖掘题_数据挖掘_10


200:0.02;300:0.03;400:0.04;600:0.06;1000:0.1

3.9

头歌数据挖掘答案 数据挖掘题_数据分析_11


解:(a)等频划分:N/3=4

Bin1:5,10,11,13 Bin2:15,35,50,55

Bin3:72,92,204,215

(b)等宽划分:(215-5)/3=70

Bin1:5,10,11,13,15,35,50,55,72

Bin2:92

Bin3:204,215

©聚类:

Bin1:5,10,11,13,15 Bin2:35,50,55,72,92

Bin3:204,215

3.11

头歌数据挖掘答案 数据挖掘题_频繁项集_12


解:(a)

头歌数据挖掘答案 数据挖掘题_数据分析_13


(b) SRSWOR:无放回简单随机抽取,从数据组中抽取s个样本,每次收取一个样本且不放回;

SRSWR:有放回简单随机抽取,与SRSWOR的区别在于抽取出的样本会再放回;

头歌数据挖掘答案 数据挖掘题_头歌数据挖掘答案_14


簇抽样:如果数据组中的元组被分组放到M个互不相交的簇中, 则可以得到s(s<M)个簇的简单随机抽样;

头歌数据挖掘答案 数据挖掘题_分类算法_15


分层抽样:如果数据组被划分成互不相交的部分,则对每一层进行简单随机抽样就可以得到数据组的分层抽样;

头歌数据挖掘答案 数据挖掘题_分类算法_16


第六章:

头歌数据挖掘答案 数据挖掘题_频繁项集_17


解:连接产生的C3={{a,b,c},{a,b,d},{a,c,d},{b,c,d}};

剪枝后产生的C3={{a,b,c},{a,b,d}。

头歌数据挖掘答案 数据挖掘题_数据挖掘_18


解:

头歌数据挖掘答案 数据挖掘题_数据挖掘_19


头歌数据挖掘答案 数据挖掘题_数据挖掘_20


解:(1)扫描数据集,对每个物品进行计数:

牛奶:6,鸡蛋:7,面包:7,薯片:7,

爆米花:2,啤酒:4,黄油:2;

(2)与最小支持度4相比,并按降序重排物品集:

鸡蛋:7,面包:7,薯片:7,牛奶:6,啤酒:4;

(3)根据项目出现的次数重新调整物品清单:

头歌数据挖掘答案 数据挖掘题_分类算法_21


(4)构建FP树:

头歌数据挖掘答案 数据挖掘题_头歌数据挖掘答案_22


(5)挖掘频繁项集:

<1>面包的条件模式基:{鸡蛋:5},

频繁项集:{鸡蛋,面包:5}。

<2>薯片的条件模式基:{鸡蛋 面包:4},{鸡蛋:2},{面包:1};

形成单路径{鸡蛋:6,面包:5};列举得薯片的频繁项集:

{{鸡蛋,薯片:6},{面包,薯片:5},{鸡蛋,面包,薯片:5}}。

<3>牛奶的条件模式基:{鸡蛋 面包 薯片:3},

{鸡蛋 薯片:1},{面包:1},{面包 薯片:1};

形成单路径{鸡蛋:4,面包:5,薯片:5},

列举得到牛奶的频繁项集:

{{鸡蛋,牛奶:4},{面包,牛奶:5},{薯片,牛奶:5},{鸡蛋,面包,牛奶:4},{鸡蛋,薯片,牛奶:4},{面包,薯片,牛奶:5},{鸡蛋,面包,薯片,牛奶:4}}。

<4>啤酒的条件模式基:{鸡蛋 面包 薯片 牛奶:1},{鸡蛋 面包:1},

{鸡蛋 薯片 啤酒:1},{面包 牛奶 啤酒:1},都不大于4,所以啤酒没有频繁项集。

4、

头歌数据挖掘答案 数据挖掘题_频繁项集_23


解:(a)有效性:Apriori需多次扫描数据库而FP只需要建立FP树的时候扫描一次;在Apriori算法中由于联接,产生候选比较慢,而FP-growth不产生任何候选;

头歌数据挖掘答案 数据挖掘题_分类算法_24


(b)

头歌数据挖掘答案 数据挖掘题_频繁项集_25


第八章:

1、基尼指数练习:

头歌数据挖掘答案 数据挖掘题_数据挖掘_26


头歌数据挖掘答案 数据挖掘题_数据挖掘_27


解:

头歌数据挖掘答案 数据挖掘题_数据分析_28

8.5

头歌数据挖掘答案 数据挖掘题_频繁项集_29


解:面对这种大型数据集构造决策树时,可以使用雨林算法;此算法内存中需要存储的是以avc_set为根的树,计算avc_set的根节点,扫描一次数据库,构建avc_list的50个属性,并令每个属性有100个不同的值,即需要的总大小是100 50|C|(|C|表示每个值占据的空间大小),对于一个合理的|C|能够适应512M的大小;使用这种每个节点存储一部分avc-集的方法,我们可以适应内存的水平。

8.6

头歌数据挖掘答案 数据挖掘题_头歌数据挖掘答案_30


解:朴素贝叶斯被成为“朴素”是因为它假设条件独立分布,这个假设可以用来减少计算代价,因此称为“朴素”;其主要思想是通过后概率的贝叶斯定理使用P(X|C_i)P(C_i)得到最大值来对数据进行分类的。

8.7

头歌数据挖掘答案 数据挖掘题_头歌数据挖掘答案_31


头歌数据挖掘答案 数据挖掘题_频繁项集_32


解:

头歌数据挖掘答案 数据挖掘题_分类算法_33


6、

头歌数据挖掘答案 数据挖掘题_头歌数据挖掘答案_34


解:

头歌数据挖掘答案 数据挖掘题_频繁项集_35