1. 介绍

FP树构建 python fp-tree算法应用举例_数据库

  打开你的搜索引擎,输入一个单词或一部分,例如“我”,搜索引擎可能会去统计和“我”一块出现得多的词,然后返回给你。其实就是去找频繁项集,而且需要相当地高效,像Apriori那样的速度肯定是不行的了。 
  本文要介绍的是FP-growth算法,它被用于挖掘频繁项集,它把数据集存储为一个叫FP树的数据结构里,这样可以更高效地发现频繁项集或频繁项对。相比于Apriori对每个潜在的频繁项集都扫描数据集判定是否满足支持度,FP-growth算法只需要遍历两次数据库,因此它在大数据集上的速度显著优于Apriori。 对于搜索引擎公司而言,他们需要通过查看互联网上的用词来找出经常在一块出现的词对,因此这些公司就需要能够高效的发现频繁项集的方法,今天要学习的FP-growth算法就可以完成此重任。

2. FP-tree算法                    

  FP-tree算法,又称为FP-growth算法,它是基于Apriori原理的,通过将数据集存储在FP(Frequent Pattern)树上发现频繁项集,但不能发现数据之间的关联规则。FP-growth算法只需要对数据库进行两次扫描,而Apriori算法在求每个潜在的频繁项集时都需要扫描一次数据集,所以说该算法是高效的。其中算法发现频繁项集的过程是:

  1. 构建FP树;
  2. 从FP树中挖掘频繁项集。

2.1 构建FP树

  FP表示的是频繁模式,其通过链接来连接相似元素,被连起来的元素可以看成是一个链表。将事务数据表中的各个事务对应的数据项按照支持度排序后,把每个事务中的数据项按降序依次插入到一棵以 NULL为根节点的树中,同时在每个结点处记录该结点出现的支持度。

FP-growth的一般流程如下: 

  1. 第一次扫描数据集,得到频繁项为1的项目集,定义最小支持度(项目出现最少次数),删除那些小于最小支持度的项目,然后将原始数据集中的条目按项目集中降序进行排列。 
  2. 第二次扫描,创建项头表(从上往下降序),以及FP树。 
  3. 对于每个项目(可以按照从下往上的顺序)找到其条件模式基(CPB,conditional patten base),递归调用树结构,删除小于最小支持度的项。如果最终呈现单一路径的树结构,则直接列举所有组合;非单一路径的则继续调用树结构,直到形成单一路径即可。 

  假设存在的一个事务数据样例为,构建FP树的步骤如下: 

  事务ID

    事务中的元素

  001

  r,z,h,j,p

  002

 z,y,x,w,v,u,t,s

  003

    z

  004

  r,x,n,o,s

  005

 y,r,x,z,q,t,p

  006

 y,z,x,e,q,s,t,m

  结合Apriori算法中最小支持度的阈值,在此将最小支持度定义为3,结合上表中的数据,那些不满足最小支持度要求的将不会出现在最后的FP树中,据此构建FP树,并采用一个头指针表来指向给定类型的第一个实例,快速访问FP树中的所有元素,构建的带头指针的FP树如下:

FP树构建 python fp-tree算法应用举例_数据库_02

结合绘制的带头指针表的FP树,对表中数据进行过滤,排序如下:

事务ID

事务中的元素

过滤和重排序后的事务

001

r,z,h,j,p

z,r

002

z,y,x,w,v,u,t,s

z,x,y,s,t

003

z

z

004

r,x,n,o,s

x,s,r

005

y,r,x,z,q,t,p

z,x,y,r,t

006

y,z,x,e,q,s,t,m

z,x,y,s,t

在对数据项过滤排序了之后,就可以构建FP树了,从NULL开始,向其中不断添加过滤排序后的频繁项集。过程可表示为:

FP树构建 python fp-tree算法应用举例_数据库_03

2.2 挖掘频繁项集

如何根据FP树挖掘频繁项集的内容可以参考FP-growth算法理解和实现,这里暂不做介绍。

对于每一个元素项,获取其对应的条件模式基(conditional pattern base)

条件模式基是以所查找元素项为结尾的路径集合。每一条路径其实都是一条前缀路径。 

2.3 实例

已知数据库为下图的表,Support=2,用FP-tree算法找出频繁项集。

FP树构建 python fp-tree算法应用举例_数据集_04

1. 将事务数据库各元组按L顺序排序:L =[ I2:7, I1:6,I3:6,I4:2,I5:2 ]

2. 建立FP树

FP树构建 python fp-tree算法应用举例_数据集_05

 

FP树构建 python fp-tree算法应用举例_频繁项集_06

 

FP树构建 python fp-tree算法应用举例_数据库_07