FP树构建 python fp-tree算法应用举例

转载

数据小探 2024-08-11 12:44:14

文章标签 FP树构建 python 频繁项集数据集数据库 文章分类 Python 后端开发

1. 介绍

FP树构建 python fp-tree算法应用举例_数据库

打开你的搜索引擎，输入一个单词或一部分，例如“我”，搜索引擎可能会去统计和“我”一块出现得多的词，然后返回给你。其实就是去找频繁项集，而且需要相当地高效，像Apriori那样的速度肯定是不行的了。
本文要介绍的是FP-growth算法，它被用于挖掘频繁项集，它把数据集存储为一个叫FP树的数据结构里，这样可以更高效地发现频繁项集或频繁项对。相比于Apriori对每个潜在的频繁项集都扫描数据集判定是否满足支持度，FP-growth算法只需要遍历两次数据库，因此它在大数据集上的速度显著优于Apriori。对于搜索引擎公司而言，他们需要通过查看互联网上的用词来找出经常在一块出现的词对，因此这些公司就需要能够高效的发现频繁项集的方法，今天要学习的FP-growth算法就可以完成此重任。

2. FP-tree算法

　　FP-tree算法，又称为FP-growth算法，它是基于Apriori原理的，通过将数据集存储在FP（Frequent Pattern)树上发现频繁项集，但不能发现数据之间的关联规则。FP-growth算法只需要对数据库进行两次扫描，而Apriori算法在求每个潜在的频繁项集时都需要扫描一次数据集，所以说该算法是高效的。其中算法发现频繁项集的过程是：

构建FP树；
从FP树中挖掘频繁项集。

2.1 构建FP树

　　FP表示的是频繁模式，其通过链接来连接相似元素，被连起来的元素可以看成是一个链表。将事务数据表中的各个事务对应的数据项按照支持度排序后，把每个事务中的数据项按降序依次插入到一棵以 NULL为根节点的树中，同时在每个结点处记录该结点出现的支持度。

FP-growth的一般流程如下：

第一次扫描数据集，得到频繁项为1的项目集，定义最小支持度（项目出现最少次数），删除那些小于最小支持度的项目，然后将原始数据集中的条目按项目集中降序进行排列。
第二次扫描，创建项头表（从上往下降序），以及FP树。
对于每个项目（可以按照从下往上的顺序）找到其条件模式基（CPB，conditional patten base）,递归调用树结构，删除小于最小支持度的项。如果最终呈现单一路径的树结构，则直接列举所有组合；非单一路径的则继续调用树结构，直到形成单一路径即可。

　　假设存在的一个事务数据样例为,构建FP树的步骤如下：

事务ID	事务中的元素
001	r,z,h,j,p
002	z,y,x,w,v,u,t,s
003	z
004	r,x,n,o,s
005	y,r,x,z,q,t,p
006	y,z,x,e,q,s,t,m

　　结合Apriori算法中最小支持度的阈值，在此将最小支持度定义为3，结合上表中的数据，那些不满足最小支持度要求的将不会出现在最后的FP树中，据此构建FP树，并采用一个头指针表来指向给定类型的第一个实例，快速访问FP树中的所有元素，构建的带头指针的FP树如下:

FP树构建 python fp-tree算法应用举例_数据库_02

结合绘制的带头指针表的FP树，对表中数据进行过滤，排序如下：

事务ID	事务中的元素	过滤和重排序后的事务
001	r,z,h,j,p	z,r
002	z,y,x,w,v,u,t,s	z,x,y,s,t
003	z	z
004	r,x,n,o,s	x,s,r
005	y,r,x,z,q,t,p	z,x,y,r,t
006	y,z,x,e,q,s,t,m	z,x,y,s,t