之前在百度知道回答过这个问题,在这里做一下备份。

所谓频繁项集,就是事例里频繁出现的项的集合,比如事例为每个人的购物清单,项就是买的东西,项集就是指频繁地同时出现的集合。比如人们总是喜欢同时买酒和花生,那么酒和花生这两个项就是一个频繁二项集。

频繁项集里存在着较多的冗余,因此人们又引入了频繁闭项集最大频繁集的概念。

频繁闭项集:设I为项的集合,T为事例的集合,则定义如下映射:1)对于X属于I(项集),f(x)是T之中包含X的事例集;2)对于Y属于T(事例集),g(Y)是所有Y都包含的项集。可以看到,对于一般的X,g(f(X))可能会大于X,而频繁闭项集满足就是g(f(X))=X的项集X。

举例来说,比如人们总是一起买“花生-啤酒-饼干”三种东西(顺便举个例子),而不会只买其中的两种,那么如果找频繁项集,那么这三种的任意两个的组合以及三者组合都是频繁项集,比如“啤酒-饼干”;但是只有“花生-啤酒-饼干”三者的组合才是频繁闭项集。也就是说,不会存在其它的项总是和频繁闭项集一起出现,否则g(f(X))就会包含那些其它项了。

最大频繁集:如果X是一个频繁项集,而且X的任意一个超集都是非频繁的,则称X是最大频繁项集。
这个应该说是比较明确的,就是这个集合已经不能再扩充了,否则就不是频繁集了。

再举个总的例子
假如现在频繁阈值是3。 有10个事例里都有“花生-啤酒”,而且这10个事例没有其它共同项,那么“花生-啤酒”就是一个频繁闭项集,因为它首先是闭项集(没有总是跟它们同时出现的其它项),然后也满足频繁阈值。在10个事例里其中有5个同时也有“饼干”,因此“花生-啤酒-饼干”也是频繁集,因为“花生-啤酒-饼干”是“花生-啤酒”的超集,所以“花生-啤酒”不是最大频繁集。至于“花生-啤酒-饼干”是不是最大频繁集,那要看有没有它的超集满足频繁阈值,没有的话它就是最大频繁集。

模式的数目:最大频繁集<频繁闭项集<频繁项集,不过最大频繁集丢失了很多信息,比如可能在买“花生-啤酒-饼干”的人群中,还有一部分是买洗发水的,数目也达到了频繁项阈值,那么“花生-啤酒-饼干-洗发水”就是“花生-啤酒-饼干”的一个超集,所以“花生-啤酒-饼干”这个集合的独特性就不会在频繁最大集里体现;而频繁闭项集实际上还保留着频繁项集的信息,可以继续拆分为原来的频繁项集。