频繁项集计算python 频繁项集的例子

转载

mob64ca13fd9f8e 2023-10-09 22:31:56

文章标签 频繁项集计算python 频繁项集最大频繁集频繁闭项集百度知道 文章分类 Python 后端开发

之前在百度知道回答过这个问题，在这里做一下备份。

所谓频繁项集，就是事例里频繁出现的项的集合，比如事例为每个人的购物清单，项就是买的东西，项集就是指频繁地同时出现的集合。比如人们总是喜欢同时买酒和花生，那么酒和花生这两个项就是一个频繁二项集。

频繁项集里存在着较多的冗余，因此人们又引入了频繁闭项集和最大频繁集的概念。

频繁闭项集：设I为项的集合，T为事例的集合，则定义如下映射：1）对于X属于I（项集），f(x)是T之中包含X的事例集；2）对于Y属于T（事例集），g(Y)是所有Y都包含的项集。可以看到，对于一般的X，g(f(X))可能会大于X，而频繁闭项集满足就是g(f(X))=X的项集X。

举例来说，比如人们总是一起买“花生-啤酒-饼干”三种东西（顺便举个例子），而不会只买其中的两种，那么如果找频繁项集，那么这三种的任意两个的组合以及三者组合都是频繁项集，比如“啤酒-饼干”；但是只有“花生-啤酒-饼干”三者的组合才是频繁闭项集。也就是说，不会存在其它的项总是和频繁闭项集一起出现，否则g(f(X))就会包含那些其它项了。

最大频繁集：如果X是一个频繁项集，而且X的任意一个超集都是非频繁的，则称X是最大频繁项集。
这个应该说是比较明确的，就是这个集合已经不能再扩充了，否则就不是频繁集了。

再举个总的例子：
假如现在频繁阈值是3。有10个事例里都有“花生-啤酒”，而且这10个事例没有其它共同项，那么“花生-啤酒”就是一个频繁闭项集，因为它首先是闭项集（没有总是跟它们同时出现的其它项），然后也满足频繁阈值。在10个事例里其中有5个同时也有“饼干”，因此“花生-啤酒-饼干”也是频繁集，因为“花生-啤酒-饼干”是“花生-啤酒”的超集，所以“花生-啤酒”不是最大频繁集。至于“花生-啤酒-饼干”是不是最大频繁集，那要看有没有它的超集满足频繁阈值，没有的话它就是最大频繁集。

模式的数目：最大频繁集<频繁闭项集<频繁项集，不过最大频繁集丢失了很多信息，比如可能在买“花生-啤酒-饼干”的人群中，还有一部分是买洗发水的，数目也达到了频繁项阈值，那么“花生-啤酒-饼干-洗发水”就是“花生-啤酒-饼干”的一个超集，所以“花生-啤酒-饼干”这个集合的独特性就不会在频繁最大集里体现；而频繁闭项集实际上还保留着频繁项集的信息，可以继续拆分为原来的频繁项集。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。