数据挖掘关联规则实战数据挖掘关联规则分析

转载

mob64ca13fd9f8e 2024-01-11 14:26:40

文章标签 数据挖掘关联规则实战关联规则频繁项集数据库 文章分类 数据挖掘人工智能

关联规则挖掘是大数据分析与挖掘的基础，通过在大量数据中挖掘数据项之间的强关联关系，可以得到很多有趣而且有价值的信息。

01、基本概念

1、关联规则的挖掘是在大量数据的基础上，通过分析哪些数据项频繁地一起出现，可以得到很多频繁一起出现的数据项集合。

2、根据频繁项集的元素个数X，将频繁项集称为频繁k-项集。

3、项集X的支持度计数 $数据挖掘关联规则实战数据挖掘关联规则分析_数据挖掘关联规则实战$

4、设计集合中事务的总数为N，则项集的支持度定义为 $数据挖掘关联规则实战数据挖掘关联规则分析_频繁项集_02$

5、最小支持度（minsup），当时 $数据挖掘关联规则实战数据挖掘关联规则分析_数据库_03$ ，称项集X为频繁项集（频繁模式）。

6、关联规则是形如 $数据挖掘关联规则实战数据挖掘关联规则分析_关联规则_04$ 的表达式，A和B是不相交的项集。

7、关联规则的支持度 $数据挖掘关联规则实战数据挖掘关联规则分析_关联规则_05$

8、关联规则的置信度 $数据挖掘关联规则实战数据挖掘关联规则分析_数据库_06$

9、同时满足最小支持度minsup和最小置信度minconnf的关联规则，称为强关联规则。

10、关联规则挖掘的一般过程：首先，通过最小支持度，找到所有的频繁项集；然后，根据最小置信度，过滤频繁项集产生的所有关联规则；最后，得到用户可能感兴趣的强关联规则。

02、基于候选项产生——测试策略的频繁模式挖掘算法

1、Apriori算法：为了找出候选k-项集中的频繁项集，需要扫描一遍数据库，时间复杂度为O( $数据挖掘关联规则实战数据挖掘关联规则分析_关联规则_07$ )，主要开销是I/O。

2、一个先验原理：如果一个项集是频繁的，则它的所有子集一定也是频繁的。

3、基于划分的算法：只需要扫描两遍数据库。

4、一个全局的频繁项集至少在一个子数据库P_i中是局部频繁的。

5、二元表示存储：每行存储一个事务，每列对应一个项。

6、垂直数据格式：以项为中心，存储与每一个项集关联的事物ID的列表。

03、不需要产生候选项集的频繁模式挖掘算法

1、FP-Growth（Frequent-Pattern Growth）算法：

（1）从原始的事务数据库T得到FP树。

（2）采取分治策略来挖掘所有的频繁项。将所有的频繁模式划分为不相交的子集合，每个子集合中的频繁项都以某个频繁项为后缀，分别挖掘以某个特定频繁项为后缀结尾的频繁项集，按照Flist从后往前选择后缀项进行挖掘。

04、结合相关性分析的关联规则

1、通过支持度和置信度得到强关联规则的方法，称为支持度-置信度框架。支持度-置信度框架并不知道该关联是正相关还是负相关。

2、在支持度-置信度框架中增加相关性度量指标cor，比如卡方检验。根据判断是否相关。当期望数大于实际观测值时，二者为负相关。

3、提升度：适合二元属性的相关性度量。

4、提升度 $数据挖掘关联规则实战数据挖掘关联规则分析_频繁项集_08$ 。当Lift等于1时，A和B独立；当Lift大于1时，二者是正相关的；当Lift小于1时，二者是负相关的。

05、多层关联规则挖掘算法

1、多层关联规则是一种基于概念分层的关联规则挖掘方法，概念分层是一种映射，它将底层概念映射到高层概念。

2、多层关联规则挖掘过程：先在每一个概念层次上挖掘频繁模式，再挖掘交叉层（更高的层）的频繁模式，进而可以挖掘跨层频繁项集。

06、序列模式挖掘

1、序列是元素e1，e2，…，en构成的有序串，记为<e1,e2,…,en>。

2、序列模式的定义：如果定义序列数据库S是元组<SID,s>的集合，其中SID是序列ID，s是序列。在序列数据库S中，任何支持度大于等于最小支持度阈值min_sup的序列都是频繁项，一个频繁项序列被称为序列模式。

3、

（1）前缀

（2）后缀（前缀相对于序列的后缀）

（3）投影数据库（相同前缀对应的所有后缀集合）

（4）投影数据库中的支持度计数（投影数据库中序列的数量）

07、其他类型关联规则简介

1、量化关联规则。将定量属性的值域离散化到若干区间，将区间映射到连续整数，并保持区间连续。

2、时态关联规则。通过增加事务执行时间的属性来增强事务模式。

3、局部化关联规则。在某些具有相似特点的局部数据集合中支持度很高的关联规则。

4、优化关联规则。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：python中heapq模块 python heapq详解

下一篇：神经网络传感器神经传感技术

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯