Menu

  • 基本概念
  • 规则度量:支持度和置信度
  • 频繁项集、闭项集基本概念
  • 由事务数据库挖掘单维布尔关联规则
  • Apriori算法
  • 原理
  • 例子
  • 挖掘频繁项集的模式增长方法
  • 挖掘闭模式和极大模式


基本概念

商务智能与数据挖掘 商务智能与数据挖掘pdf_商务智能

规则度量:支持度和置信度

商务智能与数据挖掘 商务智能与数据挖掘pdf_商务智能_02

频繁项集、闭项集基本概念

  • 项的集合称为项集
  • K项集:包含k个项的集合
  • {牛奶,面包,黄油}是个3项集 项集的出现频度是指包含项集的事务数
  • 如果项集的出现频度大于(最小支持度×D中的事务总 数),则称该项集为频繁项集
  • 项集X在数据集D中是闭的,即不存在真超项集Y使得Y 与X在D中具有相同的支持度计数,则项集X是数据集D 中的闭项集
  • 闭频繁项集
  • 极大频繁项集:该模式的任何真超模式都是非频繁的

由事务数据库挖掘单维布尔关联规则

商务智能与数据挖掘 商务智能与数据挖掘pdf_关联分析_03

Apriori算法

原理

如果某个项集是频繁项集,那么它所有的子集也是频繁的。即如果 {0,1} 是频繁的,那么 {0}, {1} 也一定是频繁的

例子

商务智能与数据挖掘 商务智能与数据挖掘pdf_Apriori_04

挖掘频繁项集的模式增长方法

  • 频繁增长模式适应了分治策略,如下所示:
  • 将代表频繁项集的数据库压缩到一颗频繁模式树(FPtree),该树仍保留项集的关联信息。
  • 把这种压缩后的数据库分解成一组条件数据库, 每个数 据库关联一个频繁项或“模式段”并且分别挖掘每个条件 数据库


商务智能与数据挖掘 商务智能与数据挖掘pdf_数据挖掘_05

挖掘闭模式和极大模式

  • 挖掘方法:
  • 挖掘频繁项集的完全集,再删除具有相同支持度且是 某一集合子集的频繁集
  • 直接搜索闭频繁项集,但要求一旦识别闭项集就尽快 对搜索空间剪枝,剪枝策略如下:
    – 项合并
    – 子项集剪枝
    – 项跳过