#2018-03-23 10:48:40 March Friday the 12 week, the 082 day SZ SSMR

【Python数据挖掘课程笔记】八.关联规则挖掘及Apriori实现购物推荐 
  1.关联规则挖掘概念及实现过程;
        2.Apriori算法挖掘频繁项集;
        3.Python实现关联规则挖掘及置信度、支持度计算。


一. 关联规则挖掘概念及实现过程
 1.关联规则
        关联规则(Association Rules)是反映一个事物与其他事物之间的相互依存性和关联性,如果两个或多个事物之间存在一定的关联关系,那么,其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。
典型案例:美国沃尔玛超市尿布和啤酒的故事
2.常见案例
3.置信度与支持度
度量一个规则是否够好?有两个量,置信度(Confidence)和支持度(Support),
 (3) 支持度
        支持度(Support)计算在所有的交易集中,既有A又有B的概率
 (4) 置信度
        置信度(confidence)表示了这条规则有多大程度上值得可信
 (5) 最小支持度与频繁集
        发现关联规则要求项集必须满足的最小支持阈值,称为项集的最小支持度(Minimum Support),记为supmin。支持度大于或等于supmin的项集称为频繁项集,简称频繁集,反之则称为非频繁集。通常k-项集如果满足supmin,称为k-频繁集,记作Lk。关联规则的最小置信度(Minimum Confidence)记为confmin,它表示关联规则需要满足的最低可靠性。
  (6) 关联规则

 (7) 强关联规则
        如果规则R:X=>Y 满足 support(X=>Y) >= supmin 且 confidence(X=>Y)>=confmin,称关联规则X=>Y为强关联规则,否则称关联规则X=>Y为弱关联规则。
二. Apriori算法挖掘频繁项集
Apriori算法将发现关联规则的过程分为两个步骤:
        1.通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集;
        2.利用频繁项集构造出满足用户最小置信度的规则。
补充频繁项集相关知识:
        K-项集:指包含K个项的项集;
        项集的出现频率:指包含项集的事务数,简称为项集的频率、支持度计数或计数;
        频繁项集:如果项集的出现频率大于或等于最小支持度计数阈值,则称它为频繁项集,其中频繁K-项集的集合通常记作Lk。



三. 举例:频繁项集产生强关联规则



四. Python实现关联规则挖掘及置信度、支持度计算