这是一个很老但很有意思的故事

我们去沃尔玛超市会发现一个很有趣的现象:货架上啤酒与尿布竟然放在一起售卖,这看似两者毫不相关的东西,为什么会放在一起售卖呢?

原来,在美国,妇女们经常会嘱咐她们的丈夫下班以后给孩子买一点尿布回来,而丈夫在买完尿布后,大都会顺手买回一瓶自己爱喝的啤酒(由此看出美国人爱喝酒)。商家通过对一年多的原始交易记录进行详细的分析,发现了这对神奇的组合。于是就毫不犹豫地将尿布与啤酒摆放在一起售卖,通过它们的关联性,互相促进销售。“啤酒与尿布”的故事一度是营销界的神话。

那么问题来了,商家是如何发现啤酒与尿布两者之间的关联性呢?

这里就用到了数据挖掘的技术,准确的说是数据挖掘中的关联规则挖掘。大致意思就是从大量数据中找出某两个对象(暂且称为X, Y)的关联性。

确定X, Y的关联性,需要用两个指标来衡量:

  • 支持度
  • 置信度

啤酒与尿布的故事_数据库

支持度

在数据库中,同时包含X 和Y的百比,比如s%。

支持度定义了对象在整个数据库中所占的比例。

置信度

在包含X的情况下,包含Y的百分比,比如c%。

置信度定义了发现规则的强度。

关联规则也就可以表示为X=>Y(s%, c%)。

如果不考虑关联规则的支持度和置信度,那么在数据库中存在着无穷多的关联规则。事实上,人们一般只对满足一定的支持度和置信度的关联规则感兴趣。

因为对于支持度和置信度太低的关联规则基本没有什么使用价值。

这里就需要给定两个阈值:

  • 最小支持度:
    它表示了一组物品集在统计意义上需要满足的最低程度。

  • 最小可信度
    它反映了关联规则的最低可靠程度。

**同时满足最小可信度阈值和最小支持度阈值的关联规则被称为强关联规则。**比如啤酒与尿布。

回到啤酒与尿布的故事,在这里我们假设支持度阈值为50%,可信度阈值为70%。那么它就表示:同时购买尿布和啤酒的顾客占全部顾客的50%;在购买尿布的顾客中,有70%的顾客同时会买啤酒。

因此,在商品摆放时。应该将啤酒和尿布放在一起。