所谓列联表分析,就是分析特定对象的两个,或者多个不同特征的分类方法之间是否存在关联关系。以顾客这个对象为例子,它可以按性别分类为男女,也可以按单次消费金额分类为高,中,底几个档次,通过列联表的相关分析方法将能够获知顾客的性别与单次消费金额档次是否存在关联,它得到的是简单的结论,例如顾客性别与消费档次存在关联,或者顾客性别与消费档次互相独立。列联表分析只能作为一种初步的知识检验工具使用,它并不具备指导具体决策的足够信息,例如通过”顾客性别与消费档次存在关联“这个结论可以考虑为不同性别的顾客提供不同的商品定位,但究竟应该如何去指定商品定位却无从判断。


列联表分析的是对象的分类方法,也就是所谓的定性数据,通常通过卡方检验的方法进行列联表分析,它分析的是各个分类方法中的频度数据。


接下来看所谓的Logistic分析,Logistic分析中必须包含一个非A即B的二分选择分类,它可以计算出对象的其它分类方法或者特征值落在A或者B中的概率。再以顾客为例子,统计顾客进店消费,以及进店不消费的二分选择分类,再统计顾客的年龄数据,那么通过Logistic分析将可以计算出每个年龄的顾客进店消费的概率。相比列联表分析来说,Logistic分析得到的结果会更具有决策指导意义,通过不同年龄段的顾客消费概率大小,可以选择具有针对性的差异化服务。


通常情况下统计用户年龄数据并不会十分精确,实际的调查中更多会使用年龄段进行划分,当针对年龄段进行数值编码后,依旧是能够使用Logistic分析的,它将能够得到各个年龄段的消费概率回归函数。


Logistic分析的既可以针对对象的分类方法,又可以针对对象的特征值进行分析,即是它的回归函数自变量可以是定性数据,也可以是定量数据,通过Logistic回归方法进行相应概率的计算,它分析的也是各个分类方法的频度数据。Logistic分析中必须包含一个二分的分类方法,其它方面的条件与列联表分析一致,所以可以认为Logistic分析能够对列联表分析对象的一个子集进行分析。


这里提出两个问题后续思考:

1,是否必须通过列联表分析得到两个分类方法存在关联关系的情况下,才能很对这样的分类方法进行Logistic分析呢?

2,Logistic分析能够得到一些概率值,而决策树是一种基于概率选择策略的决策方式,这二者是否存在可以配合使用的可能?