相关性分析是我们做数据分析时最常用的一种方法。我们在对业务进行分析时,都会思考哪几个环节时相互影响的,通过层层推理,找到工作中的关键问题,从而改进业务,提高工作效率。业务环节相互影响,在数据上的体现就是具有相关性。
我们按照数据的类型来说下,在做数据分析时会碰到哪些相关性分析。
首先,是连续型变量(数值)之间的相关性,这也是最常碰到的。我们会用相关系数来分析,最常用的当然是皮尔逊(Pearson)相关系数,取值-1到1之间,绝对值越接近于1表示相关性越强,正负表示正相关和负相关。另外还有Spearman相关系数和Kendall相关系数,应用的条件不同,在此不深入介绍了。实际上我们一般分析都是线性相关性,连续型变量的相关性除了用相关系数来分析外,还可以用散点图来分析。
如果存在线性相关性,在散点图上会趋近一条直线。
另外,就是连续型变量和分类型(字符型)变量之间的相关性了,这就计算不了相关系数了,在这里可以用方差分析来判断他们之间的相关性,方差分析实际上在检验几组样本的均值是否相等,就像做对照实验一样,把连续型变量按照分类型变量的取值进行分组,再比较每组的均值是否相等,相等说明分组对连续型变量的取值没有影响,说明他们之间没有相关性,反之,他们是有相关性的。
最后,就是分类型变量之间的相关性,可以使用列联表来分析,进行卡方检验,可以得到是否相关的结论。
大致说了相关性分析之后,我们再来看有监督学习。有监督学习是机器学习里的概念,是指从有标记的训练数据中推导出预测函数,具体来说就分类和回归问题。其实,我们也可以从相关性分析的角度来理解有监督学习,这里的有标记的数据,实际上就是我们要分析的数据字段,相关性分析时我们往往只是在分析两个字段,1对1 的,而有监督学习,我们要分析的是多个字段了,是多对1了,分析多个字段综合起来与一个字段的相关性,这个1就是训练数据中的标记字段,如果这个标记字段是分类型的,就是分类问题,如果这个标记字段是连续型的,就是回归问题,可以说有监督学习的本质还是在做相关性分析,只是更加复杂了,不是一个相关系数能描述的规律了,往往我们得到的复杂的预测函数。这个函数描述了标记字段和多个影响因素之间的相关性,例如最好理解的2种模型:性回归方程和决策树。
在大数据时代,我们收集到的数据越来越多,我们分析的手段也要越来越深入了,从简单的数据可视化展现,慢慢的要过渡到更深层次的数据规律探索了,相关性分析是个很好的起点。更多干货,下次再分享哦。