pearson和spearman相关系数食用方法:

1.连续数据,正态分布,线性关系,用pearson相关系数是最恰当,当然用spearman相关系数也可以,效率没有pearson相关系数高。

2.上述任一条件不满足,就用spearman相关系数,不能用pearson相关系数。

3.两个定序测量数据之间也用spearman相关系数,不能用pearson相关系数。

pearson使用方法:scipy.stats.pearsonr( x, y )
spearman使用方法:scipy.stats.spearmanr(a, b=None, axis=0, nan_policy=‘propagate’)

但是 上述二者只能观察是否线性相关。而互信息发可以观察非线性相关。

互信息:

Pearson和spearman相关系数存在一个问题是一般情况下只考虑了线性相关性,对非线性的变量相关性效果一般(源于计算协方差时的线性计算)。另一种互信息的方法解决了这种问题,互信息通过计算两个变量之间对整个熵的情况来说明这一问题,互信息指的是两个随机变量之间的关联程度,即给定一个随机变量后,另一个随机变量不确定性的削弱程度,因而互信息取值最小为0,意味着给定一个随机变量对确定一另一个随机变量没有关系,最大取值为随机变量的熵,意味着给定一个随机变量,能完全消除另一个随机变量的不确定性。其公式如下。

原来我对X有些不确定(不确定性为H(X)),告诉我Y后我对X不确定性变为H(X|Y), (建议有数学背景的推倒一下公式)这个不确定性的减少量就是X,Y之间的互信息I(X;Y)=H(X)-H(X|Y)。互信息通过利用信息熵的方式来对特征之间的相关性进行衡量。克服了Pearson计算线性相关性的缺陷。但同时互信息法计算相关性带来的计算量的复杂度。

互信息食用方法:sklearn.metrics.normalized_mutual_info_score

定类变量

变量的一种,根据定性的原则区分总体各个案类别的变量。定类变量的值只能把研究对象分类,也即只能决定研究对象是同类抑或不同类,具有=与≠的数学性质。例如性别区分为男性和女性两类;出生地区分为农村、城市、城镇三类;民族背景区分为汉、蒙、回、苗、壮、藏、维吾尔等;婚姻状况区分为未婚、已婚、分居、离婚、丧偶等类。这些变量的值,只能区别异同,属于定类层次。设计定类变量的各个类别时,要注意两个原则。一个是类与类之间要互相排斥,也即每个研究对象只能归入一类;另一个是所有研究对象均有归属,不可遗漏。例如性别分为男女两类,它既概括了人的性别的全部类别,同时类别之间又具有排斥性。

定序变量

变量的一种,区别同一类别个案中等级次序的变量。定序变量能决定次序,也即变量的值能把研究对象排列高低或大小,具有>与<的数学特质。它是比定类变量层次更高的变量,因此也具有定类变量的特质,即区分类别(=,≠)。例如文化程度可以分为大学、高中、初中、小学、文盲;工厂规模可以分为大、中、小;年龄可以分为老、中、青。这些变量的值,既可以区分异同,也可以区别研究对象的高低或大小。但是,各个定序变量的值之间没有确切的间隔距离。比如大学究竟比高中高出多少,大学与高中之间的距离和初中与小学之间的距离是否相等,通常是没有确切的尺度来测量的。定序变量在各个案上所取的变量值只具有大于或小于的性质,只能排列出它们的顺序,而不能反映出大于或小于的数量或距离。

定距变量

也是变量的一种,区别同一类别个案中等级次序及其距离的变量。它除了包括定序变量的特性外,还能确切测量同一类别各个案高低、大小次序之间的距离,因而具有加与减的数学特质。但是,定距变量没有一个真正的零点。例如,摄氏温度这一定距变量说明,摄氏40度比30度高10度,摄氏30度比20度又高10度,它们之间高出的距离相等,而摄氏零度并不是没有温度。又比如调查数个地区的工人占全部劳动人口的比率时,发现甲、乙,丙、丁、戊五个地区的比率分别是2%、10%、35%、20%、10%。甲区与丙区相差33%,丙区与丁区相差15%。这也是一个定距变量。定距变量各类别之间的距离,只能用加减而不能用乘除或倍数的形式来说明它们之间的关系。

定比变量

也是区别同一类别个案中等级次序及其距离的变量。定比变量除了具有定距变量的特性外,还具有一个真正的零点,因而它具有乘与除(×、÷)的数学特质。例如年龄和收入这两个变量,固然是定距变量,同时又是定比变量,因为其零点是绝对的,可以作乘除的运算。如A月收入是60元,而B是30元,我们可以算出前者是后者的两倍。智力商数这个变量是定距变量,但不是定比变量,因为其0分只具有相对的意义,不是绝对的或固定的,不能说某人的智商是0分就是没有智力;同时,由于其零点是不固定的,即使A是140分而B是70分,我们也不能说前者的智力是后者的两倍,只能说两者相差70分。因为0值是不固定的,如果将其向上移高20分,则A的智商变为120分而B变成50分,两者的相差仍是70分,但A却是B的2.4倍,而不是原先的两倍了。摄氏温度这一变量也如此。定比变量是最高测量层次的变量。