检验
检验主要用于无参数的统计中,一般用来检验某一特征与类别的相关性,偏离度越大,值越大。
双总体T检验
双总体T检验是检验两个样本平均数与其各自代表的总体的差异是否显著。
斯皮尔曼相关系数
斯皮尔曼相关系数()表明变量(独立变量)与变量(依赖变量)的相关方向。当增加,趋向于增加时,值为正,反之为负;值为0时,表明增加时没有任何趋向性。
斯皮尔曼等级相关系数对数据条件的要求没有皮尔逊相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关系数来进行研究。
皮尔逊相关系数
皮尔逊相关系数(Pearson Correlation coefficient)用于度量变量与之间的相关性(线性相关),其取值范围为。
适用范围:当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适用于:
- 两个变量之间是线性关系,都是连续数据;
- 两个变量的总体是正态分布,或接近正态的单峰分布;
- 两个变量的观测值是成对的,每对观测值之间相互独立。
斯皮尔曼相关系数与皮尔逊相关系数均用于度量变量之间的线性相关性
余弦相似度
余弦相似度是用向量空间中两个向量夹角的余弦值作为衡量两个个体之间差异的大小的度量。余弦值越接近1,表明夹角越接近,两个向量就越相似。
信息熵
信息熵解决了对信息的量化度量问题,变量的不确定性越大,熵值也就越大。
互信息
互信息(Mutual Information)可以看成是一个随机变量中关于另一个随机变量的信息量,是变量间互相依赖性的度量.
距离相关系数
距离相关系数(Distance Correlation)是为了克服相关系数的弱点而生。在一些情况下,即便相关系数为0,也不能判定这两个变量是独立的(有可能是非线性相关的);但如果距离相关系数为0,我们就可以说这两个变量是独立的。