相关性分析 bp神经网络相关性分析算法

转载

mob64ca14040d22 2023-12-31 22:30:34

相关分析（Analysis of Correlation）是网站分析中经常使用的分析方法之一。通过对不同特征或数据间的关系进行分析，发现业务运营中的关键影响及驱动因素。并对业务的发展进行预测。本篇文章将介绍5种常用的分析方法。在开始介绍相关分析之前，需要特别说明的是相关关系不等于因果关系。

相关性分析 bp神经网络相关性分析算法_相关分析

相关性分析 bp神经网络相关性分析算法_相关分析_02

相关性分析 bp神经网络相关性分析算法_数据_03

相关性分析 bp神经网络相关性分析算法_相关分析_04

相关性分析 bp神经网络相关性分析算法_相关分析_05

相关性分析 bp神经网络相关性分析算法_标准差_06

相关性分析 bp神经网络相关性分析算法_数据_07

相关性分析 bp神经网络相关性分析算法_相关性分析 bp神经网络_08

相关性分析 bp神经网络相关性分析算法_相关分析_09

相关性分析 bp神经网络相关性分析算法_相关分析_10

协方差只能对两组数据进行相关性分析，当有两组以上数据时就需要使用协方差矩阵。下面是三组数据x，y，z，的协方差矩阵计算公式。

相关性分析 bp神经网络相关性分析算法_标准差_11

相关性分析 bp神经网络相关性分析算法_数据_12

相关性分析 bp神经网络相关性分析算法_数据_13

其中rxy表示样本相关系数，Sxy表示样本协方差，Sx表示X的样本标准差，Sy表示y的样本标准差。下面分别是Sxy协方差和Sx和Sy标准差的计算公式。由于是样本协方差和样本标准差，因此分母使用的是n-1。

Sxy样本协方差计算公式：

相关性分析 bp神经网络相关性分析算法_相关性分析 bp神经网络_14

Sx样本标准差计算公式：

相关性分析 bp神经网络相关性分析算法_相关性分析 bp神经网络_15

Sy样本标准差计算公式：

相关性分析 bp神经网络相关性分析算法_数据_16

下面是计算相关系数的过程，在表中我们分别计算了x，y变量的协方差以及各自的标准差，并求得相关系数值为0.93。0.93大于0说明两个变量间正相关，同时0.93非常接近于1，说明两个变量间高度相关。

相关性分析 bp神经网络相关性分析算法_数据_17

在实际工作中，不需要上面这么复杂的计算过程，在Excel的数据分析模块中选择相关系数功能，设置好x，y变量后可以自动求得相关系数的值。在下面的结果中可以看到，广告曝光量和费用成本的相关系数与我们手动求的结果一致。

相关性分析 bp神经网络相关性分析算法_标准差_18

相关系数的优点是可以通过数字对变量的关系进行度量，并且带有方向性，1表示正相关，-1表示负相关，可以对变量关系的强弱进行度量，越靠近0相关性越弱。缺点是无法利用这种关系对数据进行预测，简单的说就是没有对变量间的关系进行提炼和固化，形成模型。要利用变量间的关系进行预测，需要使用到下一种相关分析方法，回归分析。

4、一元回归及多元回归

第四种相关分析方法是回归分析。回归分析（regression analysis)是确定两组或两组以上变量间关系的统计方法。回归分析按照变量的数量分为一元回归和多元回归。两个变量使用一元回归，两个以上变量使用多元回归。进行回归分析之前有两个准备工作，第一确定变量的数量。第二确定自变量和因变量。我们的数据中只包含广告曝光量和费用成本两个变量，因此使用一元回归。根据经验广告曝光量是随着费用成本的变化而改变的，因此将费用成本设置为自变量x，广告曝光量设置为因变量y。

以下是一元回归方程，其中y表示广告曝光量，x表示费用成本。b0为方程的截距，b1为斜率，同时也表示了两个变量间的关系。我们的目标就是b0和b1的值，知道了这两个值也就知道了变量间的关系。并且可以通过这个关系在已知成本费用的情况下预测广告曝光量。

相关性分析 bp神经网络相关性分析算法_相关分析_19

这是b1的计算公式，我们通过已知的费用成本x和广告曝光量y来计算b1的值。

相关性分析 bp神经网络相关性分析算法_标准差_20

以下是通过最小二乘法计算b1值的具体计算过程和结果，经计算，b1的值为5.84。同时我们也获得了自变量和因变量的均值。通过这三个值可以计算出b0的值。

相关性分析 bp神经网络相关性分析算法_相关性分析 bp神经网络_21

以下是b0的计算公式，在已知b1和自变量与因变量均值的情况下，b0的值很容易计算。

相关性分析 bp神经网络相关性分析算法_相关性分析 bp神经网络_22

将自变量和因变量的均值以及斜率b1代入到公式中，求出一元回归方程截距b0的值为374。这里b1我们保留两位小数，取值5.84。

在实际的工作中不需要进行如此繁琐的计算，Excel可以帮我们自动完成并给出结果。在Excel中使用数据分析中的回归功能，输入自变量和因变量的范围后可以自动获得b0（Intercept）的值362.15和b1的值5.84。这里的b0和之前手动计算获得的值有一些差异，因为前面用于计算的b1值只保留了两位小数。

这里还要单独说明下R Square的值0.87。这个值叫做判定系数，用来度量回归方程的拟合优度。这个值越大，说明回归方程越有意义，自变量对因变量的解释度越高。

相关性分析 bp神经网络相关性分析算法_相关性分析 bp神经网络_23

将截距b0和斜率b1代入到一元回归方程中就获得了自变量与因变量的关系。费用成本每增加1元，广告曝光量会增加379.84次。通过这个关系我们可以根据成本预测广告曝光量数据。也可以根据转化所需的广告曝光量来反推投入的费用成本。获得这个方程还有一个更简单的方法，就是在Excel中对自变量和因变量生成散点图，然后选择添加趋势线，在添加趋势线的菜单中选中显示公式和显示R平方值即可。

相关性分析 bp神经网络相关性分析算法_数据_24

以上介绍的是两个变量的一元回归方法，如果有两个以上的变量使用Excel中的回归分析，选中相应的自变量和因变量范围即可。下面是多元回归方程。

相关性分析 bp神经网络相关性分析算法_数据_25

5、信息熵及互信息

最后一种相关分析方法是信息熵与互信息。前面我们一直在围绕消费成本和广告曝光量两组数据展开分析。实际工作中影响最终效果的因素可能有很多，并且不一定都是数值形式。比如我们站在更高的维度来看之前的数据。广告曝光量只是一个过程指标，最终要分析和关注的是用户是否购买的状态。而影响这个结果的因素也不仅仅是消费成本或其他数值化指标。可能是一些特征值。例如用户所在的城市，用户的性别，年龄区间分布，以及是否第一次到访网站等等。这些都不能通过数字进行度量。

度量这些文本特征值之间相关关系的方法就是互信息。通过这种方法我们可以发现哪一类特征与最终的结果关系密切。下面是我们模拟的一些用户特征和数据。在这些数据中我们忽略之前的消费成本和广告曝光量数据，只关注特征与状态的关系。

相关性分析 bp神经网络相关性分析算法_相关性分析 bp神经网络_26