辅助回归怀特检验构造一个服从什么的统计量辅助回归函数

转载

墨舞天涯 2024-07-11 08:31:35

1. 什么是代价函数？

假设有训练样本(x, y)，模型为h，参数为θ。h(θ) = θ^Tx（θ^T表示θ的转置）。

（1）概况来讲，任何能够衡量模型预测出来的值h(θ)与真实值y之间的差异的函数都可以叫做代价函数C(θ)，如果有多个样本，则可以将所有代价函数的取值求均值，记做J(θ)。因此很容易就可以得出以下关于代价函数的性质：

对于每种算法来说，代价函数不是唯一的；
代价函数是参数θ的函数；
总的代价函数J(θ)可以用来评价模型的好坏，代价函数越小说明模型和参数越符合训练样本(x, y)；
J(θ)是一个标量；

（2）当我们确定了模型h，后面做的所有事情就是训练模型的参数θ。那么什么时候模型的训练才能结束呢？这时候也涉及到代价函数，由于代价函数是用来衡量模型好坏的，我们的目标当然是得到最好的模型（也就是最符合训练样本(x, y)的模型）。因此训练参数的过程就是不断改变θ，从而得到更小的J(θ)的过程。理想情况下，当我们取到代价函数J的最小值时，就得到了最优的参数θ，记为：

minθJ(θ)minθJ(θ)

例如，J(θ) = 0，表示我们的模型完美的拟合了观察的数据，没有任何误差。

（3）在优化参数θ的过程中，最常用的方法是梯度下降，这里的梯度就是代价函数J(θ)对θ₁, θ₂, ..., θ_n的偏导数。由于需要求偏导，我们可以得到另一个关于代价函数的性质：

选择代价函数时，最好挑选对参数θ可微的函数（全微分存在，偏导数一定存在）

2. 代价函数的常见形式

经过上面的描述，一个好的代价函数需要满足两个最基本的要求：能够评价模型的准确性，对参数θ可微。

辅助回归怀特检验构造一个服从什么的统计量辅助回归函数_取值

这里之所以多了一层求和项，是因为神经网络的输出一般都不是单一的值，K表示在多分类中的类型数。

辅助回归怀特检验构造一个服从什么的统计量辅助回归函数_代价函数_02

1.1266e-004
1.7413e-003
2.5270e-003
1.8403e-005
9.3626e-003
3.9927e-003
5.5152e-003
4.0147e-004
6.4807e-003
9.9573e-001

一个10维的列向量，预测的结果表示输入的数字是0~9中的某一个的概率，概率最大的就被当做是预测结果。例如上面的预测结果是9。理想情况下的预测结果应该如下（9的概率是1，其他都是0）：

比较预测结果和理想情况下的结果，可以看到这两个向量的对应元素之间都存在差异，共有10组，这里的10就表示代价函数里的K，相当于把每一种类型的差异都累加起来了。

3. 代价函数与参数

代价函数衡量的是模型预测值h(θ) 与标准答案y之间的差异，所以总的代价函数J是h(θ)和y的函数，即J=f(h(θ), y)。又因为y都是训练样本中给定的，h(θ)由θ决定，所以，最终还是模型参数θ的改变导致了J的改变。对于不同的θ，对应不同的预测值h(θ)，也就对应着不同的代价函数J的取值。变化过程为：

θ−−>h(θ)−−>J(θ)θ−−>h(θ)−−>J(θ)

θ引起了h(θ)的改变，进而改变了J(θ)的取值。为了更直观的看到参数对代价函数的影响，举个简单的例子：

有训练样本{(0, 0), (1, 1), (2, 2), (4, 4)}，即4对训练样本，每个样本对中第1个数表示x的值，第2个数表示y的值。这几个点很明显都是y=x这条直线上的点。如下图：

辅助回归怀特检验构造一个服从什么的统计量辅助回归函数_取值_03

图1：不同参数可以拟合出不同的直线

辅助回归怀特检验构造一个服从什么的统计量辅助回归函数_取值_04

View Code

常数项为0，所以可以取θ₀=0，然后取不同的θ₁，可以得到不同的拟合直线。当θ₁=0时，拟合的直线是y=0，即蓝色线段，此时距离样本点最远，代价函数的值（误差）也最大；当θ₁=1时，拟合的直线是y=x，即绿色线段，此时拟合的直线经过每一个样本点，代价函数的值为0。

通过下图可以查看随着θ₁的变化，J(θ)的变化情况：

辅助回归怀特检验构造一个服从什么的统计量辅助回归函数_拟合_05

图2：代价函数J(θ)随参数的变化而变化

辅助回归怀特检验构造一个服从什么的统计量辅助回归函数_取值_04

View Code

从图中可以很直观的看到θ对代价函数的影响，当θ₁=1时，代价函数J(θ)取到最小值。因为线性回归模型的代价函数（均方误差）的性质非常好，因此也可以直接使用代数的方法，求J(θ)的一阶导数为0的点，就可以直接求出最优的θ值（正规方程法）。

4. 代价函数与梯度

梯度下降中的梯度指的是代价函数对各个参数的偏导数，偏导数的方向决定了在学习过程中参数下降的方向，学习率（通常用α表示）决定了每步变化的步长，有了导数和学习率就可以使用梯度下降算法（Gradient Descent Algorithm）更新参数了。下图中展示了只有两个参数的模型运用梯度下降算法的过程。

辅助回归怀特检验构造一个服从什么的统计量辅助回归函数_拟合_07