:
(1)从训练数据中采一个训练样本。
(2)从采一个损坏样本。
(3)将作为训练样本来估计自编码器的重构分布 ,其中是编码器 的输出,根据解码函数定义。
通常我们可以简单地对负对数似然进行基于梯度法(如小批量梯度下降)的近似最小化。 只要编码器是确定性的,去噪自编码器就是一个前馈网络,并且可以使用与其他前馈网络完全相同的方式进行训练。
得分估计
得分匹配是最大似然的代替。 它提供了概率分布的一致估计,促使模型在各个数据点上获得与数据分布相同的得分。 在这种情况下,得分是一个特定的梯度场:
DAE的训练准则(条件高斯)能让自编码器学到能估计数据分布得分的向量场
观察上图去噪自编码器被训练为将损坏的数据点映射回原始数据点
我们将训练样本表示为位于低维流形(粗黑线)附近的红叉。
我们用灰色圆圈表示等概率的损坏过程。
灰色箭头演示了如何将一个训练样本转换为经过此损坏过程的样本。
当训练去噪自编码器最小化平方误差的平均值时,重构 估计。
对可能产生的原始点的质心进行估计,所以向量近似指向流形上最近的点。
因此自编码器可以学习由绿色箭头表示的向量场。
该向量场将得分估计为一个乘法因子,即重构误差均方根的平均。
这里我们所讨论的仅限于去噪自编码器如何学习表示一个概率分布。
历史展望
”去噪自编码器”的命名指的不仅仅是学习去噪,而且可以学到一个好的内部表示(作为学习去噪的副效用)。学习到的表示可以被用来预训练更深的无监督网络或监督网络。
与稀疏自编码器、稀疏编码、收缩自编码器等正则化的自编码器类似, DAE的动机是允许学习容量很高的编码器,同时防止在编码器和解码器学习一个无用的恒等函数 。