深度学习中的平滑目标

转载

mob6454cc634aa4 2024-07-15 08:15:50

文章标签 深度学习中的平滑目标数据条件概率插值 文章分类 深度学习人工智能

加法平滑

对OOV分配1/V，所有OOV概率一样
Good-truning 估计 Good-Turing估计是许多数据平滑技术的核心。它的基本思想是：将统计参数按出现次数聚类（如果 #(xj ) = #(xj‘), then θ[j] = θ[j’]），出现一次的多少，出现两次的多少，等等，然后用出现次数加一的类来估计当前类。

对于出现r次的，修正为disc®

OOV，r=0时
Katz平滑它的思路就是：如果一个n-gram的条件概率为0，则用(n-1)-gram的条件概率取代，如果(n-1)-gram的条件概率依然为0，继续回退，直到1-gram概率，如果1-gram依然为0，就直接忽略掉该词。用式子表示如下：
Jelinek-Mercer平滑方法
该参数平滑技术的基本思想是利用低元n-gram 模型对高元n-gram 模型进行线性插值。用降元的方法来弥补高元的数据稀疏问题，数据估计有一定的可靠性。但是参数估计较困难。
Witten-Bell平滑方法：被认为是Jelinek-Mercer平滑算法的一种实例。
绝对减值法：类似于Jelinek-Mercer平滑算法，涉及高阶和低阶模型的插值问题，然而这种方法不是采用将高阶最大似然分布乘以因子的方法，而是通过从非零计数中减去一个固定值D的方法来建立高阶分布。
Kneser-Ney平滑 R.Kneser和H.Hey与1995年提出的一种扩展的绝对减值算法，用一种新的方式建立与高阶分布相结合的低阶分布，在前面的算法中，通常用平滑后的低阶最大似然分布作为低阶分布，然而，只有当高阶分布中具有极少数的或没有计数时，低阶分布在组合模型中才是一个重要的因素。
Church-Gale平滑方法：将Good-Turing估计与一种方法相结合以融合低阶与高阶模型的信息。
贝叶斯平滑方法：基本思想是用以平滑分布选出先验分布，然后用先验分布通过某种方式求出最终的平滑分布。
修正的Kneser-Ney平滑方法：修正的Kneser-Ney平滑方法具有如下特点：使用插值方法而不是后备方法，对于出现次数较低（1次、2次等）的n元语法采用不同的减值。在S.F.Chen和J.Goodman实现的系统中基于留存（held-out）数据进行减值估计，而不是基于训练数据。
平滑方法的比较
影响最大的因素是采用修正的后备分布，例如Kneser-Ney平滑方法所采用的后备分布。这可能是Kneser-Ney平滑方法及其各种版本的平滑算法优于其他平滑方法的基本原因。
绝对减值优于线性减值。正如前面指出的，对于较低的计数来说，理想的平均减值上升很快，而对于较大的计数，则变得比较平缓。Good-Turing估计可以用于预测这些平均减值，甚至比绝对减值还好。
从性能上来看，对于较低的非零计数，插值模型大大地优于后备模型，这是因为低阶模型在为较低计数的n元语法确定恰当的减值时提供了有价值的信息。
增加算法的自由参数，并在留存数据上优化这些参数，可以改进算法的性能。