加法平滑

深度学习中的平滑目标_深度学习中的平滑目标


对OOV分配1/V,所有OOV概率一样

Good-truning 估计 Good-Turing估计是许多数据平滑技术的核心。它的基本思想是:将统计参数按出现次数聚类(如果 #(xj ) = #(xj‘), then θ[j] = θ[j’]),出现一次的多少,出现两次的多少,等等,然后用出现次数加一的类来估计当前类。

深度学习中的平滑目标_条件概率_02


对于出现r次的,修正为disc®


OOV,r=0时

Katz平滑 它的思路就是:如果一个n-gram的条件概率为0,则用(n-1)-gram的条件概率取代,如果(n-1)-gram的条件概率依然为0,继续回退,直到1-gram概率,如果1-gram依然为0,就直接忽略掉该词。用式子表示如下:

深度学习中的平滑目标_条件概率_03

Jelinek-Mercer平滑方法
该参数平滑技术的基本思想是利用低元n-gram 模型对高元n-gram 模型进行线性插值。用降元的方法来弥补高元的数据稀疏问题,数据估计有一定的可靠性。但是参数估计较困难。

Witten-Bell平滑方法:被认为是Jelinek-Mercer平滑算法的一种实例。

绝对减值法:类似于Jelinek-Mercer平滑算法,涉及高阶和低阶模型的插值问题,然而这种方法不是采用将高阶最大似然分布乘以因子的方法,而是通过从非零计数中减去一个固定值D的方法来建立高阶分布。

Kneser-Ney平滑 R.Kneser和H.Hey与1995年提出的一种扩展的绝对减值算法,用一种新的方式建立与高阶分布相结合的低阶分布,在前面的算法中,通常用平滑后的低阶最大似然分布作为低阶分布,然而,只有当高阶分布中具有极少数的或没有计数时,低阶分布在组合模型中才是一个重要的因素。

深度学习中的平滑目标_条件概率_04

深度学习中的平滑目标_条件概率_05

Church-Gale平滑方法:将Good-Turing估计与一种方法相结合以 融合低阶与高阶模型的信息。

贝叶斯平滑方法:基本思想是用以平滑分布选出先验分布,然后用先验分布通过某种方式求出最终的平滑分布。

修正的Kneser-Ney平滑方法:修正的Kneser-Ney平滑方法具有如下特点:使用插值方 法而不是后备方法,对于出现次数较低(1次、2次等)的n元语法采用 不同的减值。在S.F.Chen和J.Goodman实现的系统中基于留存(held-out) 数据进行减值估计,而不是基于训练数据。

平滑方法的比较
影响最大的因素是采用修正的后备分布,例如Kneser-Ney平滑方法所采用的后备分布。这可能是Kneser-Ney平滑方法及其各种版本的平滑算法优于其他平滑方法的基本原因。
绝对减值优于线性减值。正如前面指出的,对于较低的计数来说,理想的平均减值上升很快,而对于较大的计数,则变得比较平缓。Good-Turing估计可以用于预测这些平均减值,甚至比绝对减值还好。
从性能上来看,对于较低的非零计数,插值模型大大地优于后备模型,这是因为低阶模型在为较低计数的n元语法确定恰当的减值时提供了有价值的信息。
增加算法的自由参数,并在留存数据上优化这些参数,可以改进算法的性能。