A Probabilistic Formulation of Unsupervised Text Style Transfer

原创

Facico 2022-12-26 18:12:31 博主文章分类：NLP ©著作权

文章标签 style transfer 自然语言处理 nlp 数据概率模型 文章分类 OpenStack 云计算

©著作权归作者所有：来自51CTO博客作者Facico的原创作品，请联系作者获取转载授权，否则将追究法律责任

A Probabilistic Formulation of Unsupervised Text Style Transfer

无监督的问题转化

设 $A Probabilistic Formulation of Unsupervised Text Style Transfer_nlp$ 是领域 $A Probabilistic Formulation of Unsupervised Text Style Transfer_style transfer_02$ 的数据， $A Probabilistic Formulation of Unsupervised Text Style Transfer_数据_03$ 是领域 $A Probabilistic Formulation of Unsupervised Text Style Transfer_概率模型_04$ 的数据，相同的上标表示平行语句

考虑引入latent sentence将其补成平行语料库，设 $A Probabilistic Formulation of Unsupervised Text Style Transfer_数据_05$ 是 $A Probabilistic Formulation of Unsupervised Text Style Transfer_style transfer_02$ 的latent部分。 $A Probabilistic Formulation of Unsupervised Text Style Transfer_概率模型_07$ 是 $A Probabilistic Formulation of Unsupervised Text Style Transfer_概率模型_04$ 的latent部分。

A Probabilistic Formulation of Unsupervised Text Style Transfer_style transfer_09

现在任务目标就变成从 $A Probabilistic Formulation of Unsupervised Text Style Transfer_自然语言处理_10$ 推测 $A Probabilistic Formulation of Unsupervised Text Style Transfer_概率模型_11$ ，也就是 $A Probabilistic Formulation of Unsupervised Text Style Transfer_style transfer_12$

概率模型

直接学习 $A Probabilistic Formulation of Unsupervised Text Style Transfer_style transfer_12$ 是很困难的，所以改成求联合概率 $A Probabilistic Formulation of Unsupervised Text Style Transfer_概率模型_14$
因为我们的句子都要从latent层来生成，所以有
$A Probabilistic Formulation of Unsupervised Text Style Transfer_概率模型_15$

$A Probabilistic Formulation of Unsupervised Text Style Transfer_自然语言处理_16$ 是 $A Probabilistic Formulation of Unsupervised Text Style Transfer_nlp_17$ 到 $A Probabilistic Formulation of Unsupervised Text Style Transfer_nlp_18$ 和 $A Probabilistic Formulation of Unsupervised Text Style Transfer_nlp_18$ 到 $A Probabilistic Formulation of Unsupervised Text Style Transfer_nlp_17$ 的转换模型
$A Probabilistic Formulation of Unsupervised Text Style Transfer_自然语言处理_21$ 是对应的参数
$A Probabilistic Formulation of Unsupervised Text Style Transfer_概率模型_22$ 和 $A Probabilistic Formulation of Unsupervised Text Style Transfer_自然语言处理_23$ 是先验信息

相对应的对数概率
$A Probabilistic Formulation of Unsupervised Text Style Transfer_概率模型_24$

论文用seq2seq作为上述转化模型

理论上，模型应该对上述概率进行学习，由于较难计算这个概率，我们使用Amortized变分推断得到对数概率下界(ELBO)。

其实这里就是用VAE的那套理论

A Probabilistic Formulation of Unsupervised Text Style Transfer_自然语言处理_25

$A Probabilistic Formulation of Unsupervised Text Style Transfer_数据_26$ 和 $A Probabilistic Formulation of Unsupervised Text Style Transfer_概率模型_27$ 表示对模型真实后验 $A Probabilistic Formulation of Unsupervised Text Style Transfer_数据_28$ 和 $A Probabilistic Formulation of Unsupervised Text Style Transfer_nlp_29$ 的近似

$A Probabilistic Formulation of Unsupervised Text Style Transfer_nlp_30$ 和 $A Probabilistic Formulation of Unsupervised Text Style Transfer_数据_26$ 都是 $A Probabilistic Formulation of Unsupervised Text Style Transfer_style transfer_02$ 向 $A Probabilistic Formulation of Unsupervised Text Style Transfer_概率模型_04$ 的转化，所以参数可以共享

所以有 $A Probabilistic Formulation of Unsupervised Text Style Transfer_数据_34$
同理有 $A Probabilistic Formulation of Unsupervised Text Style Transfer_数据_35$

所以这里只需要训练两个编码器

更进一步

A Probabilistic Formulation of Unsupervised Text Style Transfer_概率模型_36

一些在两个语料间互相转化的问题，可以使用同一个编码器与解码器，然后在中间使用一个对应域的embedding c来指明转化方向

梯度

由于重构项和KL损失项不好求梯度，这里使用Gumbel-softmax的方法来梯度估计，同时使用greedy decode的方式，不记录梯度来重构

自重构

由于在训练刚开始的时候，编码解码器难以有好的结果，所以模型加入自重构损失
$A Probabilistic Formulation of Unsupervised Text Style Transfer_概率模型_37$

$A Probabilistic Formulation of Unsupervised Text Style Transfer_数据_38$ 是x和y的领域向量
$A Probabilistic Formulation of Unsupervised Text Style Transfer_nlp_39$ 是衰减参数，在k个epoch从1减到0，k在论文中是3