A Probabilistic Formulation of Unsupervised Text Style Transfer
无监督的问题转化
设是领域的数据,是领域的数据,相同的上标表示平行语句
考虑引入latent sentence将其补成平行语料库,设是的latent部分。是的latent部分。
现在任务目标就变成从推测,也就是
概率模型
直接学习是很困难的,所以改成求联合概率
因为我们的句子都要从latent层来生成,所以有
- 是到和到的转换模型
- 是对应的参数
- 和是先验信息
相对应的对数概率
论文用seq2seq作为上述转化模型
理论上,模型应该对上述概率进行学习,由于较难计算这个概率,我们使用Amortized变分推断得到对数概率下界(ELBO)。
其实这里就是用VAE的那套理论
和表示对模型真实后验和的近似
和都是向的转化,所以参数可以共享
- 所以有
- 同理有
所以这里只需要训练两个编码器
更进一步
- 一些在两个语料间互相转化的问题,可以使用同一个编码器与解码器,然后在中间使用一个对应域的embedding c来指明转化方向
梯度
由于重构项和KL损失项不好求梯度,这里使用Gumbel-softmax的方法来梯度估计,同时使用greedy decode的方式,不记录梯度来重构
自重构
- 由于在训练刚开始的时候,编码解码器难以有好的结果,所以模型加入自重构损失
- 是x和y的领域向量
- 是衰减参数,在k个epoch从1减到0,k在论文中是3