作者:Daisy Stanton, Yuxuan Wang
时间: 2018 arxiv
在GST之后的一篇文章

abstract

GST学到的是说话特征解相关后的高维表示。本文提出text-predicting GST(TP-GST),可以直接从文本中预测风格,训练和infer的时候都不需要额外的输入。结果也表明我们的方法比两个base model效果更好。

introduction

 当前TTS的难点在于合成natural-sounding speech,它指的是高的音频保真度,发音正常以及好的韵律(包含低级信息:pitch,stress, rhythm,break,etc)。本文的speaking style包含一些更高层次的东西,比如 emotional valence and arousal。很难从文本中获得韵律,style相关的信息,而且同一句话有不同的但都合适的表示方式。有的方法会用额外的韵律注释,但是这样代价很高而且效果并不一定好。
 许多TTS模型可以从训练参数中学到韵律的潜在表示,比如英文疑问句的结束是一个上扬语调。然而合成长的,有表现力的语句仍然很难。【2】和【3】提出用模型学习解相关的speaking style特征,需要从学到的韵律空间采样或者手动选择以生成输出。
因此,语音合成系统需要能够表示宽范围的speaking style,而且在infer的时候不需要注释就可以合成有表现力的句子。本文是GST模型的拓展,可以学习到说话人无关的因素变化。

model

TP-GST是在GST的基础上添加了两条infer时候可能的文本预测路径,使得模型在infer的时候可以预测style embedding的两种方式
(1)TPCM—对训练时候学到的GST进行线性插值,使用仅由文本预测的combination weights
(2)TPSE—忽视style token和combination weight,直接由text feature预测style embedding

因为inference时候的style embedding选择不影响训练,因此text-prediction target可以联合训练。

TPCW-GST

SpeechSynthesisUtterance 如何设置声音_权重


对CBHG的输出进行时间整合,输出一个定长的序列。然后通过fc层预测的combination weights和GST的权重进行CE loss。

疑问:GST是否是提前训好的?

TPSE-GST

SpeechSynthesisUtterance 如何设置声音_权重_02

training:GST作为target,和直接求得的style-embedding prediction做L1 loss。
inference:GST没有作用,仅通过text-feature预测style embedding。