研究背景和动机
随着信息技术的发展,流媒体和多媒体成为信息传递的主要媒介,逐渐应用在我们生活的方方面面。即时的信息传递需求也在日益增加。特别地,在跨国交流和文化传播场景中,为了消除语言沟通障碍,即时语音翻译发挥着重要作用,广泛应用于旅游、教育、医疗、电商、新闻播客等场景。国内很多公司都形成了比较完整的流式语音翻译的解决方案。流式语音翻译是指接收音频流的过程中,能够实时返回源语言音频对应的翻译结果。最被大众所熟知的应用形式是AI同传:在会议同传中,流式语音翻译技术通常会以流式输出的双语字幕的形式展示给观众。
:::
流式语音翻译面临的挑战
流式语音翻译技术(Simultaneous Speech Translation,简称SiST)需要同时权衡翻译质量和翻译延迟。一方面,为了更好的用户体验,SiST追求较低延迟,这就需要尽可能早地开始翻译;另一方面,为了保证翻译的准确性,需要输入更多的上下文,这要求等待尽可能多的音频流。综上,SiST的目标是在满足一定延迟约束的情况下取得最好的翻译准确性。传统的SiST是由流式的语音识别和流式的机器翻译等多个模块串联而成的级联系统实现的。由于级联系统存在错误累积和局部优化等问题,端到端SiST逐渐受到了研究者的关注。
现有经典的端到端SiST工作是基于固定策略的wait-k训练:首先,SiST按固定步长接受音频流,直到K步;然后,SiST迭代地进行音频流的输入和翻译结果的输出,直到音频流结束或者翻译结束。
这篇文章给大家介绍ACL2022上的一篇研究流式语音翻译的工作,“Learning When to Translate for Streaming Speech”,主要是引入了一种单调切分模块(Monotonic Segmentation Module)用于语音翻译(Speech Translation),简称MoSST,作者来自字节跳动人工智能实验室和加州大学圣塔芭芭拉分校。
论文地址:https://arxiv.org/abs/2109.07368 代码地址:https://github.com/dqqcasia/mosst 火山翻译在线体验:http://translate.volcengine.cn/
基于单调对齐的流式语音翻译
已有的SiST方法是基于固定步长读入音频流,会破坏音频边界,无法保证读入的语音信息是完整的。基于动态步长读入音频流会更适合流式的音频翻译任务。那么,如何找到合适的时刻来结束一次读入过程就是一个要解决的问题了。这篇工作引入了一种单调切分模块,能够检测音频流的边界,实现动态读入,如下图所示。
::: hljs-center
:::
模型结构和细节
如下图所示,MoSST由声学编码器、单调切分模块以及Transformer组成。除了单调切分模块,MoSST的模型和经典的离线ST模型是完全一致的。
::: hljs-center
:::
MoSST的单调切分模块是由连续整合发放[1]的工作启发得来的。具体地,单调切分模块利用整合发放神经元实现动态的读写策略。这种神经元有两种模式,整合模式和发放模式。在整合模式,神经元持续地接收信号以及积累信息,当接收到的信息超过了特定阈值,即进入发放模式,神经元会释放一个信号,例如尖峰状态等,这时的状态包含了上一个整合阶段积累的信息,然后神经元将会重置,重新进入整合模式,再次循环。
MoSST使用完整句子进行训练,另外,为了缓解ST (Streaming speech) 任务数据匮乏的问题,引入了预训练的声学模型进行初始化以及多任务学习策略。
实验结果和分析
实验结果
- 性能超过基线系统
我们与已有的SiST的工作,SimulST[2] , SimulSpeech[3]进行了性能比较。如下图可以看出,在延迟和BLEU的指标上,MoSST的性能显著优于基线系统。
::: hljs-center
:::
- 性能超过级联系统
我们和级联的流式语音翻译系统进行了比较,结果如下图。级联系统是由一个流式语音识别系统和流式机器翻译系统串联而成。可以看出,错误传播问题在级联的流式语音翻译任务中仍然比较严重。MoSST在翻译质量的指标上有较大优势。
::: hljs-center
:::
- 离线翻译性能提升
另外,MoSST因为采用整句训练的方式,也具备离线语音翻译的能力,我们在受限设置下对比了已有的离线模型的性能,结果如下图。这表明MoSST在离线场景也有不错的表现。
::: hljs-center
:::
实验分析
- 自适应策略和固定策略的比较
对于固定策略,步长的参数设置影响非常大。如下图所示,随着步长的增大,翻译准确率有显著提升,但是延迟指标也落入了比较大的区间。
::: hljs-center
:::
自适应策略和固定策略的性能比较如下图所示。自适应策略能够动态地决定合适的步长,因此可以在翻译延迟和翻译准确性之间取得更好的平衡。
::: hljs-center
:::
- 消融实验
我们在离线翻译任务上进行了消融实验,结果如下图所示。可以看出,随着每个模块或者策略的去除,翻译准确性都有显著下降,音频预训练和单调切分模块的影响都比较大。
::: hljs-center
:::
总结
端到端SiST是个更加有挑战性的问题,需要平衡翻译延迟和翻译准确性两个维度的指标。本文介绍的MoSST框架引入了一种单调切分模块动态地读取音频单元,实验结果证明了该方法的有效性。并且该方法具备在流式翻译和离线翻译两种场景应用的潜力。
参考文献
[1] Linhao Dong and Bo Xu. 2020. CIF: continuous integrate-and-fire for end-to-end speech recognition. In 2020 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2020, Barcelona, Spain, May 4-8, 2020, pages 6079–6083.
[2] Xutai Ma, Juan Pino, and Philipp Koehn. 2020. SimulMT to SimulST: Adapting simultaneous text translation to end-to-end simultaneous speech translation. In Proc. of AACL, pages 582–587.
[3] Yi Ren, Jinglin Liu, Xu Tan, Chen Zhang, Tao Qin, Zhou Zhao, and Tie-Yan Liu. 2020. SimulSpeech: End-to-end simultaneous speech to text translation. In Proc. of ACL, pages 3787–3796.
作者:董倩倩
-The End-