持续更新中。

基础

语音合成(Text To Speech,TTS),将文字转化为语音的一种技术。

语音合成技术 - 知乎 (zhihu.com)
论文推介:Glow-WaveGAN—学习一种用于高质量语音合成的语音表征 (qq.com)

Tacotron/Tacotron2

TACOTRON:端到端的语音合成_左左左左想-CSDN博客
Tacotron&Tacotron2——基于深度学习的端到端语音合成模型 - 知乎 (zhihu.com)

Tacotron是第一个端对端的TTS神经网络模型,输入raw text,Tacotron可以直接输出mel-spectrogram,再利用Griffin-Lim算法就可以生成波形了。总体来说,模型和sequence-to-sequence模型非常相似,大体上由encoder和decoder组成,raw text经过pre-net, CBHG两个模块映射为hidden representation,之后decoder会生成mel-spectrogram frame。
实际上Tacotron的卖点主要是在end-to-end,其表现虽然比传统方法要好,但是相比Wavenet并没有明显的提升(甚至不如Wavenet),因此也就有了后面的Tacotron2。
Tacotron2是由Google Brain 2017年提出来的一个语音合成框架。 Tacotron2:一个完整神经网络语音合成方法。模型主要由三部分组成: 1. 声谱预测网络:一个引入注意力机制(attention)的基于循环的Seq2seq的特征预测网络,用于从输入的字符序列预测梅尔频谱的帧序列。 2. 声码器(vocoder):一个WaveNet的修订版,用预测的梅尔频谱帧序列来生成时域波形样本。 3. 中间连接层:使用低层次的声学表征-梅尔频率声谱图来衔接系统的两个部分。

WaveRNN

2018年,谷歌提出的语音合成算法,可应用在手机,嵌入式等资源比较少的系统。WaveRNN 采用了三种先进的计算方法去提高生成语音的质量同时保证模型很小。

前言

常见的语音合成声码器模型,如 WaveNet,是相对比较成熟的技术,其生成的语音质量接近自然人声。不过,在实际运用中,传统 WaveNet 模型也存在着诸多不足。一是 WaveNet 模型结构十分复杂,对计算力要求很高;二是 WaveNet 模型语音合成时间较长,在实际交互场景中难以满足用户对实时性的要求;三是随着智能语音应用场景的普及,智能语音合成平台需要对更多设备提供支持,工作负载加大,声码器模型的语音合成工作效能有待提升;四是对于企业而言,扩容带来的成本增加。

简介

语音合成 text-to-speech WaveRNN - 简书 (jianshu.com)
WaveRNN——基于神经网络的高速音频合成 - 知乎 (zhihu.com)

工作亮点:

  1. 该文提出了一个单层的RNN 网络架构,使用了两个softmax layer, 实现了当前最佳语音生成水准, 可以实时生成24kHz 16-bit的语音。
  2. 这篇文章采用了 weight pruning technique, 实现了96% sparsity.
  3. 这篇文章提出了高并行度生成语音算法,在语音生成中,把很长的序列生成折叠成若干个短的序列,每个短序列同时生成,进而提高了长序列的生成速度 (fold a long sequency into a batch of shorter sequences and allows one to generate multiple samples at once)

Espnet

2018年,Espnet团队开源了Espnet(end-to-end speech processing toolkit),可实现端到端 ASR和TTS系统。

Espnet特色
(1) 融合了Kaldi的数据处理和特征提取;
(2) 借助Pytorch跟Chainer,使用Python实现了端到端

FastSpeech

FastSpeech: Fast, Robust and Controllable Text to Speech (arxiv.org)
xcmyz/FastSpeech: The Implementation of FastSpeech based on pytorch. (github.com)
语音合成 | FastSpeech:Fast,Robust and Controllable Text to Speech论文阅读_yiqiyuan17的博客-CSDN博客
论文阅读 FastSpeech_赫凯的博客-CSDN博客

2019年,浙江大学和微软亚洲研究院联合推出了一篇论文,关于快速的端到端的语音合成系统。

当前技术难点 FastSpeech优点
AR模型生成Mel频谱图的速度慢。E2E模型主要是使用因果卷积,all模型都会生成以先前生成的Mel频谱图为条件的Mel频谱图,以AR的方式生成Mel频谱图之后再通过声码器合成语音,而一段语音的Mel频谱图通常能到几百上千帧,合成速度较慢。 Fast:通过并行生成Mel频谱图,加快合成过程。
合成的语音不健壮。E2E模型通常采用编码器-注意力-解码器机制进行自回归生成,由于序列生成的错误传播以及注意力对齐不准,导致出现重复和跳过。 Robust:音素持续时间预测器确保音素与Mel频谱图之间的对齐,减少重大错误(跳过单词,重复单词)。
合成语音缺乏可控性。自回归的神经网络会自动逐个生成Mel频谱图,而不会明确地利用文本和语音之间的对齐。因此,通常很难直接控制生成语音的速度或者韵律停顿等。 Controllable:加入长度调节器,通过延长或缩短音素持续时间来调节语音速度。通过在相邻音素之间添加间隔来控制部分韵律。

【album】语音合成技术_论文阅读