论文
SPECAUGMENT ON LARGE SCALE DATASETS
摘要
语音增强是一种直接作用在输入话语声谱图上的自动语音增强方法,实践证明在端到端网络上非常有效,训练声学模型使用语音增强的数据和噪音扰动的训练数据,介绍了SpecAugment的一种修改,根据发音的长度调整了时间掩码的大小和多重性,通过自适应掩盖可以将LAS模型在Librispeech上进一步提升
引言
介绍了之前的一篇时域频域掩盖语音增强论文效果不错,不同语音增强方法在Google Multidomain 数据集上的效果,
Multistyle Training[1]:将干净的音频与大量噪声音频相结合,用于增强输入数据
从上图可以看出同时使用SpecAugment +MTR效果会变差,SpecAugment比MTR表现更好。规范政策由频率屏蔽,时间屏蔽和时间扭曲组成。在[1]中考虑的增强策略具有固定数量的时间掩码,而与话语长度无关。在跨越多个域的大规模任务中,我们期望话语的长度具有较大的差异。因此,我们引入了自适应时间屏蔽,其中时间屏蔽的数量和/或时间屏蔽的大小取决于输入的长度。我们在Google Multidomain Dataset和LibriSpeech 960h 上尝试了几种自适应策略。
相关工作:
低资源上的语音增强[2][3]
速度扰动[4]成为语音增强的标配。
方法:
在包含不同输入域的大规模数据集中,我们期望输入音频的长度存在较大差异。因此,固定数量的时间掩码可能不足以完成此类任务,因为时间掩码对于较长的发言可能太弱,而对于较短的发言却太严重。
我们比较了三种增强策略。基线策略是在[1]中创造的“ LibriSpeech Double”策略。此策略有两个F = 27的频率掩码,两个T = 100的时间掩码,它们在W = 80的时间扭曲之后应用。让我们介绍一个手工制作的自适应策略,我们将其表示为LibriFullAdapt。该策略有两个频率屏蔽应用,F = 27,时间屏蔽具有自适应多重性和大小,其中pM = 0.04和pS = 0.04应用于W = 80的时间扭曲之上。
参考文献
- Chanwoo Kim, Ananya Misra, Kean Chin, Thad Hughes, Arun Narayanan, Tara Sainath, and Michiel Bacchiani, “Generation of large-scale simulated utter-
ances in virtual rooms to train deep-neural networks for far-field speech recognition in Google Home,” in Interspeech, 2017. - Naoyuki Kanda, Ryu Takeda, and Yasunari Obuchi,“Elastic spectral distortion for low resource speech recognition with deep neural networks,” in ASRU, 2013.
- Anton Ragni, Kate M. Knill, Shakti P . Rath, and Mark J. F. Gales, “Data augmentation for low resource languages,” in Interspeech, 2014.
- Tom Ko, Vijayaditya Peddinti, Daniel Povey, and San-jeev Khudanpur, “Audio Augmentation for Speech Recognition,” in Interspeech, 2015.