LONG-FORM MUSIC GENERATION WITH LATENT DIFFUSION
摘要
音频生成模型在音乐领域取得了显著进展,但迄今为止尚未能够产生具有连贯音乐结构的完整长度音乐曲目。我们展示了通过在长时间上下文上训练生成模型,可以产生最长达到4分45秒的长篇音乐。我们的模型由一个扩散变换器组成,该变换器操作在高度下采样的连续潜在表示上(潜在率为21.5赫兹)。根据音频质量和提示对齐的指标,它获得了最先进的生成结果,主观测试表明它产生了具有连贯结构的完整长度音乐。
核心方法
- 自编码器结构:使用原始波形的自编码器结构,通过一系列卷积块进行下采样和通道扩展。
- 变分自编码器:自编码器的瓶颈部分被参数化为变分自编码器,使用感知加权的多分辨率STFT损失进行训练。
- 扩散变换器(DiT):采用基于变换器的扩散模型,而不是常用的卷积U-Net结构,使用交叉注意力层和门控多层感知器。
- 文本条件:利用基于CLAP的对比文本-音频嵌入模型进行文本条件处理。
- 可变长度音乐生成:通过在指定的时间窗口内生成内容,并依赖于时间条件填充信号,实现可变长度音乐生成。
- 训练设置:模型训练是多阶段过程,在NVIDIA A100 GPU集群上进行,包括训练自编码器、CLAP模型和扩散模型。
实验说明
实验使用以下指标进行定量评估:
- Fréchet距离在OpenL3嵌入上
- KL散度在PaSST标签上
- LAION-CLAP空间中的距离
使用Song Describer Dataset(无歌唱)作为基准,生成的音乐与MusicGen模型和真实样本进行比较。定性评估通过webMUSHRA进行,测试对象对音频质量、文本对齐、音乐结构、音乐性和立体声正确性等方面进行评分。
实验结果数据
模型 | 长度 | FD(OpenL3) ↓ | KL(PaSST) ↓ | CLAP分数 ↑ | 时间 |
---|---|---|---|---|---|
MusicGen-large-stereo | 2m | 204.03 | 0.49 | 0.28 | 6m 38s |
Ours (pre-trained) | 2m | 78.70 | 0.36 | 0.39 | 8s |
MusicGen-large-stereo | 3m 10s | 213.76 | 0.50 | 0.28 | 9m 32s |
Ours (pre-trained) | 3m 10s | 89.33 | 0.34 | 0.39 | 8s |
定量结果表明,所提出的模型在所有长度上都优于MusicGen,同时显著更快。
结论
我们提出了一种文本条件音乐生成模型的方法,该模型在足够长的上下文长度上运行,以包含完整的音乐曲目。通过训练一个在时间维度上显著压缩的自编码器,并通过扩散方法在该自编码器的潜在空间中建模完整的音乐曲目,使用扩散变换器进行建模。通过定性和定量测试评估训练模型,并表明它能够在目标时间上下文4分45秒内产生连贯的音乐,并取得了最先进的结果。
伦理声明
我们的技术代表了在音乐制作任务中辅助人类的进步,促进了基于文本输入的可变长度、长篇立体声音乐的创作。然而,尽管有许多优点,它也带来了固有的风险,包括潜在的反映训练数据中固有偏见的风险。我们致力于与艺术家和数据提供者等利益相关者进行持续的研究和合作,以负责任地探索这一新领域。