简介

进一步改进了音视特征聚类网络。目标函数为样本与聚类中心的加权距离之和(与之前类似),权重仍为距离的softmax,距离度量标准换成了L2;针对无法预知声源数目的情形,根据泊松分布,提出了声音分离损失,能够根据音频预测声源数目。聚类损失换成了contrastive损失。在ESC-50声音场景分类、SoundNet-Flickr声音定位、MIT-MUSIC声音分离任务上表现较好。

贡献

1.开发了一个视听学习模型,能够输出单模态表征,音视对齐。将软聚类模块作为模式检测器,在两种模态共享空间中,通过结构化对齐目标 来关联聚类后的pattern。
2.提出课程音视学习策略,其难度级别由场景中声源的数量决定,容易训练并提高了性能。还建立了用于估计音视场景复杂度的计数模型。
3.音视声音定位方面有很大提升。为声音分离提供有效的视觉表征。性能与有监督相当。

网络结构

Audio Framework架构 audio visual room_Audio Framework架构


视觉:VGG16,输出16×16×512

声音:VGGish,输出64×54×512,移除了最后的最大池化层和最后三个全连接层。

聚类

目标函数

Audio Framework架构 audio visual room_Audio Framework架构_02


Audio Framework架构 audio visual room_聚类_03是指第Audio Framework架构 audio visual room_聚类_03个簇,Audio Framework架构 audio visual room_人工智能_05是音源数量,Audio Framework架构 audio visual room_人工智能_06是特征与聚类中心的欧氏距离,Audio Framework架构 audio visual room_模态_07通过softmax而来,是为距离分配权重,

Audio Framework架构 audio visual room_聚类_08


超参Audio Framework架构 audio visual room_复杂度_09,称为刚度参数,控制assignment的可伸缩性。论文中Audio Framework架构 audio visual room_复杂度_10

Audio Framework架构 audio visual room_模态_11


Audio Framework架构 audio visual room_模态_12为聚类中心,每个中心对应于特定模态成分,例如某个物体或声音。

通过比较每个音视频组合的匹配程度可以确定是否对齐,具体地,是最小化音视中心的距离

Audio Framework架构 audio visual room_模态_13


与音频特征聚类中心相关的视觉特征聚类中心可以表示为

Audio Framework架构 audio visual room_聚类_14


对应的Audio Framework架构 audio visual room_模态_07可以变形回Audio Framework架构 audio visual room_模态_16并将其作为与音频相关的视觉定位掩膜

复杂度估计

由于音视场景的复杂性对于课程训练至关重要,因此学习建模和估计给定场景中的声源数量是值得的。计数数据Audio Framework架构 audio visual room_人工智能_17的泊松离散概率分布由Audio Framework架构 audio visual room_复杂度_18给出,其中Audio Framework架构 audio visual room_Audio Framework架构_19解释为区间内的期望事件数量。在本任务中,Audio Framework架构 audio visual room_人工智能_17作为音视场景中的声源数量。提出通过音频网络将Audio Framework架构 audio visual room_Audio Framework架构_19建模为输入声音ai的函数,记为Audio Framework架构 audio visual room_人工智能_22。函数Audio Framework架构 audio visual room_聚类_23为声源计数网络。通过对泊松分布取负对数似然,得到泊松回归损失

Audio Framework架构 audio visual room_模态_24


Audio Framework架构 audio visual room_复杂度_25作为模型训练的常数可以被忽略掉。在训练计数网络之后,我们可以通过识别持有最大概率的数字来估计场景复杂度。

泊松回归网络移除了VGGish最后三个全连接层,添加了GMP层产生512D特征向量,两个全连接层:512-512-1来预测泊松平均值Audio Framework架构 audio visual room_聚类_26

声音分离

将视觉聚类中心Audio Framework架构 audio visual room_模态_27 作为第Audio Framework架构 audio visual room_复杂度_28个场景的发声者表征,使用Audio Framework架构 audio visual room_聚类_29表示发声者位置。使用U-Net的变体来执行声音分离,然后对视觉表征进行复制和平铺使其与音频特征匹配,将音视特征concat,送入up-conv层生成声谱图掩膜。

损失函数

聚类损失

Audio Framework架构 audio visual room_模态_30
Audio Framework架构 audio visual room_聚类_31指图像和声音是否来自同一视频片段,Audio Framework架构 audio visual room_人工智能_32是超参数,论文中为5。这里的Audio Framework架构 audio visual room_模态_33其实是指batch的数目

声音分离损失

Audio Framework架构 audio visual room_复杂度_34


Audio Framework架构 audio visual room_人工智能_35是输入的混合声音,Audio Framework架构 audio visual room_聚类_36是声音分离网络,Audio Framework架构 audio visual room_Audio Framework架构_37

实施

训练

使用期望(E)-最大化(M)算法更新参数,E阶段固定簇中心C并更新Audio Framework架构 audio visual room_人工智能_38,在M阶段固定Audio Framework架构 audio visual room_人工智能_38并用更新后的参数重新计算中心。
使用课程学习训练策略,根据场景的复杂性,即场景中声源数量由少(1)到多训练(4)网络。
数据集:(1)来自Youtube的音频事件数据集AudioSet,使用第三级标签,Balanced-Train数据集。音频为10秒片段,视觉为随机1帧图像。训练时未使用语义标签
(2)来自YouTube的MIT MUSIC数据集中选取467个音乐独奏,随机分成10秒片段
声音:STFT:窗口尺寸1022,步幅256,生成log声谱图
视觉:256×256×3
优化器:Adam
学习率:第一个课程10e-4,每个课程逐渐减小0.1
泊松回归网络:SGD,momentum为0.9,初始学习率0.01,衰减程度为0.01/(1+epoch*0.5)

测试

将已经训练好的音视模型作为特征提取器,应用在声学场景分类任务中,数据集为ESC-50。
泊松回归结果,测试数据集为AudioSet
声音定位:使用AudioSet训练,SoundNet-Flickr测试
声音分离:使用MIT-MUSIC数据集,也有用到AudioSet

结果

(1)使用课程训练可以提升性能
(2)在复杂场景下,声-源级匹配(对音视特征聚类并让其距离相互靠拢)比场景级匹配更好地利用了音视并发性
(3)对于定位任务,音视对齐后性能得到了提升
(4)对于定位任务,如果训练集中包含多个声源的音视场景,而测试集为单声源,则导致结果变差,可能是多声源视频会把单声源学到的对齐知识搞混
(5)对于声音分离任务,由于没有预训练或微调视觉网络,效果不是那么好,当使用二重奏音乐训练定位网络时,在SDR和SAR指标上比独奏好一些