单通道语音增强技术

概念:语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。一句话,从含噪语音中提取尽可能纯净的原始语音。

单通道语音增强算法主要可以分为两大类:
基于数字信号处理的传统增强算法和基于数据驱动的学习类增强算法。

一、传统语音增强

基本是基于时域分析或频域分析。频域主要是基于增益函数设计,但不同算法在计算增壹函数时采用的策略不同,主要分为三类:谱减法,基于统计模型,子空间算法。

单通道怎么形成python_语音信号

1.谱减法(基于信号处理)

1970年发展起来,比较老。该类算法需要己知较为精确的噪声谱,但这并不容易被估计获取,尤其是对于非平稳噪声,所以往往需要VAD算法的配合。谱减法仍不可避免地会引入一些“音乐噪声”造成语音失真,并且在非平稳噪声存在的情况下增强效果会显著下降。

2.基于统计模型(统计估计理论)
将语音增强问题定义为基于一些最优准则和统计假设的统计估计问题。在众多的最优准则之中MMSE是较为常用的准则,基于MMSE准则发展而来的估计器有两大类:一类是线性估计器,如维纳滤波器;一类是非线性估计器,比较经典的是MMSE-STSA算法和MMSE-LSA算法。

3。子空间算法(基于线性代数)
基本的假设是尤维的干净语音信号并不会张成一个完整的L维的欧式空间,相反可以压缩成一个低秩的I维空间,I<L。并假设语音信号是平稳随机的。

传统方法缺点:
1.都需要基于一定的假设,如噪声具有一定的平稳性,干净语音和噪声不相关,语音和噪声的STFT变换系数在时频域上相互独立等等。(虽简化了求解模型,但丢失了一些真实特性,限制了算法性能上限)
2.需要一些先验信息。

因此传统算法在非平稳噪声,低信噪比等复杂情况下性能显著降低。

二、基于数据驱动的学习类增强算法
将问题看作有监督学习问题。将语音增强的估计器建模成一个带参数的数学模型,利用已有的训练数据求解定义的优化问题来得到模型的参数。
目前有很多模型,如复高斯混合模型GMMs,SVM,稀疏表示模型等。

1.稀疏表示模型
基于压缩表示理论框架发展而来,用语音信号的稀疏性将信号近似表示为少数字典原子的线性组合,因此在稀疏表示前还需要通过字典学习来学习包含信号特性的字典。

缺点:
1.这类基于生成模型的增强算法的前提假设是认为信号可以近似表示为一些字典原子或基向量的加权线性组合,这种线性的假设始终限制着这类增强算法的性能。
2.要依赖于说话人和噪声种类,也就是说所训练的字典与说话人和噪声种类属于一一对应关系,一旦出现不匹配情况则会造成降噪效果变差,引起较大的语音失真。

2.基于深度学习
基于时频掩蔽,基于特征映射的