上一节主要介绍了关于加窗函数的相关内容。对语音的时域信号进行分析是最直观的分析方式。本文将介绍语音信号处理中四种时域特征,分别是短时能量、短时过零率、短时自相关函数以及短时平均幅度差。

作者&编辑 | 小米粥

编辑 | 言有三

1. 短时能量

由于语音信号具有短时平稳性,我们通常对语音进行分帧处理。首先定义矩形窗为w(m),那么对于语音信号 x(t),其加窗分帧后第n帧语音信号 xn(m)为

矩形窗的是最直观、简单的窗函数,我们以其为例进行说明。矩形窗的表达式为:

【语音处理】4个基本的时域信号特征分析技术_java

在该计算式中,n=0,T,2T,...,N为帧长,T为帧移长度。

第n 帧语音信号 xn(m)的短时能量En为

【语音处理】4个基本的时域信号特征分析技术_算法_02

使用幅值平方将对高幅值信号具有较大的敏感度,为了降低敏感度,定义短时平均幅度函数Mn为

【语音处理】4个基本的时域信号特征分析技术_java_03

短时能量En和短时平均幅度函数Mn的主要用途:

1.浊音相比较于清音的En具有较大的数值,因而可用于区分浊音和清音。

2.利用短时能量区分有声段和无声段,也可对声母和韵母分界,对无间隙的连字分界。

3.在语音识别任务中作为特征,表示能量特征和超音频信息。

2. 短时过零率

短时过零率表示一帧语音中波形信号穿过零值的次数。对于连续信号,过零意味着波形通过时间轴,而对于离散信号,过零意味着相邻采样点的符号改变。

首先定义符号函数sgn[·]为

【语音处理】4个基本的时域信号特征分析技术_java_04

则第n帧语音信号 xn(m)的短时过零率Zn为

【语音处理】4个基本的时域信号特征分析技术_人工智能_05

由于短时过零率容易受到低频干扰,可设置相关门限T,将过零修改为穿过正负门限的次数,即

【语音处理】4个基本的时域信号特征分析技术_python_06

门限的存在使得短时过零率Zn具有一定的扛干扰能力,避免随机噪声导致的虚假过零。

短时过零率的主要用途:

1.浊音能量集中于3kHz内的低频率段,清音能量集中于高频率段,而短时过零率可以一定程度反映频率高低,因而浊音段相对于清音段,其短时过零率减低。

2.将短时过零率和短时能量结合实现端点检查。短时能量适用于背景噪声较小的情况,而短时过零率适用于背景噪声较大的情况。实际中,通常结合两个参数实现语音起点和终点的判断。

3. 短时自相关函数

语音信号xn(m)的短时自相关函数Rn(k)为:

【语音处理】4个基本的时域信号特征分析技术_java_07

其中,若信号xn(m)具有周期性,则短时自相关函数Rn(k)也具有周期性,且两者周期相同;Rn(k)为偶函数,当k=0s时,自相关函数具有最大值。

假设语音信号xn(m)的周期为T,那么短时自相关函数Rn(k)将在k=T,2T...取值时出现峰值。若要出现第一个峰值(即k=T),根据计算式

【语音处理】4个基本的时域信号特征分析技术_java_08

需要取到信号中x(m=2T的样本点,即语音帧宽至少应大于两个周期,否则第一个峰值将无法较好的显示。例语音最小基频为80Hz,最大周期为12.5ms,两倍周期为25ms,因此10kHz的采样信号的帧宽至少为250个采样点。

另一方面,考虑到语音信号的短时性,应设置较低的帧长,因此可使用修正短时自相关函数,其定义为

【语音处理】4个基本的时域信号特征分析技术_算法_09

其中,有

【语音处理】4个基本的时域信号特征分析技术_信号处理_10

【语音处理】4个基本的时域信号特征分析技术_java_11

【语音处理】4个基本的时域信号特征分析技术_算法_12

【语音处理】4个基本的时域信号特征分析技术_人工智能_13

相比于短时自相关函数Rn(k),在修正短时自相关函数中,第一项xn(m)与Rn(k)中的xn(m)相同,而第二项x'n(m)与Rn(k)中的xn(m)相比,差异在于额外向后包括了k个样本点。

在严格定义中,修正短时自相关函数是一个互相关函数,其不满足自相关函数的性质(偶函数性),但其仍在周期整数倍上具有峰值。

短时自相关函数的用途:

1.浊音的自相关函数具有周期性,而清音的自相关函数类似于高频白噪声,没有周期性。

2.根据自相关函数的第一个峰值的位置,估算浊音的基音频率。

4. 短时平均幅度差函数

短时自相关函数使用大量乘法运算,计算时间较长,短时平均幅度差Fn(k)使用减法代替了乘法,大大减少了运算量,大量运用于实时语音处理方案上,其定义为

【语音处理】4个基本的时域信号特征分析技术_算法_14

对于周期为T的语音信号,短时平均幅度差Fn(k)在k=T,2T...等取值上具有周期性的极小值。类似的,修正短时平均幅度差为

【语音处理】4个基本的时域信号特征分析技术_算法_15

短时平均幅度差Fn(k)和Rn(k)具有数值关系:

【语音处理】4个基本的时域信号特征分析技术_人工智能_16

其中,β(k)对不同的语音段,其数值在0.6-1.0之间变化。

短时平均幅度差的用途:

基音周期的检测,该方法比短时自相关方法的计算更为简单。

[1] 韩纪庆, 张磊, 郑铁然. 语音信号处理.第2版[M]. 清华大学出版社, 2013.

[2] 赵力. 语音信号处理: 机械工业出版社[M]. 机械工业出版社, 2016.

[3] 卢官明, 宗昉. 数字音频原理及应用[M]. 机械工业出版社, 2012.

总结

本节的主要介绍语音信号处理中的时域信号特征分析技术,主要包括短时能量,短时过零率,短时自相关函数以及短时平均幅度差四种定义以及相关的用途。