语音信号的频率一般在300Hz-3400Hz,按照奈奎斯特采样定理,为保证频谱不混叠,采样率至少为最高频率的2倍,一般最低采样率为8000Hz。

    在2010年以前,语音识别的技术主要基于混合高斯模型(GMM)和隐性马尔科夫(HMM)模型,2010年以后,主要基于神经网络。该讲座主要是讲怎样将语音转换成文字,相关课题包括(本讲座不涉及)

-元数据识别:语种、说话人、情感等

-语音增强与分离

-语音合成(文字变语音)与转换

-自然语言理解、对话系统

 

孤立词识别

1.特征提取

    (1)分段提取,一段即一帧,一帧信号通常为20-50ms,包含2-3个周期,在一个音素(如你好,n、i、h 、a、o是一个音素)内(保证傅里叶变换区间的稳定性)。

    (2)傅里叶变换—>三角滤波—>离散余弦变换(DCT)

男声的基频在100Hz左右,女声的基频在200Hz左右,频谱具有精细结构和包络,通过三角滤波提取频谱的包络。

 

record 语音识别 采样率 语音采样率最低多少_采样率

MFCC序列是最常用的特征

 

2.“动态弯(Dynamic Time Warping)”算法(计算两个特征序列的举例)

通过动态规划算法匹配待计算距离的两个帧,总距离为各帧欧式距离之和。

record 语音识别 采样率 语音采样率最低多少_傅里叶变换_02

 

3. GMM(混合高斯模型)

如果Yes这个单词有多个模板怎么办?模板—>模型

record 语音识别 采样率 语音采样率最低多少_傅里叶变换_03

以其中一个模板为标准,其他模板与之对齐,把模板切分成多个段落,用高斯分布的叠加拟合每段中特征向量的分布。

通过期望最大化估计GMM模型的参数。

 

4. HMM(隐性马尔科夫模型)

对音素持续时间建模(添加状态间的转移概率)

record 语音识别 采样率 语音采样率最低多少_语音识别_04

模型的参数:

-转移概率

-观测概率

-模型是单向的,不必讨论初始概率

 

record 语音识别 采样率 语音采样率最低多少_混合高斯模型_05

 

EM训练算法

-如果知道对齐方式,则易得模型参数,知道模型参数,则易得对齐方式,现在是都不知道,先瞎猜一种对齐方式,如均匀分割,由此求出模型参数(M步),再更新对齐方式(E步),对齐方式可用Viterbi,实际中用Forward-backward,迭代直到收敛。

record 语音识别 采样率 语音采样率最低多少_语音识别_06