record 语音识别采样率语音采样率最低多少

转载

智能创新者 2024-04-17 15:17:29

文章标签 record 语音识别采样率语音识别采样率傅里叶变换混合高斯模型 文章分类 NLP 人工智能

语音信号的频率一般在300Hz-3400Hz，按照奈奎斯特采样定理，为保证频谱不混叠，采样率至少为最高频率的2倍，一般最低采样率为8000Hz。

在2010年以前，语音识别的技术主要基于混合高斯模型(GMM)和隐性马尔科夫(HMM)模型，2010年以后，主要基于神经网络。该讲座主要是讲怎样将语音转换成文字，相关课题包括(本讲座不涉及)

-元数据识别：语种、说话人、情感等

-语音增强与分离

-语音合成(文字变语音)与转换

-自然语言理解、对话系统

孤立词识别

1.特征提取

（1）分段提取，一段即一帧，一帧信号通常为20-50ms,包含2-3个周期，在一个音素（如你好，n、i、h 、a、o是一个音素）内（保证傅里叶变换区间的稳定性）。

（2）傅里叶变换—>三角滤波—>离散余弦变换（DCT）

男声的基频在100Hz左右，女声的基频在200Hz左右，频谱具有精细结构和包络，通过三角滤波提取频谱的包络。

record 语音识别采样率语音采样率最低多少_采样率

MFCC序列是最常用的特征

2.“动态弯（Dynamic Time Warping）”算法（计算两个特征序列的举例）

通过动态规划算法匹配待计算距离的两个帧，总距离为各帧欧式距离之和。

record 语音识别采样率语音采样率最低多少_傅里叶变换_02

3. GMM(混合高斯模型)

如果Yes这个单词有多个模板怎么办？模板—>模型

record 语音识别采样率语音采样率最低多少_傅里叶变换_03

以其中一个模板为标准，其他模板与之对齐，把模板切分成多个段落，用高斯分布的叠加拟合每段中特征向量的分布。

通过期望最大化估计GMM模型的参数。

4. HMM(隐性马尔科夫模型)

对音素持续时间建模（添加状态间的转移概率）

record 语音识别采样率语音采样率最低多少_语音识别_04

模型的参数：

-转移概率

-观测概率

-模型是单向的，不必讨论初始概率

record 语音识别采样率语音采样率最低多少_混合高斯模型_05

EM训练算法

-如果知道对齐方式，则易得模型参数，知道模型参数，则易得对齐方式，现在是都不知道，先瞎猜一种对齐方式，如均匀分割，由此求出模型参数(M步)，再更新对齐方式（E步），对齐方式可用Viterbi,实际中用Forward-backward,迭代直到收敛。

record 语音识别采样率语音采样率最低多少_语音识别_06

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：机器学习怎么确定神经元数量如何数神经元个数

下一篇：语义分割经典网络语义分割最新模型

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯