speechSynthesis没声音 speech sounds

转载

mob6454cc7042a2 2024-04-22 12:36:55

文章标签 speechSynthesis没声音语音识别频域统计模型 文章分类 架构后端开发

O

语音识别的基础

KR

Course goals and outlines.
a sample demo.

1.

什么是语音？
语音是人类自然的交流工具，也就是语言的声学表现。声音可以分为可听声和不可听声音。语音属于可听声中的一个子领域。
声学(acoustics)，音频（audio），语音(speech)三个的区别，基本知识。

区别：声学包含了很多。人类的语音属于音频领域。

基本知识：音频采样率，量化为数，通道数就不用介绍了，这些事记录语音参数。当我们将语音存储传输的时候需要进行编码，压缩。常见的方式是mp3, pcm(wav),slik。

语音如何表示？
语音有时域和频域两种表达方式。时域通过波形图的振幅和频率来表示，频域中可以通过分帧傅里叶变化后得到语音的spectrum 和spectrumgram。 spectrum表示这个波是由那些不同频率不同幅度正弦波组成的，如果还想看时间维度，我们会进一步转换成spectrumgram.
语音可以做什么？

能做语音增强，分离，情感识别，内容理解与识别，语种识别，说话人身份识别。

什么是语音识别？

automatic speech recognition(ASR) or speech to Text is 语音识别。只涉及听清楚，不涉及听懂。听懂的工作有：说话人识别（声纹），说的什么意思（NLP）, 发音分析等。语音识别主要问题在如何解决声学和语言上混淆。例如帮我拿快递，帮我拿块地。

语音识别如何评估？
accuracy : 音素错误率，次错，句错误率。

efficiency：实时率

语音识别分类
语音识别可以对说话人（特定人，多个人），语种（一个语言，多个语言），词汇量，设备位置（云端，设备端），距离这几个维度进行分类。
动物发音的过程
大脑- 神经肌肉命令- 发生器官运动（气流从肺部到发音器官）。器官中声门肌肉打开闭合决定音高，口腔，舌头等决定音色，肺部空气决定音量。voiced sound 是声带振动引起的，例如发a，基音频率就是指声带振动的频率。 unvoiced sound 是声带不震动，类似白噪声,f。
清音和辅音在波形和语谱上的表现
从下图看出unvoiced sound /s/ 是杂乱的，但是voiced sound 是有明显的规律。从spectrum上来看他有共振峰。并且女人，男人，小孩在基音频率上明显不同。小孩最高。

speechSynthesis没声音 speech sounds_统计模型

音素和词素
音素(phonemes) is a unit of sound that distinguishes one word from another in a particular language. America phonemes have 46 kinds.
音素可以分为辅音consonants和vowels。辅音的气流经常被阻挡， vowels 一般声腔开放，大部分是浊音。
词素：单词或者中文字。
什么是共振峰？
共振峰是被声带特别放大的频率带，经过人体共振腔一部分频域被强化，一部分被降低。不同vowels会有不同共振峰的位置。
协同发音
不同音素在不同环境下发音是不一样的，因此需要考虑上下文去确定音素。
音节
音节是由元音和辅音组合而成的。端到端的方式经常用音节作为识别单元。
声音的属性
声压级（sound pressure level ）：单位为db, 一般去查表。
响度：人耳对不同声音强度感知是非线性的，有时候高频率声音10db可能听得效果和低频率20db一样。
音调：人耳对于声音频率映射。非线性的。
音色：音色是指基音周围的谐波。
语音识别挑战
说话人不同，麦克风位置不同等。
语音识别发展历史
1950-1960 ：通过线性预测等识别数字。人工定义规则。
1970-1980 ： HMM, EM , 数据监督学习。
1990-2000： GMM-HMM ， MFCC ,决策树。
2000-2010：没有发展
2010-： DNN（各种变）-HMM ----- 端到端。
统计模型的基本框架
从下图可以看出，这是整体的统计模型流程，端到端的话橘色框架部分全部用一个神经网络去代替了。