O

语音识别的基础

KR


  1. Course goals and outlines.
  2. a sample demo.

1.

  1. 什么是语音?
    语音是人类自然的交流工具, 也就是语言的声学表现。 声音可以分为可听声和不可听声音。语音属于可听声中的一个子领域。
  2. 声学(acoustics), 音频(audio), 语音(speech)三个的区别,基本知识。

区别: 声学包含了很多。 人类的语音属于音频领域。

基本知识: 音频采样率,量化为数,通道数就不用介绍了, 这些事记录语音参数。当我们将语音存储传输的时候需要进行编码,压缩。 常见的方式是mp3, pcm(wav),slik。

  1. 语音如何表示?
    语音有时域和频域两种表达方式。 时域通过波形图的振幅和频率来表示, 频域中可以通过分帧 傅里叶变化后得到语音的spectrum 和spectrumgram。 spectrum表示这个波是由那些不同频率不同幅度正弦波组成的, 如果还想看时间维度, 我们会进一步转换成spectrumgram.
  2. 语音可以做什么?

能做语音增强,分离, 情感识别, 内容理解与识别, 语种识别, 说话人身份识别。

  1. 什么是语音识别?

automatic speech recognition(ASR) or speech to Text is 语音识别。 只涉及听清楚, 不涉及听懂。 听懂的工作有: 说话人识别(声纹), 说的什么意思(NLP), 发音分析等。语音识别主要问题在如何解决声学和语言上混淆。例如帮我拿快递,帮我拿块地。

  1. 语音识别如何评估?
    accuracy : 音素错误率, 次错, 句错误率。

efficiency: 实时率

  1. 语音识别分类
    语音识别可以对说话人(特定人, 多个人), 语种(一个语言, 多个语言), 词汇量, 设备位置(云端, 设备端), 距离这几个维度进行分类。
  2. 动物发音的过程
    大脑- 神经肌肉命令- 发生器官运动(气流从肺部到发音器官)。 器官中声门肌肉打开闭合决定音高, 口腔,舌头等决定音色, 肺部空气决定音量。voiced sound 是声带振动引起的, 例如发a, 基音频率就是指声带振动的频率。 unvoiced sound 是声带不震动,类似白噪声,f。
  3. 清音 和辅音在波形和语谱上的表现
    从下图看出unvoiced sound /s/ 是杂乱的, 但是voiced sound 是有明显的规律。 从spectrum上来看他有共振峰。并且女人, 男人, 小孩在基音频率上明显不同。 小孩最高。

speechSynthesis没声音 speech sounds_统计模型


dd

  1. 音素和词素
    音素(phonemes) is a unit of sound that distinguishes one word from another in a particular language. America phonemes have 46 kinds.
    音素可以分为辅音consonants和vowels。 辅音的气流经常被阻挡, vowels 一般声腔开放, 大部分是浊音。
    词素: 单词或者中文字。
  2. 什么是共振峰?
    共振峰是被声带特别放大的频率带,经过人体共振腔一部分频域被强化, 一部分被降低。 不同vowels会有不同共振峰的位置。
  3. 协同发音
    不同音素在不同环境下发音是不一样的,因此需要考虑上下文去确定音素。
  4. 音节
    音节是由元音和辅音组合而成的。端到端的方式经常用音节作为识别单元。
  5. 声音的属性
    声压级(sound pressure level ) : 单位为db, 一般去查表。
    响度: 人耳对不同声音强度感知是非线性的 , 有时候高频率声音10db可能听得效果和低频率20db一样。
    音调: 人耳对于声音频率映射。 非线性的。
    音色: 音色是指基音周围的谐波。
  6. 语音识别挑战
    说话人不同, 麦克风位置不同等。
  7. 语音识别发展历史
    1950-1960 : 通过线性预测等识别数字。人工定义规则。
    1970-1980 : HMM, EM , 数据监督学习。
    1990-2000: GMM-HMM , MFCC ,决策树。
    2000-2010:没有发展
    2010-: DNN(各种变)-HMM ----- 端到端。
  8. 统计模型的基本框架
    从下图可以看出, 这是整体的统计模型流程, 端到端的话橘色框架部分全部用一个神经网络去代替了。

speechSynthesis没声音 speech sounds_语音识别_02

  1. 常用的数据集和工作包

kaldi : 最常用的工具。
ESPNet : pytorch的sota神经网络工具包。