文章目录

  • 基础概念
  • 音频处理流程(获取音频)
  • 音频特征
  • 从音频信号到特征帧
  • 从信号到特征的全过程
  • 从信号到特征关键点


基础概念

  1. 如何理解音频帧?一帧的时长是多少?
  2. 如何理解采样个数和采样率?

下面通过关于MP3的一些信息来理解这些概念。

  • ① “每一帧的采样个数,是 1152
  • ② “采样率 44100 Hz
  • 所以MP3帧的时长是 26ms

理解和结论:

(1)采样率

  • 采样率是每秒钟的采样次数,如44.1kHz,就是说不管哪种波形,有序如正余弦,无序如不规则波形,每秒内采样都是441000次。
  • 采样率越大,越接近原始波形,越不失真。但是采样次数越多,数据自然越大,网络要考虑存储大小的和宽带的,在人耳听力范围内有一定大小的采样率就可以了,合适才是真理。

(2)(一帧)采样个数
(一帧)采样个数:number of audio samples (per channel) described by this frame,就是一帧数据里面有多少个采样(样本),或者说 sample。

对于 MP3 ,1152个 sample 就是一帧,播放 1152 个 sample ,即 1 frame 需要的时间就是 1152/44.1k 大约为 26ms

音频处理流程(获取音频)

最常见的音频处理流程为三个步骤:

  • 采样
  • 量化
  • 编码

音频特征

从音频信号到特征帧

从音频信号到特征帧的流程如下:

音频信号
|
采样与量化
|
分帧:业界标准是 25ms(帧长)、10ms(帧间隔)
|
加窗
|
特征提取
|
帧叠加与帧采样

音频信号的特征一般分为时域特征和频域特征两大类,目前大部分实用系统都采用频域特征

从信号到特征的全过程

音频信号
|
(傅里叶变换)
|
频域幅值特征
|
(进一步处理)
|
PLP或者MFCC

梅尔倒谱系数(MFCC) 是语音领域最常用的特征。

为什么一般需要对音频进行一些非线性变换(比如MFCC)?
因为人类听觉的非线性性(包括频率和声强两个方面)。

从信号到特征关键点

(1)短时分析
短时分析技术是音频特征分析的基础。
短时分析使得提取的音频特征是局部的且定长的。
对于一段音频来说,其长度通常是不固定的,若想提取出固定的特征向量,一般是将音频作为一个整体,然后提取其中的一些统计量。
但是全局特征显然无法有效的提取出音频的特征,因为一段音频一般随着时间发生不断发生变化的。(在图像领域应用广泛的卷积,其本质也是提取图像的局部特征)

短时技术的一般步骤如下:

分帧
|