文章目录
- 基础概念
- 音频处理流程(获取音频)
- 音频特征
- 从音频信号到特征帧
- 从信号到特征的全过程
- 从信号到特征关键点
基础概念
- 如何理解音频帧?一帧的时长是多少?
- 如何理解采样个数和采样率?
下面通过关于MP3的一些信息来理解这些概念。
- ① “每一帧的采样个数,是
1152
” - ② “采样率
44100 Hz
” - 所以
MP3帧
的时长是26ms
理解和结论:
(1)采样率
- 采样率是每秒钟的采样次数,如44.1kHz,就是说不管哪种波形,有序如正余弦,无序如不规则波形,每秒内采样都是441000次。
- 采样率越大,越接近原始波形,越不失真。但是采样次数越多,数据自然越大,网络要考虑存储大小的和宽带的,在人耳听力范围内有一定大小的采样率就可以了,合适才是真理。
(2)(一帧)采样个数
(一帧)采样个数:number of audio samples (per channel) described by this frame,就是一帧数据里面有多少个采样(样本),或者说 sample。
对于 MP3 ,1152个 sample
就是一帧,播放 1152 个 sample ,即 1 frame
需要的时间就是 1152/44.1k
大约为 26ms
。
音频处理流程(获取音频)
最常见的音频处理流程为三个步骤:
- 采样
- 量化
- 编码
音频特征
从音频信号到特征帧
从音频信号到特征帧的流程如下:
音频信号
|
采样与量化
|
分帧:业界标准是 25ms(帧长)、10ms(帧间隔)
|
加窗
|
特征提取
|
帧叠加与帧采样
音频信号的特征一般分为时域特征和频域特征两大类,目前大部分实用系统都采用频域特征
从信号到特征的全过程
音频信号
|
(傅里叶变换)
|
频域幅值特征
|
(进一步处理)
|
PLP或者MFCC
梅尔倒谱系数(MFCC) 是语音领域最常用的特征。
为什么一般需要对音频进行一些非线性变换(比如MFCC)?
因为人类听觉的非线性性(包括频率和声强两个方面)。
从信号到特征关键点
(1)短时分析
短时分析技术是音频特征分析的基础。
短时分析使得提取的音频特征是局部的且定长的。
对于一段音频来说,其长度通常是不固定的,若想提取出固定的特征向量,一般是将音频作为一个整体,然后提取其中的一些统计量。
但是全局特征显然无法有效的提取出音频的特征,因为一段音频一般随着时间发生不断发生变化的。(在图像领域应用广泛的卷积,其本质也是提取图像的局部特征)
短时技术的一般步骤如下:
分帧
|