itunes音频采样速率选择音频采样率44100

转载

kekenai 2024-08-01 12:19:20

文章标签 itunes音频采样速率选择采样率音频处理频域 文章分类 架构后端开发

文章目录

基础概念
音频处理流程（获取音频）
音频特征

从音频信号到特征帧
从信号到特征的全过程
从信号到特征关键点

基础概念

如何理解音频帧？一帧的时长是多少？
如何理解采样个数和采样率？

下面通过关于MP3的一些信息来理解这些概念。

① “每一帧的采样个数，是 1152”
② “采样率 44100 Hz”
所以MP3帧的时长是 26ms

理解和结论：

（1）采样率

采样率是每秒钟的采样次数，如44.1kHz，就是说不管哪种波形，有序如正余弦，无序如不规则波形，每秒内采样都是441000次。
采样率越大，越接近原始波形，越不失真。但是采样次数越多，数据自然越大，网络要考虑存储大小的和宽带的，在人耳听力范围内有一定大小的采样率就可以了，合适才是真理。

（2）（一帧）采样个数
（一帧）采样个数：number of audio samples (per channel) described by this frame，就是一帧数据里面有多少个采样(样本)，或者说 sample。

对于 MP3 ，1152个 sample 就是一帧，播放 1152 个 sample ，即 1 frame 需要的时间就是 1152/44.1k 大约为 26ms。

音频处理流程（获取音频）

最常见的音频处理流程为三个步骤：

采样
量化
编码

音频特征

从音频信号到特征帧

从音频信号到特征帧的流程如下：

音频信号的特征一般分为时域特征和频域特征两大类，目前大部分实用系统都采用频域特征

从信号到特征的全过程

音频信号
|
（傅里叶变换）
|
频域幅值特征
|
（进一步处理）
|
PLP或者MFCC

梅尔倒谱系数（MFCC） 是语音领域最常用的特征。

为什么一般需要对音频进行一些非线性变换（比如MFCC）？
因为人类听觉的非线性性（包括频率和声强两个方面）。

从信号到特征关键点

（1）短时分析
短时分析技术是音频特征分析的基础。
短时分析使得提取的音频特征是局部的且定长的。
对于一段音频来说，其长度通常是不固定的，若想提取出固定的特征向量，一般是将音频作为一个整体，然后提取其中的一些统计量。
但是全局特征显然无法有效的提取出音频的特征，因为一段音频一般随着时间发生不断发生变化的。（在图像领域应用广泛的卷积，其本质也是提取图像的局部特征）

短时技术的一般步骤如下：

分帧
|

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。