Python音频库
Python有一些很棒的音频处理库,比如Librosa和PyAudio。还有一些内置的模块(内置库 wave)用于一些基本的音频功能。
我们将主要使用两个库进行音频采集和分析:
1. Librosa
Librosa是一个用于音频、音乐分析、处理的python工具包,一些常见的时频处理、特征提取、绘制声音图形等功能应有尽有,功能十分强大。
功能实现:
- 读取音频
- 提取特征
- 提取Log-Mel Spectrogram 特征
Log-Mel Spectrogram特征是目前在语音识别和环境声音识别中很常用的一个特征, - 提取MFCC特征
MFCC特征是一种在自动语音识别和说话人识别中广泛使用的特征。
- 绘图显示
绘制声音波形、绘制频谱图
2. pyAudioAnalysis
pyAudioAnalysis是一个用于音频特征提取、分类和分段的Python库,涵盖广泛的音频分析任务。
功能实现:
实现语音的分割和识别,语音分割通过短时能量和过零率,语音识别通过dtw算法。