Python音频库

Python有一些很棒的音频处理库,比如Librosa和PyAudio。还有一些内置的模块(内置库 wave)用于一些基本的音频功能。
我们将主要使用两个库进行音频采集和分析:

1. Librosa

Librosa是一个用于音频、音乐分析、处理的python工具包,一些常见的时频处理、特征提取、绘制声音图形等功能应有尽有,功能十分强大。

功能实现:

  1. 读取音频
  2. 提取特征
  • 提取Log-Mel Spectrogram 特征
    Log-Mel Spectrogram特征是目前在语音识别和环境声音识别中很常用的一个特征,
  • 提取MFCC特征
    MFCC特征是一种在自动语音识别和说话人识别中广泛使用的特征。
  1. 绘图显示
    绘制声音波形、绘制频谱图

2. pyAudioAnalysis

pyAudioAnalysis是一个用于音频特征提取、分类和分段的Python库,涵盖广泛的音频分析任务。

功能实现:
实现语音的分割和识别,语音分割通过短时能量和过零率,语音识别通过dtw算法。