声音是由物体振动而产生的
声波的三要素
声波的三要素是频率、振幅和波形,频率代表音阶的高低,振幅代表响度(音量),波形代表音色。
PCM脉冲编码调制
PCM(Pulse Code Modulation),脉冲编码调制。人耳听到的是模拟信号,PCM是把声音从模拟信号转化为数字信号的技术。原理是用一个固定的频率对模拟信号进行采样,采样后的信号在波形上看就像一串连续的幅值不一的脉冲(脉搏似的短暂起伏的电冲击),把这些脉冲的幅值按一定精度进行量化,这些量化后的数值被连续的输出、传输、处理或记录到存储介质中,所有这些组成了数字音频的产生过程(抽样、量化、编码三个过程)。
描述一段PCM数据一般需要以下几个概念:量化格式(sampleFormat)、采样率(sampleRate)、声道数(channel)
量化是指在幅度轴上对信号进行数字化
采样就是在时间轴上对信号进行数字化
编码就是按照一定的格式记录采样和量化后的数字数据,比如顺序存储或压缩存储
采样频率:每秒采集数据的次数
采样精度:每次采集数据的位数
声道数:存在几路音频
比特率:针对编码格式,表示压缩编码后每秒的音频数据量大小
音频压缩编码
压缩编码的原理实际上是压缩掉冗余信号,冗余信号是指不能被人耳感知到的信号
几种常用的压缩编码格式
(1)WAV
WAV为微软公司(Microsoft)开发的一种声音文件格式,WAV是最接近无损的音乐格式,所以文件大小相对也比较大。
WAV编码的一种实现(有多种实现方式,但是都不会进行压缩操作)就是在PCM数据格式的前面加上44字节,分别用来描述PCM的采样率、声道数、数据格式等信息。
特点:音质非常好,大量软件都支持
适用场合:多媒体开发的中间文件、保存音乐和音效素材。
(2)MP3编码
MP3具有不错的压缩比,使用LAME编码(MP3编码格式的一种实现)的中高码率的MP3文件,听感上非常接近源WAV文件,当然在不同的应用场景下,应该调整合适的参数以达到最好的效果。
特点:音质在128Kbit/s以上表现还不错,压缩比比较高,大量软件和硬件都支持,兼容性好。
适用场合:高比特率下对兼容性有要求的音乐欣赏。
(3)AAC编码
AAC是新一代的音频有损压缩技术,全称Advanced Audio Coding,是一种专为声音数据设计的文件压缩格式。与MP3不同,它采用了全新的算法进行编码,更加高效,具有更高的“性价比”。优点:相对于mp3,AAC格式的音质更佳,文件更小。
适用场合:128Kbit/s以下的音频编码,多用于视频中音频轨的编码。
(4)Ogg编码
Ogg是一种非常有潜力的编码,Ogg除了音质好之外,还是完全免费的,Ogg有着非常出色的算法,可以用更小的码率达到更好的音质,但目前因为还没有媒体服务软件的支持
特点:可以用比MP3更小的码率实现比MP3更好的音质,高中低码率下均有良好的表现,兼容性不够好,流媒体特性不支持。
适用场合:语音聊天的音频消息场景。