音视频基础知识

原创

QtHalcon 2022-06-09 16:45:32 博主文章分类：音视频学习 ©著作权

©著作权归作者所有：来自51CTO博客作者QtHalcon的原创作品，请联系作者获取转载授权，否则将追究法律责任

1 视频编码

所谓的视频编码就是指通过特定的压缩技术，将某个视频格式文件转换成另一种视频格式文件的方式。视频流传输中最重要的编解码标准有国际电联的 H.261 、 H .263 、 H.264，运动静止图像专家组的 M-JPEG 和国际标准化组织运动图像专家组的 MPEG 系列标准，此外在互联网上被广泛应用的还有 Real“Networks 的 RealVideo、微软公司的 WMV 以及 Apple 公司的QuickTime 等。
视频编码分为两个系列，分别介绍如下。
• MPEG 系列： （由 ISO［国际标准化组织］下属的 MPEG ［运动图像专家组］开发）视频编码方面主要是 MPEGl (VCD 用的就是它〉、 MPEG2 ( DVD 使用）、 MPEG4 (DVDRIP 使用的都是它的变种，如 DivX 、 XviD 等）、 MPEG4 AVC （正热［］）。其还有音频编码方面，主要是 MPEG Audio Layer 1/2 、 MPEG Audio Layer 3 （大名鼎鼎的 MP3 ）、 MPEG-2AAC 、 MPEG-4AAC 等。注意， DVD 音频没有采用 MPEG 的。
• H.26X 系列： （由 ITU ［国际电传视讯联盟］主导，侧重网络传输，注意，只有视频编码）包括 H.261 、 H.262 、 H.263 、 H.263＋、 H.263＋＋、 H.264 （就是与 MPEG4 AVC 合作的结晶）。
音视频基础知识_数据

2 音频编码

常见的音频编码格式有 AAC 、 MP3 、 AC3 ，下面分别进行介绍。
• AAC ： 一种专为声音数据设计的文件压缩格式，与 MP3 不同，它采用了全新的算法进行编码，更加高效，具有更高的“性价比飞利用 AAC 格式，在感觉声音质量没有明显降低的前提下，可使文件更加小巧。苹果 iPod、诺基亚手机也支持 AAC 格式的音频文件。 AAC 的优点是，相对于 M凹， AAC 格式的音质更佳，文件更小。 AAC 的缺点是， AAC 属于有损压缩格式，与时下流行的 APE 、 FLAC 等无损压缩格式相比音质存在“本质上”的差距；加之，传输速度更快的 USB 3.0 和 16GB 以上大容量 MP3 正在加速普及，这也使得 AAC 头上 “小巧”的光环逐渐暗淡。
• MP3: MP3 是一种音频压缩技术，其全称是动态影像专家压缩标准音频层面 3(Moving Picture Experts Group Audio Layer III ），简称为 M的。它被设计用来大幅度地降低音频数据量。利用 MP3 技术，将音乐以 1 : 10 甚至 1 : 12 的压缩率，压缩成容量较小的文件，而对于大多数用户来说，重放的音质与最初的不压缩音频相比没有明显下降。 M凹的特点是，其利用人耳对高颇声音信号不敏感的特性，将时域波形信号转换成频域信号，井划分成多个频段，对不同的频段使用不同的压缩率，对高频信号使用大压缩率（甚至忽略信号），对低频信号使用小压缩率，保证信号不失真。这样一来就相当于抛弃人耳基本听不到的高频声音，只保留能昕到的低频部分，从而将声音用
1 : 10 甚至 1 : 12 的压缩率压缩。
• AC3 ： 全称为 Audio Coding Version 3 ，是 Dolby 实验室所发展的有损音频编码格式。AC3 被广泛应用于 5.1 声道，是 Dolby Pro Logic 的继承者，不同的地方在于 AC3 提供了 6 个独立的声道而 Pro Logic 混合其环绕声道。 AC3 普及程度很高，以 384~448kb/s
的码率应用于激光唱片和 DVD ，也经常以 640kb/s 的码率广泛应用于电影院。 DolbyAC3 提供的环绕声系统由 5 个全频域声道和 l 个超低音声道组成，被称为 5.1 声道。 5个全频域声道包括左前、中央、右前、左后、右后。超低音声道主要提供一些额外的低音信息，使一些场景（如爆炸、撞击等）的声音效果更好。

帧率

帧率（ Frame Rate 〉是用于测量显示帧数的量度。所谓的测量单位为每秒显示 l帧数（企ames per second ，简称 fps 〕或“赫兹 ”（ Hz ）。

每秒显示帧数（ fps ）或者l帧率表示图形处理器处理场时每秒能够更新的次数。高帧率可以得到更流畅、更逼真的动画。一般来说， 30年s 就是可以接受的，但是将性能提升至 60fps 则可以明显提升交互感和逼真感，但是超过 75年s 就不容易察觉有明显的流畅度提升了。如果帧率超过屏幕刷新率，则只会浪费图像处理能力，因为监视器不能以这么快的速度更新，这样超过刷新率的帧率就液费掉了。

分辨率

视频分辨率是指视频成像产品所形成的图像大小或尺寸。

刷新率

刷新率是指屏幕每秒画面被刷新的次数，刷新率分为垂直刷新率和水平刷新率，一般提到的刷新率通常指垂直刷新率。垂直刷新率表示屏幕上图像每秒重绘多少次，也就是每秒屏幕刷新的次数，以 Hz （赫兹）为单位。刷新率越高，图像就越稳定，图像显示就越自然清晰，到眼睛的影响也越小。刷新率越低，图像闪烁和抖动得就越厉害，眼睛疲劳得就越快。一般来说，如能达到 80Hz 以上的刷新率，就可以完全消除图像闪烁和抖动感，眼睛也不太容易疲劳。

编码格式

编码的目的是压缩数据量，采用编码算法压缩冗余数据。常用的编码格式有如下这两种。
• MPEG （MPEG-2 、 MPEG-4)
• H.26X ( H .263 、 H.264/AVC 、 H.265注IEVC)

封装格式

把编码后的音视频数据以一定格式封装到一个容器，封装格式有 MKV 、 AVI 、 TS 等。

码率

码率也就是比特率，比特率是单位时间播放连续的媒体（如压缩后的音频或视频〉的比特数量。比特率越高，带宽消耗得越多。比特（ bit）就是二进制里面最小的单位，要么是 0 ，要么是 l 。

文件大小 ( b ) ＝码率 ( b/s ） × 时长 （ s ）

画质与码率

此处提出一个问题，是码率越大，画质越好，视频越流畅吗？这是错误的说法，实际上视
频质量和码率、编码算法都有关系。

DTS 与 PTS

下面分别介绍一下 DTS 和 PTS。
• DTS：即 Decode Time Stamp ，主要用于标示读入内存中的比特流在什么时候开始送入解码器中进行解码。
• PTS ：即 Presentation Time Stamp ，主要用于度量解码后的视频帧什么时候被显示出来。

YUV 与 RGB

下面分别介绍→下颜色空间模型 YUV 与 RGB 。
• YUV：也被称作 YCrCb ，是被欧洲电视系统所采用的一种颜色编码方法（属于 PAL),是 PAL 和 SECAM 模拟彩色电视制式采用的颜色空间模型。其中的 Y 、 U、 V 几个字母不是英文单词的首字母，其中 Y 代表亮度， W 代表色差， U 和 V 是构成颜色的两个分量。
• RGB ：是一种颜色空间模型，通过对红 CR ）、绿 C G ）、蓝（ B) 3 个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色， RGB 即代表红、绿、蓝 3 个通道的颜色。

视频帧及音频帧

常见的视频帧有 I、 P 、 B 帧等，下面分别进行介绍。
I 帧表示关键帧，你可以理解为这一帧画面的完整保留，解码时只需要本帧数据就可以完成（因为包含完整画面）。
p 帧表示的是这一帧和之前的一个关键帧（或 P 帧）的差别，解码时需要用之前缓存的画面叠加上本帧定义的差别生成最终画面。（也就是差别帧， P 帧没有完整画面数据，只有与前一帧的画面差别的数据。）
B帧是双向差别帧，也就是 B帧记录的是本帧与前后帧的差别（具体比较复杂，有 4种情况），换言之，要解码 B帧，不仅要取得之前的缓存画面，还要解码之后的画面，通过前后画面数据与本帧数据的叠加取得最终的画面。 B 帧压缩率高，但是解码时CPU 会比较吃力。

音频I帧的概念没有视频帧那么清晰，几乎所有视频编码格式都可以简单地认为 l 帧就是编码后的一幅图像。但音频帧跟编码格式相关，它是各个编码标准自己实现的。
对 PCM （未经编码的音频数据）来说，它根本就不需要帧的概念，根据采样率和采样精度就可以播放。比如采样率为 44.lHz，采样精度为 1 6 位的音频，你可以算出比特率是 4 410 016kb/s ，每秒的音频数据是固定的 4 410 016/8 字节。
AMR 帧比较简单，它规定每 20ms 的音频是I帧，每一帧音频都是独立的，有可能采用不同的编码算法以及不同的编码参数。
MP3 帧较复杂一些，包含了更多的信息，比如来样率、比特率等各种参数。具体如下：

音频数据帧个数由文件大小和帧长决定，每一帧的长度可能不固定，也可能固定，由比特率决定，每一帧又分为帧头和数据实体两部分，帧头记录了 MP3的比特率、采样率、版本等信息，每帧之间相互独立。

音频的码率 = 取样频率 X 量化位数 X 声道数 （b/s）

量化精度
量化精度表示可以将模拟信号分成多少个等级，量化精度越高，音乐的声压振l幅越接近原音乐。量化精度的单位是 bit （比特）， CD 标准的量化精度是 16bit , DVD 标准的量化精度是24bit 。也可理解为一个采样点用多少 bit 表示（ 8/l 6 /24/32bit ）。

采样率
来样率指每秒音频采样点个数（ 8 000/44 lOOHz ），采样率单位用 Hz （赫兹）表示。

声道
声道（ Sound Channel ）是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号，所以声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。
常见声道有单声道、立体声道、 4 声道、 5.1 声道、 7.1 声道等，下面分别进行介绍。

单声道： 设置一个扬声器。
立体声道：把单声道一个扬声器扩展为左右对称的两个扬声器。声音在录制过程中被分配到两个独立的声道，从而达到了很好的声音定位效果。这种技术在音乐欣赏中显得尤为有用，昕众可以清晰地分辨出各种乐器来自何方，从而使音乐更富想象力，更加接近临场感受。立体声技术广泛应用于自 Sound Blaster Pro 以后的大量声卡，成为了影响深远的音频标准。
4 声道： 4 声道环绕规定了 4 个发音点，分别是前左、前右、后左、后右，昕众则被包围在中间。同时还建议增加一个低音音箱，以加强对低频信号的回放处理（这也就是如今 4.1 声道音箱系统广泛流行的原因〉。就整体效果而言， 4 声道系统可以为听众带来来自多个不同方向的声音环绕，可以获得身临各种不同环境的昕觉感受，给用户以全新的体验。
5.1 声道： 其实 5.1 声道系统来源于 4.1 声道系统，将环绕声道一分为二，分为左环绕和右环绕，中央位置增加重低音效果。

音视频基础知识_比特率_02