Android 音视频编解码(一) – MediaCodec 初探Android 音视频编解码(二) – MediaCodec 解码(同步和异步)

前面学习了 MediaCodec 的基本原理,以及如何解码,在学习MediaCodec 编码之前,先来学习视频是如何编码的,以及最常用的 H264。
这一章偏文字理论,但非常重要,希望沉下心来慢慢看。

说到视频,第一印象就是占内存,我们知道视频是由一连串图像组成的,假设我们现在有一个视频,1080p(1920x1080) ,帧率是25帧,时长是2个小时,如果不进行压缩的话,它的大小为 1920x1080x25x2x60x60x1.5≈260.7G 。如果我们不对视频进行压缩的话,任何存储设备都存储不了几部电影,更别说在线电影了,带宽根本撑不住。

一. 视频编码原理

前面说到,视频是一帧帧的图像,因此编码也是对图像的编码,而图像一般是 RGB,即红蓝绿三个分量来组合成所有颜色。但是 RGB 对编码不太友好,因此通常会使用 YUV 的图像格式来进行编码,Y 表示亮度,UV表示色彩空间。人眼对亮度信息敏感,对色度信息稍弱,因此我们对图像进行不同的编码。具体YUV与RGB的信息,可以查看Android OpenGL ES 学习(十一) –渲染YUV视频以及视频抖音特效

对于每一帧图像,又可以划分成一个个块来编码,不同编码类型对块的解释不通,但基本相同,如 H264 中图像块被叫做宏块,宏块的大小一般为 16x16(H264),32x32(H265,VP9)等。

二. 编码模式

图像一般具备数据冗余的,因此我们可以根据此特性去做一些操作,减少图像的数据量,比如 Bitmap 压缩,我们可以修改它的缩放因此,适配空间大小,达到压缩空间省内存的效果,视频同样如此,去除冗余的方式有:

  • 空间冗余:相邻像素具备相似性
  • 时间冗余:相邻帧的内容往往很相似,两张图像变化很小,相似性很高
  • 视觉冗余:人眼睛对高频信息敏感度低于信息,比如眼睫毛,因此可以去除高频信息
  • 信息熵冗余:我们一般会使用 Zip 等压缩工具去压缩文件,将文件大小减小,这个对于
    图像来说也是可以做的。

视频编码就是通过上述4中冗余来达到视频压缩的目的。更多视频压缩信息,可以参考极客学院-视频怎么编码的 而 H264 就是针对以上冗余信息进行算法编程,达到视频压缩的。

三. H264 简介

视频编码标准其实有很多,而大名鼎鼎的就是 H264 了,可以说是最常用,最普遍的视频编码格式。其实除了H264,还有H265,H264和H265都是国际标准化组织(ISO)和国际电信联盟(ITU)开发的编码标准,而VP8、VP9 和 AV1是谷歌开发的编码标准,H264 和 H265 是需要专利费的,所以VP8、VP9 和 AV1(都是免费)也是谷歌为了对抗他们高昂专利费而开发出来的。

上面讲到了视频编码的原理,这里我们通过H264来了解视频编码中的码流结构,以及H264 是如何解决4中冗余信息的。它的主要步骤为:

  1. 帧内预测:解决空间冗余问题
  2. 帧间预测:解决时间冗余问题
  3. DCT变化和量化:解决视觉冗余问题

3.1 帧内预测 - 如何减少空间冗余

前面说到,帧内预测是为了解决空间冗余问题,我们知道,一幅图像中相邻像素的亮度和色度信息是比较接近的,并且亮度和色度信息也是逐渐变化的,不太会出现突变。也就是说,图像具有空间相关性,帧内预测就是按照这个特点来进行的。

比如这张蓝色,它相邻的像素的亮度和色彩就是相似。

Android解码输出yuv android音视频编解码_Android解码输出yuv


所以帧内预测就是利用已经编码后的相邻像素的值来预测待编码的像素值,从而达到减少空间冗余的目的。

你可能会奇怪,已经编码过的像素,不是变成码流了吗,怎么还能去预测待编码的像素的。其实这个已经编码的像素是会重建成重建像素,用做之后待编码快的参考像素的。

不同块大小的帧内预测模式

这里不打算深入讲,因为要深入讲的话,得重新开一章才行,这里我们简单了解一下即可。

前面说到,视频编码是以块为单位的。在H264的标准里面,块可以分为宏块和子块,宏块的大小是 16x16 (YUV 4:2:0 ,Y 为16x16,UV 为 8x8),在帧内预测中,图像除了相似的地方,还有更细节的部分,如蓝色天空的一朵云,因此,Y 宏块还可以分成16个 4x4 的子块

Android解码输出yuv android音视频编解码_Android解码输出yuv_02


Y 与 UV 的预测是分开进行的,因此,我们可以总结三个点:

  1. 宏块大小为 16x16,Y 为16x16,UV 为 8x8
  2. Y 和 UV 块是分开独立进行预测的,即Y会参考已编码Y块的像素,UV 会参考已编码的UV块像素
  3. 16 x 16 的Y块可以继续划分成 16 个 4 x 4 的子块。

所以,我们在实际帧内预测的时候就会分为:4 x 4 Y块的预测、16 x 16 Y块的预
测、8 x 8 UV块的预测.

实际上,4x4的字块中,帧内预测的模式最多,共有8个,其中有8个方向模式和一种DC模式,且方向模式指的是预测是有方向角度的。这里涉及到具体的编码算法,就不展开,若感兴趣,可参考极客学院-帧内预测

3.2 帧间预测 - 如何减少时间冗余

这里也不深入,主要连接P帧,B 帧的概念即可

前面说到,时间冗余是指相邻两帧画面相似的地方比较多,前后两帧图像变化很小,比如帧率30,1秒内有30张图像,如果是连续变化,两帧的图像其实变化往往很小,这就是相关性,帧间预测,就是利用这个特点来进行算法编码的。即:

通过在已经编码的帧里面找到一个块来预测等待编码块的像素,从而达到减少时间冗余的目的。

注意这里和帧内预测的区别:

  1. 帧内预测是同张图像,等待编码的块去参考已编码的块像素;而帧间预测,则是等待编码的图像去参考已经编码的图像像素块
  2. 帧间预测可以在多个已经编码的图像里,去寻找参考像素块,也可以是单个。
  3. 帧间预测,即可以参考前面的图像,也可以参考后面的图像(如果参考后面的图像,后面的图像也需要提前编码)。只参考前面的帧,我们成为前向参考帧 - P帧了;参考后面的帧或者前后两帧图像的帧,我们称之双向参考帧 - B帧。

这里以 H264 的标准来讲讲 P 帧的帧间预测过程,当然也是了解个大概,更详细的,参考极客学院 - 帧间预测

其实阵间预测也是通过块作为参考的,我们会在已经编码的帧里面找到一个块来作为预测块,这个已经编码的帧称之为参考帧。

那问题来了,前面说到帧间预测是图像与图像之间的参考,如果两张图像一模一样,还好理解一点,如果是有变化的呢?比如下面这张图:

Android解码输出yuv android音视频编解码_Android解码输出yuv_03

可以看到,树木是不变的,但是汽车移动了,这里是怎么计算的?

从编码的角度来看,汽车是不变的,变的是运动轨迹,因此,为了表示这种变化,可以使用运动矢量来表示编码帧中编码块和参考帧中,预测块之间的位置的差值

比如说上面两幅图像中,小车从前一幅图像中的(32,80)的坐标位置,变化到当前图像
(80,80)的位置,向前行驶了 48 个像素。很明显,如果我们选用(32,80)这个块作
为当前(80,80)这个编码块的预测块的话,是不是就可以得到全为 0 像素的残差块了?
这是因为小车本身是没有变化的,变化的只是小车的位置。

而这里的难点,在于如何找到这个最佳的参考帧,这里就涉及到运动算法。你可能会箱单,既然都分成块了,那逐行对比即可,即全局搜索,好处就是啥都能对比到,但是缺点就是一帧算下来,耗时过长,因此还需要更快速的算法。这里就不细讲,参考极客学院 - 帧间预测

3.2 变换量化 – 如何减少视觉冗余

通过前面的知识,已经知道 ,通过帧内编码可以去除空间冗余,通过帧间编码可以去除时间冗余,而为了分离图像块的高频和低频信息从而去除视觉冗余,我们需要做 DCT 变换和量化。

其实DCT 变换,就是离散余弦变化,它可以将你扛到的图像转到成数据,并能很好的去除相关性。
经过 DCT 变化之后,低频信息会集中出现在左上角,高频信息则分散到其他地方,而人又对高频信息不敏感,因此图像在经过 DCT 变化后,再去除一些高频信息,就可以达到压缩的目的。

而高频信息幅度值比较小,因此还可以使用量化的方式,即除法操作,将高频信息幅度变小,达到压缩的目的。

Android解码输出yuv android音视频编解码_Android解码输出yuv_04


更多细节,参考极客学院-变化量化

四. H264

前面学习了视频编码的原理,现在来看H264,估计会简单很多。先来看看结构:

Android解码输出yuv android音视频编解码_H264_05


在上面的结构中,一个视频编码后的数据叫做帧,一帧由1个片 (slice)或多个片组成,一个片 又可以分成多个宏块 (MB),一个宏块又可以由多个子块组成。而宏块是H264的基本单位,前面也说到,编码基本是基于块去做参考的。

4.1 帧类型

可能平时你也接触过,H264的帧类型,可以分为 I帧,P帧,和B帧。前面的视频编码原理讲到,为了减少空间冗余和时间冗余,有涉及到帧内预测和帧间预测。
再回顾一下,帧内预测,是参考自身的宏块,帧间预测是不同帧之间的参考,即:

  • 帧内预测不需要参考已编码帧,对已编码帧是没有依赖的,并可以自行完成编码
    和解码。
  • 帧间预测是需要参考已编码帧的,并对已编码帧具有依赖性。帧间预测需要参
    考已经编码好了的帧内编码帧或者帧间编码帧。并且,帧间编码帧又可以分为只参考前面
    帧的前向编码帧,和既可以参考前面帧又可以参考后面帧的双向编码帧。

因此,我们可以得出两者之间的关系:

帧类型

预测方式

参考帧

优点

缺点

I帧

帧内编码帧

只帧内预测


能独立编码

压缩率小

P帧

前向编码帧

可以进行帧内预测和帧内预测

参考前面的I帧或P帧

压缩率比I帧高

必需参考正确的帧才能正确解码

B帧

双向编码帧

可以进行帧内预测和帧内预测

参考前面或者后面已经编码的I帧或者P帧

压缩率最高

需要缓存帧,参考后面的帧,延时高

可以看到,如果编解码中,如果前面一个帧出现了错误,那么P帧和B帧肯定也会出现错误,虽然B帧也可以参考后面的帧,但一般很少用到B帧,比如只有P帧,错误就会一直传递,为了避免这种情况,就有一种特殊的I帧,叫 IDR 帧,也叫立即刷新帧

4.2 IDR 帧

在H264的标砖中,IDR 后的帧不再参考前面的帧,这样如果一帧编码错误后,如果此时有IDR帧过来,后面的帧就只会参考这个IDR帧,就截断了错误,后面就可以正常编解码了。
所以,一般都会使用 IDR帧,而不是普通I帧。

4.3 GOP - 关键帧间隔

从一个 IDR 帧开始到下一个 IDR 帧的前一帧为止,这里面包含的 IDR 帧、普通 I 帧、P 帧和 B 帧,我们称为一个 GOP(图像组)。

Android解码输出yuv android音视频编解码_音视频_06


所以,一个GOP的大小,是由IDR的间隔决定的,这个间隔,也叫做 关键帧间隔,关键帧越大,则IDR相关越远,GOP越大,反之亦然。

当然GOP不是越大越好,也不是越小越好,比如直播场景,由于网络等因素,你可能GOP小一些比较好,而局域网投屏,网络基本稳定,所以GOP可以设置大一些。

4.4 码流结构

前面也说到一帧图像可以划分成一个或多个 Slice,而一个 Slice 包含多个宏块,且一个宏块又可以划分成多个不同尺寸的子块。这里我们一层层去剥开它。

4.4.1 码流格式

H264 有两种格式,一种是Annexb,另一种是MP4,相同是他们都有起始码,而它们的不同是:

  • Annexb: 起始码是三个字节,即 00 00 01
  • MP4: 起始码是四个字节,即 00 00 00 01

因此,我们在解析H264文件时,要注意头部信息的起始码。

4.4.2 SPS/ PPS

在H264码流中,有两个很重要的信息,即sps和pps:

  • sps:主要包含图像的宽高,YUV 格式和位深等基本信息
  • pps:主要包含熵编码类型,基础QP和最大参考帧等编码信息

如果一段码流中,缺失了这两个部分,之后的I帧,P帧,B帧都无办法解码。

4.4.3 NALU

现在我们知道了,H264 的码流中, SPS、PPS、I 帧、P帧和 B 帧。由于帧又可以划分成一个或多个 Slice。因此,帧在码流中实际上是以 Slice 的形式呈现的。

所以,H264 的码流主要是由 SPS、PPS、I Slice、P Slice和B Slice 组成

的。如下图所示:

Android解码输出yuv android音视频编解码_android_07


那如何在码流中区分这些数据呢?

为了解决这个问题,H264设计了NALU (网络抽象层单元),sps 是一个 NALU,pps也是一个 NALU单元,每一个片(Slice) 也是一个 NALU 。

它的结构组成是:

  • NALU : 一个字节的 Nalu Header 加若干个字节的Nalu data 组成吗
    – 如果这个NALU 是 Slice,它的data ,有可以拆分成 slice Header 和 Slice Data
    – 而Slice data 由可以拆分成 MB Data,如下图:

    这里主要看 NALU Header ,它是一个字节,结构如下:

    这里关注 type类型,它占5个bit,表示 NALU 的类型,取值如下:

    有了 NALU Type 表示,我们就可以知道了几个重要的类型,如sps 是7,pps 是8,而IDR 帧是5等等:

    通过解析一段H264的码流,我们也可以看到这些信息:
    SPS:

    PPS:

    IDR:

    因此,我们解析H264 文件时,就可以通过起始码,00 00 01 x 或00 00 00 001 x 的方式去取出每一帧的数据,再喂给解码器,实现解码的效果。