本文将和大家分享如何利用深度学习算法实现高清监控视频无损压缩。

传输和存储能力无力支撑高清视频数据增长的现实

随着5G技术的成熟,以及高清监控设备的普及,视频数据暴增的时代已经来临。同时,面对着如VR、4K、8K等新兴视频技术的发展,网络带宽和传输能力无法支撑视频数据增长的矛盾日渐显露。

当前主流高清视频压缩技术

目前国内外针对视频实时传输主要采用前端压缩-传输,后端解码的方式。国际上通用的视频编码标准主要有运动图像专家组(MPEG)和国际电信联盟(ITU)合作开发的H.264和H.265,以及美国谷歌公司开发的VP8,VP9等。这些通用视频编码标准基于“预测-变换-量化-编码”的流程,将视频图像划分成大小一致或大小不等的编码单元,在单元内进行帧内和帧间预测,即为每一个编码单元寻找像素排列最接近的预设模式;利用预测模式和实际图像求残差,对残差矩阵进行DCT变换;在变换域对数据进行量化,以减少数据量;最后使用熵编码进一步去除数据冗余,达到对视频数据的高效压缩。H.264可以将视频元数据压缩到1/100-1/10;而H.265在同等画质条件下比H.264压缩效率提高一倍,但编码复杂性大幅提高,编码速度降低。

如何利用深度学习算法优化现有高清视频压缩技术

混合编码(Hybrid Coding)框架是目前广泛使用的视频编码框架,混合编码框架是指将预测编码,变换编码等多个类型的编码方法应用在同一个框架内的编码方法,流程主要分为预测、变换、量化、熵编码四个步骤,其中预测主要分为帧内预测和帧间预测。

视频监控存储容量h265_数据


图1. 基于块的混合编码框架示意图

我公司首创BBW视频编码技术,对经典混合编码进行了扩展,通过融合先进的机器学习与深度学习技术,在预测(帧内、帧间)、变换、量化等方面做出了独特而重要的改进,融合基于体验质量(QoE)和客观质量同步优化的思想,实现了编码后视频在码率不变的情况下画质大幅提升或画质不变的情况下显著降低码率的成果。

1. 基于感知的精细编码

基于人对视频画面的感知,有选择的调节不同区域划分块的方式。例如目标区域内的图像强制划分到8×8、4×4的精细单元,建立精细的预测模式,使用更多的码字来描述这些图像区域,以实现更好的目标区域画质;对背景区域的图像,可以降低预测单元划分精度,例如到32×32、16×16为止,适度忽略一些背景图像的细节和更新频率,有效降低背景区域图像的码率。

对于区域划分,目前BBW实现了两种独特而又互补的方案,一种是针对通用视频的显著性物体检测,另一种是针对特定场景的图像语义分割。这两种方案的特点在于:显著性物体检测是根据人对画面的关注度进行建模,能够实现在减少非显著性区域码率的情况下尽可能低的减少对画质的影响;而语义分割则能够实现对画面中不同场景的标记,动态调节编码参数,如行人、人脸、车辆、指示标志等。

视频监控存储容量h265_数据_02


视频监控存储容量h265_数据_03


图2. 显著性区域检测

这两种方案均采用优化的UNet结构UNetLite,使用BMI积累的大量场景化数据进行训练。优化后的网络具有更高的吞吐量和更低的延迟,在块划分的应用中对于精度和速度达到了平衡。

视频监控存储容量h265_数据_04


图3. 原始UNet结构图

同时,BBW没有使用传统的环路滤波器结构,而是直接在重建图像的环节后应用深度补偿网络(Deep Offset Net)。这一问题直接从原始YUV图像经过BBW压缩,可以获得无限量的数据。最终在BMI训练平台上,使用千万级不同场景的图像进行训练,使模型学习到有损图像到高清图像的映射。

2.智能编码

BBW编码利用深度卷积神经网络(convolutional neural network,CNN)优化快速帧内模式选择。用CNN设计若干个35类的分类器,分别对尺度为64,32,16,8,4的预测单元进行模式快速分类,输入为像素块,输出为35种预测模式中的一种。使用海量监控视频中提取出的预测单元和对应的预测模式进行训练。在编码流程中应用,首先根据预测单元的大小选择对应的分类器;然后将该预测单元的像素输入网络,输出35种模式中的一种,作为当前预测单元的帧内预测模式。使用深度学习确定帧内预测模式,相比通用HEVC的方案,耗时降低90%,大幅度提高了帧内预测的速度。

此外,BBW的“快速帧内预测模式选择方法”采用在线学习的方式,间隔固定的时间(一般是5秒),使用通用的帧内预测方法对网络结构和参数进行修正,以降低累积预测误差,并适应编码视频环境的不断变化。

3.智能量化

在视频编码流程的步骤中,量化是唯一损失数据精度、引入误差的步骤。量化参数(QP)越小,精度损失越低,保留的图像细节越丰富;QP越大,精度损失越高,保留的图像细节越少。通用视频编码H.265/HEVC对整张图像采用统一的QP值,或自适应变化的动态QP值。BBW技术应用UNetLite对画面进行划分,在目标区域采用较小的QP值,尽可能多地保留目标区域图像细节;而在背景区域采用较大的QP值,实现对视频整体码率的高效压缩。

4.模型优化

与深度学习在其他领域的应用相同,其作为BBW的重要技术支撑,也同样消耗大量的计算资源。为了能够令BBW能够落地应用,司马大大在软硬件结合优化深度学习模型推理方面进行了深入的研发。目前已积累了大量模型推理优化技术,并成功将其集成进VDMS系统中。软件方面包括知识蒸馏(Knowledge Distillation)、模型剪枝(Model Pruning)、模型量化(Model Quantization)等等,同时也在进一步探索神经网络结构搜索(NAS)在视频编码方向的应用。硬件方面,VDMS可以部署在机柜式服务器、PC台式机、嵌入式设备上,充分应用CPU、GPU、FPGA等计算设备的性能,保证了BBW技术的顺利落地。

视频监控存储容量h265_视频编码_05


图4. 知识蒸馏训练流程

BBW实现高清视频无损压缩的编码优势

●基于人工智能方法,实现智能动态编码,应用场景广泛。

●基于通用框架扩展,兼容性高,不影响结构化分析。

●压缩方式基于QoE优化,大幅压缩视频数据,对人眼来讲是无损压缩。

●相对于传统压缩方式,不改变分辨率、时长、帧率。

●PSNR值不低于32dB,满足客观和主观画质要求。

实际应用拓扑

视频监控存储容量h265_视频监控存储容量h265_06


(方案拓扑:后端压缩)

视频监控存储容量h265_数据_07


(方案拓扑:前端压缩)

BBW实现高清视频无损压缩的应用优势

我们以1万路1080P高清视频存储90天为例,与传统存储方案进行对比,可以发现本BBW实现高清视频无损压缩具备以下应用优势:

●节省90%的存储硬盘数量

●节省85%的综合用电量。

●节省75%的机柜和机房占用面积。

●节省90%的硬盘后期维护量。

同时,从后期使用和维护费用来看,使用本产品,5年总计可节省约1000万元以上。

视频监控存储容量h265_视频编码_08