在淘宝,每天有亿级的User-Generated Content (UGC) 等非传统广电视频(包括但不限于短视频、直播等)被生产或播放,其存在明确的无参考视频质量评价的需求,用以对视频质量进行实时监控,确保用户体验。
因此,大淘宝音视频技术团队自研了一种针对UGC视频的无参考视频质量评价模型 —— MD-VQA(Multi-Dimensional Video Quality Assessment),综合视频的语义、失真、运动等多维度信息,来衡量视频绝对质量的高低。MD-VQA已经全面应用于包括淘宝直播、逛逛在内的大淘宝视频相关业务,“量化”画质,有效地反应技术迭代带来的体验提升,为大淘宝视频体验提供画质保障。
1. 背景
随着互联网视频化的深入,越来越多的UGC等非传统广电视频(包括但不限于短视频、直播等)在互联网平台上被生产或播放。手淘内容化与互联网内容化的趋势契合,而平台亦希望能够在成本可控的前提下保障尽可能好的视频画质,视频质量评价指标在其中发挥关键作用。
相比传统广电视频更多地使用有参考视频质量评价指标,也即要求使用近似无损的源视频作为参考,UGC视频源质量不可控,无法作为理想的无损源,因此无参考视频质量评价方法在短视频和直播视频的评价方面更具备实用价值。
大淘宝音视频技术团队基于淘宝直播、逛逛等内容业务,构建了大规模UGC视频质量评价数据集 —— TaoLive,包含3,762个视频,覆盖不同的内容、失真、和质量,并通过专业的主观标注,获取165,528个视频的主观质量标签。在此之上,大淘宝音视频技术团队自研了一种针对UGC视频的无参考视频质量评价模型 ——MD-VQA(Multi-Dimensional Video Quality Assessment),综合视频的语义、失真、运动等多维度信息,并进行时空域的融合,来衡量视频绝对质量的高低。在公开的视频质量评价数据集LIVE-WC和YT-UGC+,以及TaoLive上,MD-VQA在主流视频质量评价指标SRCC和PLCC上均超过了SOTA(State-Of-The-Art)方法,达到了先进性能。
MD-VQA已经全面应用于包括淘宝直播、逛逛在内的大淘宝内容业务,监控视频业务的大盘画质的变化,快速、精准地筛选出不同画质水位的直播间和短视频,配合淘宝自研S265编码器、视频增强算子集STaoVideo以及《电商直播高画质开播指南》[1] 等,帮助提升平台内容画质。
2. 方法
针对上述问题,我们基于淘宝直播平台的视频,构建了大规模UGC视频质量评价数据集 —— TaoLive,包含3,762个直播视频,覆盖不同的内容和质量,并通过专业的主观打分,获取165,528个主观质量分数的标注数据。与此同时,我们自研了针对UGC视频的无参考视频质量评价模型 —— MD-VQA,综合视频的语义、失真、和运动等多维特征,并进行时空域的融合,来衡量视频绝对质量的高低。
2.1 TaoLive数据集
我们从淘宝直播平台筛选了418条视频,覆盖美妆、服饰、珠宝、食品、生活日常等不同内容、以及720p和1080p两个主流分辨率。然后,我们对这些视频进行8种不同失真等级的编码,来模拟实际应用中不同的视频质量,最后共生成3,762条不同内容、不同质量的视频,用来验证我们提出的MD-VQA的模型性能。部分示例视频如图1。
待补充。。。