视频质量检测 Python

转载

mob6454cc7203e2 2024-07-11 23:13:51

文章标签 视频质量检测 Python 主观视频质量视频质量方法人工测试视频质量视频质量介绍 文章分类 Python 后端开发

主观视频质量是视频质量人类的体验。它关注的是如何视频是由观察者感知（也被称为“观察者”或“主体”）并指定他们在一个特定的观点视频序列，因此相关领域体验质量。主观视频质量测量是必要的因为客观质量评估算法等峰值信噪比已被证明与评级不相关。主观评级也可能被用来作为地面真实开发新的算法。

主观视频质量测试是心理物理实验在这一批观众率给定的刺激。这些测试在时间上是相当昂贵的（准备和运行）和人力资源，因此必须精心设计。

在主观视频质量测试，通常，采样率转换器（“源”，即原始视频序列在不同的条件下处理“假设参考电路”）产生PVSS（“处理视频序列”）

测量

测量主观视频质量的主要想法是类似于平均意见得分（MOS）评价音频。评价一个视频处理系统的视频主观质量，通常采取以下步骤：

选择原始视频序列测试正常
选择要评估的系统设置
应用设置到SRC，导致测试序列
选择一个测试方法，描述序列是如何被呈现给观众的，他们的意见收集
邀请一组观众
在特定的环境中进行测试（如实验室上下文）中以特定的顺序对每个观众提出的每一个PV
计算单个PVSS评级结果，监测和HRCS，例如MOS

的观测条件下，许多参数会影响结果，如房间的照度，亮度，对比度，显示类型，分辨率，观看距离和年龄和教育程度的观众。因此，建议报告这个信息和获得的评分。

源的选择

通常，一个系统要与不同的内容和内容特点的代表数测试。例如，可以选择从不同种类的内容摘录，如动作电影，新闻节目和动画片。的源视频的长度取决于测试，但通常使用的目的，不少于10秒的时间序列。

运动和空间细节的数量也应该涵盖范围广泛。这确保了测试所包含的不同的复杂的序列。

来源应该是原始的质量。应无可见编码失真或其他属性会降低原始序列的质量。

设置

曾的设计取决于所研究的系统。通常情况下，多个独立的变量，在这一阶段的介绍，他们是一批水平变化。例如，为了测试一个视频质量编解码器，独立变量可能是视频编码软件，目标比特率，以及处理后的序列的目标分辨率。

建议选择设置，收视率覆盖完整的质量范围内的结果。换句话说，假设一个绝对的等级评定量表，测试应该显示序列，观众会从差优良率。

观众

观众数量

观众也被称为“观察者”或“主体”。为了获得具有代表性的收视率，一定数量的观众应该邀请。这个数字是没有严格的定义。根据ITU-T，4和40之间的任何数字都是有可能的，其中4是用于统计目的的绝对最低，并邀请超过40名受试者没有附加值。它声称，至少10人需要获得有意义的平均值。然而，ITU-T建议的设计是典型的图像质量测量的家庭电视用户遇到的，在扭曲的范围和多样性往往是很小的。给出了大范围和对捕获的视频在移动设备和/或无线网络传输出现障碍的多样性，大量的人可能需要。

观众选择

观众应在不被专业人员在视频编码领域或相关领域的非专家。这一要求是避免了潜在的主题倾向。

正常视力或矫正视力正常使用Snellen图。色盲经常测试Ishihara板。

在一个正在进行的讨论QoE社区是一个观众的文化、社会、经济背景对得到的主观视频质量造成重大影响。一个系统的研究涉及四个国家六个实验室发现的起源问题的语言和文化/国家对视频质量评价无显著影响。另一组研究表明，人的因素占了主观评分的系统多因素方差，为所观察到的差异的10%培养会计，而制度因素有一个更大的整体规模效应。这些语境因素的影响因此取决于进行测试的范围。

测试环境

主观质量测试可以在任何环境下进行。然而，由于可能的影响因素不同的语境中，它通常是建议在一个中性的环境中进行测试，如专门的实验室。这样的一个房间可能是隔音的，涂上中性灰色的墙壁，并使用正确的校准光源。指定这些条件的若干建议。^{[ 7 ]}^{[ 8 ]}控制环境已被证明在所获得的分数低的变异。

众包

众包最近被用于视频主观质量评价，以及更一般的上下文中体验质量。在这里，观众给的评级在家使用自己的电脑，而不是在实验室间的主观质量测试的一部分。虽然这种方法可以获得比传统的主观测试，以更低的成本，更多的结果，的聚集反应的有效性和可靠性必须仔细检查。

世界上最大的众包的图片质量数据库是公开的生活在野外的图像质量挑战数据库。它包含了超过350000人的质量的判断从8000多人。人的判断进行了超过1100的手机相机拍摄的照片，通过不同程度的真实的扭曲折磨而扭曲，综合介绍了已在几乎每一个现有的数据库做了。

结果分析

意见的观众通常是平均的平均意见得分（MOS）。为了这个目的，分类尺度的标签可能会被翻译成数。例如，响应“坏”到“优秀”可以被映射到值的1到5，然后取平均值。MOS值应该被报告与统计置信区间因此，观察者之间的协议进行评估。

通常，附加措施的评估结果之前。主题的筛选是一个过程，观众的收视率是无效的或不可靠的是拒绝进一步的分析。无效的评级是很难察觉的，主体可能评不看视频，或者作弊的测试。一个学科的整体可靠性，可通过各种方法确定，其中概述了ITU-R和ITU-T建议。例如，一个人的个人得分和总体MOS的相关性，评估所有的序列，是在与其余受试者比较其可靠性的一个很好的指标。

标准化的测试方法

有许多方法来选择适当的序列，系统设置和测试方法。他们中的一些已经标准化。他们在几个ITU-R和ITU-T建议全面的描述，其中ITU-R bt.500和ITU-T p.910。虽然在某些方面的重叠，bt.500推荐已经在广播它的根源，而p.910集中在多媒体内容。

一个标准化的测试方法，通常从以下几个方面进行了阐述：

实验过程持续多久
在实验中发生
有多少次，为了每一个PV应该视
评级是否被每一次的刺激（例如演讲后）或持续
评级是否是绝对的，即指只有一个刺激，或相对（比较两个或两个以上的刺激）
其中规模等级了

另一个建议，ITU-T p.913，为研究人员提供了更多的自由，不同于典型的测试实验室环境进行主观质量测试，同时还要求他们报告所有必要的细节，使这种测试的可重复性。

实例

下面的一些标准化的测试程序的例子进行说明。

单刺激

ACR（绝对范畴等级）：每个序列分别在额定ACR规模。规模上的标签是“坏的”，“差”、“一般”、“好”、“优秀”，他们转换为值1, 2, 3，4和5时，计算的MOS。
acr-hr（绝对的类别评级隐藏参考）：一个变化的ACR，其中原始损害源序列除了受损序列所示，在未告知其存在的对象（因此，“隐藏”）。计算评级作为参考和受损的版本之间的差分。微分积分定义为PVS减去了隐藏的参考分值，加分人数的规模。例如，如果一个植物人被评为“差”，及其相应的隐藏的“好”，然后参考评级{ \文字风格2-4 + 5 = 3 }。当这些平均评级，结果不是一个MOS，但微分MOS（“组织”）。
是（单刺激连续质量等级）：长序列的额定使用滑块装置持续时间（变异的一个推子），在这组率质量现状。样品在固定的时间间隔，导致质量随时间的变化曲线而不是一个单一的质量评价。

双重刺激或多重刺激

主观质量评价（双刺激连续质量尺度）：观众看到一个清晰的参考和受损的顺序以随机顺序。他们被允许重新查看序列，然后分别对一个连续的尺度标记的ACR类的质量。
DSIS（双刺激的减值规模）和DCR（降解类等级）：指的是同样的方法。观众看到一个清晰的参考视频，然后同一视频受损，之后，他们被要求用一个所谓的第二视频投票减值规模（从“障碍是觉察不到的”到“障碍是很烦人的”）。
个人电脑（对比）：而不是比较正常和受损的序列，不同的损伤类型（曾）进行比较。曾的所有可能的组合应评估。

方法的选择

这方法的选择在很大程度上取决于时间和其他资源的测试和可能的约束的目的。一些方法可能语境作用较少（即订单的刺激影响的结果，这是不必要的测试偏差）。在ITU-T p.910，值得注意的是，方法如DCR应该用于测试传输的保真度，特别是在高质量的系统。ACR和acr-hr更适合由于给予绝对的结果–比较系统合格试验和–。PC的方法具有较高的识别能力，但需要较长的测试会话。