视频类型层标注是对整段视频进行的粗略的标注,标注的关键字仅包含类型信息。然而这种标注显然不能满足视频检索的需要,我们还需要对视频内部的各个小段内容进行更精细的标注。关键帧图象层标注首先通过镜头边缘检测把视频切分成时间上连续的小段,再用关键帧提取算法从每段镜头中提取一帧图象作为关键帧。最后基于提取出的关键帧,标注一些关键字作为对此镜头内容的描述。
目前的视频标注主要集中在关键帧图象层,做了大量的工作。由于本文的关键帧图象层视频标注框架是基于流形排序和特征选择的,下面主要从这两方面回顾一下最相关的工作。
流形排序属于一种基于图的半监督学习算法,现有的特征选择方法主要可以分为下面三类:Filter方法、Wrapper方法和Embedded方法。
Filter方法是把特征选择看成是一个预处理的步骤,特征子集的选择和选用的分类器之间是独立的。最常见的Filter方法有根据相关性准则、或者交互信息量等指标对特征矢量每维的区分度进行排序,选择那些区分度较高的维度。
wrapper方法是把分类器当成一个黑盒子,根据它的分类效果来决定选择哪些特征。在用Wrapper方法时,通常需要把训练数据分成训练集和验证集两部分,因为这样才能够得到分类器的分类效果。
Embedded方法中,特征选择和训练分类器同时进行,在训练分类器的过程中完成特征选择。这主要是指那些具有特征选择功能的分类器。