基于图像的目标检测和语义分割已进入后半程,基于视频的内容分析正在逐渐成为主流,理由很简单视频可以拿到更多有价值可分析的信息。

一个视频在它的生命周期内可能涉及到许多处理技术。从摄像头捕获开始,然后是编解码,这个阶段还涉及到传输、存储,然后是编辑与处理,比如剪辑、背景分割。随后是信息提取,包括物体识别、场景检测、人物分析、行为识别、主题提取、事件检测。以上步骤完成后,我们拿到了海量视频,还可做视频的检索。它有两部分作用,一是通过给定的视频,来检索其中是否有我们想要的内容;另一个是通过给定的视频在海量的数据库中检索出相似视频。

而后可对视频进行两方面的操作,一个是做工具化的功能,一个是基于内容的分析。工具化指对视频人物的美化,背景的替换,各种特效的实现。内容分析就是标签化,比如识别视频中的物体,检测视频中的场景,还有对用户行为的一些检测。下图是XX公司的内容分析与检索平台应用架构


首先最简单的,我们看到一个视频后,第一反应是它的色调、纹理、风格、画质如何。再更进一步,我们需要了解这个视频包含了哪些物体,发生的场景在哪里,有哪些人物特征,包括性别、年龄、特征、服饰,同时这个内容是否违规。另外,还有更深层次的对视频内容的识别、检测,比如学术界较为前沿的研究就是行为识别。


多媒体内容分析平台包含信息如上图所示。

短视频内容分析最终落地点多为 视频的标签,将视频正确分类才能更好的为用户推荐。所以如何有效的定义一套标签体系,是短视频前期最重要的事情。比如实际中可能会给视频制定像搞笑和幽默这样的一些标签,但一个视频是否算搞笑、幽默,无法仅从视觉或声音、语音等一些信息进行准确判定。要将这几个因素结合在一起进行一个综合的制定。

通常一个视频,最多给四到五个维度的标签。以业务标签作为指引,拿视频数据和文本数据(伴随视频的标题、评论相关信息)去提取视频特征、音频特征进行聚类,然后对聚类进行抽象定义,得出相应的视觉标签元素。这个标签元素就是我们用来训练的标签。最后训练标签输出的结果会反过来映射到业务标签,用这种方法定义的标签是多层级多维度的。

视频的特征提取通常是抽帧,如一秒一帧,15秒的短视频抽取15帧,进行视频的描述。这样的话,时间复杂度会降低。对于推荐或者检索类似的视频会更加有效。