4.3 视频结构化描述技术

如果有一种技术能代替人智能阅读视频,并将其转化为计算机和人都看得懂的描述语言,在信息管理系统查询时,直接通过输入文本关键字就有相应的图像或视频片段推送出来,将大大提升业务效能,甚至可以通过个性化的定制,由系统自动推送你想要的图片或视频剪辑信息。这就是视频监控对视频结构化描述技术的现实迫切需求。

视频结构化描述技术对视频资源内容按照语义关系,采用时空分割、特征提取、对象识别等处理手段,组织成可供计算机和人理解的文本信息(见图 1) [1] 。从数据处理的流程看,视频结构化描述技术能够将监控视频转化为人和机器可理解的信息,并进一步转化为应用部门所需的情报,实现视频数据向信息、情报的转化。

结构化视频监控_前端


要将视频内容以结构化的文本描述出来,必须依赖图像处理技术、模式识别技术、语义技术等对视频数据进行多层次、多尺度的特征提取和语义组织(见图 2)。

结构化视频监控_结构化视频监控_02


在视频结构化描述系统中,首先将视频传送到描述设备,机器在这里对内容进行分析理解,并产生结构化的描述信息输出;接着对描述数据进行传输和存储,原始视频存储方式不变[2] 。视频结构化描述系统应用的拓扑结构见图 3。

结构化视频监控_ViewUI_03


视频结构化描述技术改变了以往视频监控系统被动、单向式数据采集的模式,实现了主动视觉感知、信息自动提取和主动推送,是建设新一代视频监控系统的基础。

视频结构化描述技术的应用模式,可以分为前端式和管理服务平台式。视频结构化描述技术在前端的应用,主要是指通过前端视频采集设备内嵌的SoC 系统,实现对现场视频流的实时分析和情报信息向服务平台的主动推送。这也是现在视频监控终端发展的主流趋势,即“智能前置”,意指把一些典型的视频分析功能在视频采集端实现,是视频的分布式异构计算处理概念的体现[3] 。通过“智能前置”,可以在前端实现视频在线分析功能并上传文本格式的分析结果,视频资源则根据文本检索的需要按需调用,大大节约了网络带宽的需求。

视频结构化描述技术在管理服务平台层的实现,可以充分利用云环境下计算资源和存储资源高效弹性调配的优势,搭建视频解析中心,实现对海量离线视频资源的自动文本解析。在采用视频专网进行数据传输的情况下,也可以在管理平台实现在线视频资源的结构化描述和主动情报推送。视频结构化描述系统用于日常公共安全信息智能处置,可以极大地节约警力,提升警务效能,实现视频监控系统从单纯的数据被动采集到情报自动生成的飞跃式发展。

下面以交通监管领域为例,介绍视频结构化描述技术的应用。视频结构化描述技术在交通领域的应用,是在对目标对象(机动车、行人)的特征表达(颜色、车型、衣着风格等外观特征和速度、步态等运动特征)和身份甄别(车牌号、人脸信息等)以及场景理解(如路口、市民广场、学校等典型场景,见图 4)的基础上[4-5] ,对交通事件进行语义网架构下的结构化文本表达(见图 5)。以记叙文写作为例,记叙文通过时间、地点、人物、原因、经过、结果六要素对事件进行准确全面的描述;视频结构化描述技术可以通过“时间、目标、场景、行为”等语义要素自动实现对交通监控视频资源的结构化文本表述。

结构化视频监控_结构化_04


视频结构化描述技术在智能交通控制领域的应用,将全面提升智能交通的管控水平和信息服务水平,实现车辆和路网全景式“可视化”管控,为交通信息的情报化分析和交通管理模式的转变提供了强大的科技保障,也为降低能耗,改善环境污染,提升城市形象提供了先进的技术支撑,具有巨大的社会效益和经济效益。