关于<监控视频的异常检测与建模综述>学习

视频异常检测算法以无监督算法为主 。

主要挑战:                      1)异常事件定义与特定场景的依赖性;

                                        2)异常事件的稀少性、多样性、不可穷举性;

                                        3)训练样本中包含噪声,对训练有干扰;

                                        4)数据的隐私性,目前可用的公开数据集较少.

监测视频监控是否有画面java 监控录像检测_计算机视觉

监测视频监控是否有画面java 监控录像检测_深度学习_02


一、视频异常分类

 1)外观异常

        这些异常可以被认为是场景中不寻常的物体出现.例如人行道上的骑自行车者,或马路上的纸箱.检测这些异常只需要检查1帧视频的局部区域.

2)短期运动异常

        这些异常可以被认为是场景中不寻常的物体运动.例如一个人在图书馆跑步,或在军事基地附近闲逛.检测这些异常通常只需要在短时间内检查视频的局部区域.外观异常和短期运动异常可以进一步称为局部异常,因为它们具有额外的属性.

3)长期轨迹异常

        这些异常可以被认为是场景中不寻常的物体轨迹.例如在人行道上拐来拐去的人,或在车流中不断加塞的汽车.检测轨迹异常需要检查较长时间的视频片段.

4)群体异常

        可以被认为是场景中不寻常的物体相互作用.比如一群人突然向四周跑动.检测群体异常需要分析视频中2个或多个区域之间的关系.

5)时间异常

        这种异常与所有其他类型的异常是正交的.使这些活动异常的是它们发生的时间.这些异常在本质上与前面讨论的位置相关异常非常相似,只是相关的上下文是时间,而不是空间.举个例子,人们在黎明时分进入游乐场.通常,检测这些异常只需要在一天的不同时间使用不同的正常状态模型.


二、视频异常检测方法分类

 1)基于距离的        2)基于概率的        3)基于重构的

        2.1 基于特征表示的主题

监测视频监控是否有画面java 监控录像检测_深度学习_03

监测视频监控是否有画面java 监控录像检测_深度学习_04

        2.2 检测方法的建模

        一些人使用o n e-c l a s s支持向量机(one - class·support vectormachine , OC SVM) .

        另一些人用2种方式之一来解释异常的位置特殊性:

                1)根据体素在视频帧中的位置来给出异常得分;

                2)以来自邻近体素的信息形式提供额外的上下文进行评分.


三、 基于距离的方法

        基于距离的方法是使用训练数据来构建一个正常模型,并从这个模型中测量偏差来确定异常的分数.通常,这些模型本身非常简单,但是巧妙地表示会带来良好的性能.以距离为基础的方法可以被视为概率和基于重建的方法的一种更一般的形式. 

Saligrama V,Chen Zhu. Video anomaly detection based onlocal statistical aggregates[C]//Proc of the IEEE ComputerSociety Conf on Computer Vision and Pattern Recognition.Los Alamitos,CA:IEEE Computer Society,2012:2112-2119

论文地址:Sci-Hub | [IEEE 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) - Providence, RI (2012.06.16-2012.06.21)] 2012 IEEE Conference on Computer Vision and Pattern Recognition - Video anomaly detection based on local statistical aggregates | 10.1109/cvpr.2012.6247917

监测视频监控是否有画面java 监控录像检测_监测视频监控是否有画面java_05

        作者以异常具有局部时空特征为前提,使其在局部正常数据的联合概率分布下具有较低的可能性.他们提取交叠的固定大小的视频块,并用低级运动描述符表示它们.他们使用时空滤波器对这些表示进行统计,并计算每个训练和测试视频中每个位置的视频块的K近邻距离.然后,他们通过聚合加权的 K 邻近距离来计算一个综合得分.对训练和测试视频的所有视频块的综合分数进行排序,进而完成最终的检测.

Guo Huiwen,Wu Xinyu,Li Nannan,et al. Anomalydetection and localization in crowded scenes using short-termtrajectories [C]//Proc of the IEEE Int Conf on Robotics andBiomimetics.Piscataway,NJ:IEEE,2013:245-249   

        作者从视频片段中提取了一组社会力,HOG,HOF和密集轨迹,使用线性径向基函数(RBF)或多项式核来执行异常检测.

Xu Dan,RicciE,Yan Yan,etal. Learning deeprepresentations of appearance and motion for anomalous eventdetection[J]. Computer Vision and Image Understanding ,2015,156:117-127 

        Xu等人提出了使用学习表示与深度网络进行视频异常检测的首创方法.他们利用堆叠去噪自编码器(DAE)的2种流(RGB 和光流)在多尺度固定大小的重叠视频块上学习低维表示.然后,利用带有 RBF核的 OC SVM 中 DAE的潜在编码,对异常检测进行分类.他们进一步提出了2种方式来实现融合,分别是在特征表示阶段和后面的异常得分阶段. 

Smeureanu s,Ionescu RT,Popescu M, et al. Deepappearance features for abnormal behavior detection in video[G]//Proc of the Image Analysis and Processing-ICIAP.Berlin:Springer,2017:779-789

        作者提出了利用预先训练好的卷积神经网络(CNN)进行视频异常检测.这是使用单帧作为原子处理单元的方法之一,在每一帧上训练一个OC SVM,线性核是在VGG-f网络中提取的深度特征上得到的.他们利用时空滤波器平滑评分图,并通过将视频分割成固定大小的视频块,简单地将异常分数聚合到补丁区域来进行定位.

Sabokrou M,Fayyaz M,Fathy M,et al. Deep-cascade:Cascading 3D deep neural networks for fast anomalydetection and localization in crowded scenes[J]. IEEETransactions on Image Processing,2017,26(4):1992-2004

        在这篇文献中,作者首先将视频分割成固定大小的小视频块.在级联方案的第1阶段,使用一个简单的2层稀疏自编码器和嵌入弱高斯分类器拒绝正常块.在第2阶段,他们将剩下的小块作为时空兴趣点,从其邻域中提取较大的视频块,由一个更深层次的4层稀疏自编码器组成,该自编码器按照分层方式训练,并在潜在层中嵌入类似的弱高斯分类器.对于未分类成正常类的视频块,使用每个中间表示接收到的马氏距离进行打分,如果4个马氏距离都大于一个阈值,则认为是异常.

Sabokrou M,Fathy M,Hoseini M,et al.Real-time anomalydetection and localization in crowded scenes[C]//Proc of theIEEE Conf on Computer Vision and Pattern RecognitionWorkshops. Piscataway,NJ:IEEE,2015:56-62

        这篇文献中作者从训练视频训练了一个简单的2层稀疏自编码器重构非重叠的固定尺寸视频块.他们认为稀疏表示层是一个全局描述符.对于局部描述符,它们用一个结构相似度度量向量来表示每个patch对其时空邻居的关系.通过计算马氏距离来检测异常,训练高斯估计函数,并且只有特征表示和指定异常时的高斯分布有较大的马氏距离时才确定异常.

Tran HTM,Hogg D. Anomaly detection using aconvolutional winner-take-all autoencoder [C]//Proc of theBritish Machine Vision Conf. London: BMVA Press,2017:1-12

        这篇文献中提出了一种使用卷积赢者通吃自动编码器的方法,从固定尺寸的视频块的光流场中学习运动特征表示.然后,他们使用学习到的运动特征表示来构建依赖位置的OC SVM来进行异常评分. 

Turchini F,Seidenari L,Del Bimno A. Convex polytopeensembles for spatio-temporal anomaly detection[G]//LNCS10484 :Proc of the Int Conf on Image AnalysisandProcessing. Berlin : Springer,2017:174-184

        这篇文献中作者提出了一种独特的几何方法来检测异常.他们使用来自训练帧的密集轨迹来创建一个扩展凸包的集合,在测试时使用多曲面包含测试来识别异常,推测使用它们到凸壳的距离来为单个轨迹打分.他们还聚类潜在的异常轨迹,以检测异常区域和过滤出小的假阳性检测. 

Sun Qianru,Liu Hong,Harada T. Online growing neuralgas for anomaly detection in changing surveillance scenes [J].Pattern Recognition,2017,64:187-201

        这篇文献中作者使用生长的 Neural Gas算法对从视频片段或视频块中提取的STIP特征建立了正常模型.他们认为,过去的方法没有充分处理不断变化的场景,并提出以插入、删除、学习率自适应和停止标准的方式在线更新 GNG 模型.在 GNG模型中,通过研究距离的分布,简单地判断新模式是否与最近邻存在显著差异,就可以进行检测.

Sabokrou M,Fayyaz M,Fathy M,et al. Deep-anomaly :Fully convolutional neural network for fast anomaly detectionin crowded scenes [J]. Computer Vision and ImageUnderstanding,2018,172:88-97

        这篇文献中也使用了预先训练好的深度网络的特征,但采用了2步级联异常检测方法.首先,作者从一个预先训练好的 CNN 中提取一个视频片段的特征图,并对训练数据上的特征图进行高斯估计,评估其马氏距离.在这个阶段,他们通过简单地回滚特征图中像素的接受域来生成分数图.对于那些马氏距离在中间范围的进一步通过位置无关的裁剪特征映射到一个稀疏自编码器,训练裁剪产生更多不同的特性,并使用一个近似高斯分布的假设区分异常.

Ravanbakhsh M,Nabi M,Mousavi H,et al. Plug-and-playCNN for crowd motion analysis: An application in abnormalevent detection [C]l/Proc of the IEEE Winter Conf onApplications of Computer Vision ( WACV). Piscataway,NJ:IEEE,2018:1689-1698

        这篇文献中作者提出了另一种预训练卷积神经网络 AlexNet,并从中提取图像特征的方法.作者还提出了一种双流模型,在外观特征和光流场上运行.利用 CNN 提取的特征,作者通过一个预先训练好的二分类全卷积网络并使用迭代量化 Hash来为每一帧生成二进制映射.然后作者开发了一个时间 CNN 模式(TCP)度量,一个随着时间变化的外观特征的统计数量测量,2个流的融合产生了最终的异常分数图. 

Sabokrou M,Khalooei M,Fathy M,et al. Adversariallylearned one-class classifier for novelty detection[C]//Proc ofthe IEEE/CVF Conf on Computer Vision and PatternRecognition. Piscataway,NJ:IEEE,2018: 3379-3388

        这篇文献中提出了一种使用对抗性训练来检测视频异常的方法.他们使用一个判别器(discriminator,D)网络来区分原始的图像块和由去噪自编码器网络(R)得到有噪声的图像块的重构.由于 R 只在训练数据的图像块上进行训练,所以它可以去除异常值,使得 D可以很容易地从重构的图像块中辨别出异常值.

Ionescu R T,Smeureanu S,Popescu M,et al. Detectingabnormal events in video using narrowed normality clusters[C]//Proc of the IEEE Winter Conf on Applications ofComputer Vision ( WACV). Piscataway,NJ:IEEE,2019:1951-1960

        这篇文献中作者提出了一种2阶段异常检测算法.他们从训练视频中提取固定大小的视频块并添加位置、外观(从预训练的 CNN 中提取特征图)和运动信息(以3D 梯度的形式).对于第1阶段的检测,他们执行k-means 聚类和消除小聚类对应的噪声/异常值,以创建一个鲁棒的表示.第2阶段检测是建立K 个 OC SVM(每簇一个),建立一个缩小的正常聚类模型,在测试时将这 K 个 OC SVM下的一个测试块的最大得分作为异常得分. 

Ionescu RT,Khan F S,Georgescu M I,et al.Object-centricauto-encoders and dummy anomalies for abnormal eventdetection in video [C]//Proc of the IEEE/CVF Conf onComputer Vision and Pattern Recognition (CVPR). Piscataway,NJ:IEEE,2019:7834-7843

Detectingabnormal events in video using narrowed normality clusters)工作的基础上,将异常检测问题转化为 K 个多类one-rest分类问题.他们利用特征金字塔网络对作物进行提取,对这些裁剪框的外观和梯度特征进行卷积自动编码器的训练,以学习潜在表示,然后进行k-means 聚类,训练K 个 OC SVM 进行二值单对剩余分类.在测试时,他们简单地使用 K 个分类分数最大值的倒数作为异常分数.它们不报告空间定位性能.

Ramachandra B,Jones M. Street scene: A new dataset andevaluation protocol for video anomaly detection[J]. arXivpreprint,arXiv: 1902.05872,2019

        这篇文献中作者提出了2种基准算法,以便将来在他们新发布的数据集 Street Scene上进行比较.他们使用简单的最近邻位置相关的异常检测方案,使用手工制作的视频块表示(光流场或模糊的前景掩模)和手工制作的距离测量(分别为L1或L2归一化体素方向的距离).通过从训练数据中构建一个简洁的代表性范例模型,极大地减少了距离计算的次数.有趣的是,这些简单的方法能够在其他数据集上胜过以前的一些先进的方法,这可能表明算法已经发展出了针对特定数据集的倾向.

Ramachandra B,Jones M J,Raju V R. Learning a distancefunction with a Siamese network to localize anomalies invideos [C]//Proc of the IEEE Winter Conf on Applications ofComputer Vision. Piscataway,NJ:IEEE,2020:2587-2596

        这篇文献中作者通过训练一个 Siamese 神经网络,将手工制作的表示和距离函数替换为学习的表 示 和 距 离 函 数,建 立 了 简 单 的 最 近 邻 方 案. Siamese 网络通过训练将视频块对分类为相似或不同,并用来找到与所有训练视频块不同的测试视频块,因此判定是异常的.从目标数据集的训练数据中学习一个样本模型(包含所有唯一的正常视频块).最后,使用经过训练的 Siamese 网络中的测试视频块和样本之间的最近邻居评分来为每个测试视频块分配异常评分.


四、 基于概率的方法


五、 基于重构的方法


未完待续......