开篇
近日,由阿里云计算平台大数据基础工程技术团队主导,与浙江大学合作的论文《Learning Multi-Pattern Normalities in the Frequency Domain for Efficient Time Series Anomaly Detection》被ICDE2024收录,该论文解决了云服务环境中不同服务存在不同正常模式,而传统神经网络一个训练好的模型只能较好捕捉一种或少数几种正常模式的问题,该论文提出的方法可以使用一个统一模型对不同服务进行检测,就达到比为每一个服务定制一个模型的SOTA方法更好的效果。
背景
近来,基于重构类方法的异常检测模型独占鳌头,在无监督异常检测中达到了很高的准确度,涌现了大量优秀的神经网络模型,例如:基于RNN类的神经网络OmniAnomaly, MSCRED; 基于transformer类的神经网络AnomalyTransformer, DCdetector等。但这类方法一个模型只能较好地捕捉一种或少数几种正常模式。因此,涌现出了一批以元学习为辅助,快速适应不同正常模式的异常检测模型,例如PUAD, TranAD等。但这些方法依然要求对不同的正常模式定制不同的模型,当存在十万级不同正常模式的服务时,很难维护这么多神经网络模型。因此,本文探索一种可以对多正常模式适用的统一神经网络模型。
挑战
- 一个样本在一种正常模式下为正常数据,但在另一种正常模式下可能变为异常数据。如果使用统一神经网络对不同正常模式进行异常检测时,要令神经网络适应不同的标准。
- 对于大规模云服务中心而言,需实时处理大量服务监测数据,因此,降低神经网络时间开销,提升神经网络并行化粒度是一个迫切需求。
- 当前基于重构的方法,对于短期异常不够敏感。而云服务往往存在持续性异常和短期异常交替出现的情况。
破局
与其他神经网络直接从数据样本中判断当前样本是否为异常不同,MACE从数据样本与该数据样本对应的正常模式的关系中提取异常。在MACE中,我们首先提出使用频域表征机制提取出正常模式的频域子空间,并使用频域表征技术把当前数据样本映射到该频域子空间中。若该数据样本离这个正常模式的频域子空间越远则在映射后,映射点与原始样本距离越远,重构误差越大。若该数据样本离这个频域子空间的频域子空间越近,则在映射后,映射点与原始样本距离越近,重构误差越小。因此,我们可以根据当前数据样本与其对应的正常模式频域子空间的关系,令对于当前正常模式而言的正常数据重构误差远小于异常数据的重构误差,以此检测异常。更进一步,我们提出上下文感知的傅里叶变换和反变换机制,有效利用频域的稀疏性提升计算效率,在频域上不存在时序依赖,可以对该模型进行细粒度的高并发实现,进一步减少异常检测的时间开销。另外,我们提出Peak Convolution与Valley Convolution机制对短期异常进行增强使其更容易被检测到。
应用
现已将MACE集成到飞天大数据AI管控平台ABM的异常检测算法服务中,辅助大数据平台进行异常的及时发现。
论文标题:Learning Multi-Pattern Normalities in the Frequency Domain for Efficient Time Series Anomaly Detection
论文作者:陈飞佚,张颖莹,秦臻,范伦挺,姜仁河,梁宇轩,文青松,邓水光