KDD Cup 2021:时间序列异常检测

 

KDD Cup 2021:时间序列异常检测问题开源方案_机器学习

 

KDD Cup 2021:时间序列异常检测问题开源方案_python_02

 

KDD Cup 2021:时间序列异常检测问题开源方案_神经网络_03

本次赛题的数据为时序数据,针对每条时序记录,需要选手完成具体的异常点定位。

 

KDD Cup 2021:时间序列异常检测问题开源方案_python_04

 

KDD Cup 2021:时间序列异常检测问题开源方案_人工智能_05

文件的命名即分割了训练集和测试集,如下所示

<id>_<name>_<split-number>.txt

e.g. 004_UCR_Anomaly_2500.txt.

例子中,训练集和测试集的分割点为2500

 

KDD Cup 2021:时间序列异常检测问题开源方案_深度学习_06

评测:如上图异常区域为2759至2820,最后答案定位的位置,在前后100的区间内都算正确。比如这里答案只要在2659 和 2920 区间内都算正确。

 

KDD Cup 2021:时间序列异常检测问题开源方案_深度学习_07

时序异常检测算法非常多,这里介绍一些,有兴趣的同学可以尝试一波。

  • ARIMA
  • 基于聚类检测
  • 基于序列建模型的RNN、LSTM
  • Local Outlier Factor
  • One-Class SVM
  • Deep-SVDD
  • First Hour Average
  • Stddev from Moving Average
  • Mean Subtraction Cumulation

 

KDD Cup 2021:时间序列异常检测问题开源方案_python_08

本文开源主要使用的是基于AutoEncoder模型的时间序列异常检测算法。

原始的时间序列往往面临维度高,存在噪声等情况,通过特征提取,对原始数据进行清洗和丰富等,会比直接将原始数据扔给神经网络要好。

AutoEncoder是一种典型的无监督方法,可以将其扩展为Variational AutoEncoder,或者引入情景信息,从而扩展为Conditional Variational AutoEncoder。

 

KDD Cup 2021:时间序列异常检测问题开源方案_神经网络_09

 

KDD Cup 2021:时间序列异常检测问题开源方案_python_10

训练集中的数据(无异常点的数据):

 

KDD Cup 2021:时间序列异常检测问题开源方案_神经网络_11

测试集中的数据(有异常点的数据):

 

KDD Cup 2021:时间序列异常检测问题开源方案_神经网络_12

 

KDD Cup 2021:时间序列异常检测问题开源方案_python_13

 

KDD Cup 2021:时间序列异常检测问题开源方案_机器学习_14

自编码模型一般的神经网络,其内部结构呈现一定对称性

激活函数,一般会优先选择Relu,当Relu无法满足需求的时候,再去考虑其他激活函数,比如Relu的一些衍生版本Elu,它是Relu的其中一个优化版本,可以避免出现神经元无法更新的情况。

 

KDD Cup 2021:时间序列异常检测问题开源方案_人工智能_15

 

KDD Cup 2021:时间序列异常检测问题开源方案_机器学习_16

训练模型很简单,只需要调用model.fit函数。虽然简单但是需要注意的是,对于AutoEncoder来说,输入和输出都是X_train特征, 除此之外在建模时划分出20%的数据集作为验证集,来验证模型的泛化性。

 

KDD Cup 2021:时间序列异常检测问题开源方案_人工智能_17

查看训练的Loss历史曲线,发现训练集和验证集都很好的进行拟合,而且训练集并没有出现“反弹”,也就是没有过拟合的现象。

 

KDD Cup 2021:时间序列异常检测问题开源方案_神经网络_18

 

KDD Cup 2021:时间序列异常检测问题开源方案_人工智能_19

当自编码器训练好后,它应该能够学习到原始训练数据集的内在编码,然后根据学习到的编码,在一定程度内还原原始训练数据集中的数据。

 

KDD Cup 2021:时间序列异常检测问题开源方案_python_20

因为AutoEncoder学习到了“正常数据周期模式”的编码格式,所以当一个数据集提供给该自编码器时,它会按照训练集中的“正常数据周期模式”的编码格式去编码和解码。如果解码后的数据集和输入数据集的误差在一定范围内,则表明输入的数据集是“正常的”,否则是“异常的"。

第一个Sequence的拟合情况如下:

 

KDD Cup 2021:时间序列异常检测问题开源方案_python_21

 

KDD Cup 2021:时间序列异常检测问题开源方案_神经网络_22

异常节点为[1683,1684,,1685],因为point分割的原因,最后提交的结果,在此基础上+point之后即可。

总结

 

KDD Cup 2021:时间序列异常检测问题开源方案_深度学习_23

本赛题的方法很多,此处开源的版本为基于卷积的AutoEncoder版本,同时基于统计的异常相关方法,线上提交也能取的不错的成绩。