KDD Cup 2021:时间序列异常检测
本次赛题的数据为时序数据,针对每条时序记录,需要选手完成具体的异常点定位。
文件的命名即分割了训练集和测试集,如下所示
<id>_<name>_<split-number>.txt
e.g. 004_UCR_Anomaly_2500.txt.
例子中,训练集和测试集的分割点为2500。
评测:如上图异常区域为2759至2820,最后答案定位的位置,在前后100的区间内都算正确。比如这里答案只要在2659 和 2920 区间内都算正确。
时序异常检测算法非常多,这里介绍一些,有兴趣的同学可以尝试一波。
- ARIMA
- 基于聚类检测
- 基于序列建模型的RNN、LSTM
- Local Outlier Factor
- One-Class SVM
- Deep-SVDD
- First Hour Average
- Stddev from Moving Average
- Mean Subtraction Cumulation
本文开源主要使用的是基于AutoEncoder模型的时间序列异常检测算法。
原始的时间序列往往面临维度高,存在噪声等情况,通过特征提取,对原始数据进行清洗和丰富等,会比直接将原始数据扔给神经网络要好。
AutoEncoder是一种典型的无监督方法,可以将其扩展为Variational AutoEncoder,或者引入情景信息,从而扩展为Conditional Variational AutoEncoder。
训练集中的数据(无异常点的数据):
测试集中的数据(有异常点的数据):
自编码模型一般的神经网络,其内部结构呈现一定对称性。
激活函数,一般会优先选择Relu,当Relu无法满足需求的时候,再去考虑其他激活函数,比如Relu的一些衍生版本Elu,它是Relu的其中一个优化版本,可以避免出现神经元无法更新的情况。
训练模型很简单,只需要调用model.fit函数。虽然简单但是需要注意的是,对于AutoEncoder来说,输入和输出都是X_train特征, 除此之外在建模时划分出20%的数据集作为验证集,来验证模型的泛化性。
查看训练的Loss历史曲线,发现训练集和验证集都很好的进行拟合,而且训练集并没有出现“反弹”,也就是没有过拟合的现象。
当自编码器训练好后,它应该能够学习到原始训练数据集的内在编码,然后根据学习到的编码,在一定程度内还原原始训练数据集中的数据。
因为AutoEncoder学习到了“正常数据周期模式”的编码格式,所以当一个数据集提供给该自编码器时,它会按照训练集中的“正常数据周期模式”的编码格式去编码和解码。如果解码后的数据集和输入数据集的误差在一定范围内,则表明输入的数据集是“正常的”,否则是“异常的"。
第一个Sequence的拟合情况如下:
异常节点为[1683,1684,,1685],因为point分割的原因,最后提交的结果,在此基础上+point之后即可。
总结
本赛题的方法很多,此处开源的版本为基于卷积的AutoEncoder版本,同时基于统计的异常相关方法,线上提交也能取的不错的成绩。