文章目录
- 摘要
- 0 引言
- 1 相关研究
- 2 基于滑动窗口预测的时间序列异常检测
- 2.1 相关定义
- 2.2 算法描述
- 2.2.1 滑动窗口的定义
- 2.3 参数选择
- 3 实验分析
- 3.3 算法分析
- 4 结语
摘要
首先基于滑动窗口对时间序列进行子序列分割,再以子序列为基础建立预测模型对未来值进行预测,并将预测值和实测值间差异范围大于预设阈值的序列点判定为异常。
0 引言
【这里摘录的可能和文章主题贴合的不紧密的句子,但是是对我个人研究有意义的句子~~】
- 时间序列数据挖掘作为数据挖掘领域的十大挑战性问题之一,已被广泛应用与水文时间序列相似性搜索、序列模式挖掘和周期性分析等领域。
- 大部分水文时间序列挖掘的目的,是为了发现频繁出现的模式,期望发现某种规律。
1 相关研究
异常检测可以形式化地描述如下:
给定一个包含n个数据点或对象的集合及预期的异常点数目k,发现与剩余的数据相比是显著异常的、孤立的或不一致的前k个对象的过程。
异常检测需要解决两个主要问题:在给定的数据集和中,定义什么样的数据是异常的;找到一个有效的方法来检测这样的异常数据。
2 基于滑动窗口预测的时间序列异常检测
2.1 相关定义
水文现象是时变现象,这一变化过程被称为水文过程。
水文数据是对水文过程的离散记录,水文数据按其描述的物理量分为流量、水文、降雨量和蒸发量等水文时间序列。
- 定义1 水文时间序列
时间t是严格增加的。
【句子】
水文时间序列异常检测首先要解决的一个问题,是定义在给定的数据集合中,什么样的数据是异常;异常的定义决定了异常挖掘的目标。
【句子】
在水文时间序列中,不同的物理量所构成的不同时间序列间存在很大的差别。因此,很难给出统一的异常定义。
- 水文时间序列异常
【句子】
由上述定义可知,最近邻窗口k和阈值t是称为判断数据点d是否为异常的依据。
因此,不同用户可以针对不同的水文要素,动态调整k和t的,已达到最优检测效果。
2.2 算法描述
【图和文字有点点对应不上,可以理解,以文字为准。hhhh大家都是先画的图,写过论文的都知道。有问题吗没有问题所以问题不大】
2.2.1 滑动窗口的定义
邻居结点窗口可以分为单边和双边两种类型。双边邻居结点窗口适合待检测节点的前驱和后继窗口数据都是已知的情况;单边的邻居结点则只包含节点的前驱数据。
2.3 参数选择
为了提高异常检测方法的效率,并改进算法性能,合理选择算法中涉及到的2个参数:k和p,成为提高异常检测算法的关键。
- 参数的取值准则
使得检测正确率和误检率之间的比值最大化。
3 实验分析
为验证本文提出的水文时间序列异常检测方法的有效性,选择国家水文数据库中某测站的日均水位和流量数据进行实验,并对算法的检测结果进行分析和讨论。
【句子1】
选择了日均水文和日均流量,两种不同的水文要素进行算法验证。
3.3 算法分析
将本文方法与气压的三种法法在,同一数据集上做比较。
4 结语