文章目录

  • 一、异常种类
  • 1. 对于移动对象的数据异常
  • 2. 对于时序数据的异常检测
  • 二、异常数据清洗流程
  • 三、数据预处理
  • 四、异常检测算法
  • 五、异常修复算法
  • 六、漂移数据清洗


一、异常种类

不同的研究对象,有着不同的异常分类方式

1. 对于移动对象的数据异常

异常数据信息,包括重复数据、无序数据、缺失数据、 无效数据、漂移数据、模糊数据。

类型

描述

重复数据

由于设备或其他因素问题 导致的数据重复存储造成的

无序数据

是网络传输延迟造成的不正确的数据存储顺序

缺失数据

通过比较两个数据之间的时间差和数据收集的频率来确定的

无效数据

由数据的纬度或经度是否超出范围来确定

漂移数据

是指不符合行驶规则,明显偏离行驶轨迹的数据记录

模糊数据

\

2. 对于时序数据的异常检测

除了重复数据、无序数据、缺失数据、 无效数据。
又可以将数据的异常精确地分为:

  • 点异常值:相对于全局其他数据的异常实例。
  • 上下文异常值:上下文异常值通常在它们自己的上下文中具有相对较大/较小的值,但不是全局的。
  • 集体异常值:被定义为相对于整个数据集异常的相关异常数据实例的集合。

以上这些异常的检测难度也较大。

再细分的话,集体异常值又可以分类为:

  • shapelet outliers (异常的局部子序列): 。
  • seasonal outliers (异常周期性的局部子序列): 。
  • trend outliers (异常趋势的局部子序列):

二、异常数据清洗流程

数据分析 异常 模型 数据异常分析报告_异常检测

三、数据预处理

  1. 是否要排序
  2. 是否要规定索引
  3. 是否要填充缺失值、删除重复值
  4. 是否要调整数据格式(列位置调换、提取所需数据)

四、异常检测算法

数据分析 异常 模型 数据异常分析报告_数据清洗_02

五、异常修复算法

  1. 均值填充
  2. 最大似然估计
  3. NNF

近邻数据填充 NNF(Nearest Neighbor Fill)算法

数据分析 异常 模型 数据异常分析报告_数据清洗_03


NNF 算法不仅具有 MA 算法均等填充数据的优势,而且对于逐渐演化的数据也有很好的填充优 势,在变化的数据中,NNF 比 MA 有更好的填充效果

  1. 。。。

六、漂移数据清洗

一种结合范围约束最大似然估计的算法

  1. 修复漂移较大的数据异常:范围约束
  2. 修复漂移较小的数据异常:滑动窗口统计