一 理解
描述: 离群点检测,是发现于大部分其他对象显著不同的对象。大部分分析都会把这些差异信息丢弃,然而在一些场景中,这些数据可能存在巨大的价值
应用范围: 诈骗检测;贷款审批;电子商务;网络入侵;天气预报等领域
二 离群点成因及类型
成因: 数据取值来源不同;自然变异造成;数据测量不准;收集误差
离群点的类型:
分类标准 | 分类标准 | 分类描述 |
数据范围 | 全局离群点和局部离群点 | 离群特征是从局部和总体来看的,可用二维坐标分布图显示 |
数据类型 | 数值型类群点和分类型离群点 | 根据数据集的属性类型进行划分 |
属性个数 | 一维离群点和多维离群点 | 一个数据对象可能有一个属性或多个属性 |
三离群点的检测方法
3.1 基于统计的方法
方法描述: 一般是构建一个概率分布模型,并计算对象符合该模型的概率,把具有低概率的对象视为离群点
评估方法: 适用什么分布模型;基于该分布模型来离群点的检测
1.一元正态分布中的离群点检测
若随机变量X的密度函数服从正态分布函数,其中x服从整体分布N(μ,σ),参数μ为均值,σ为标准差
正态分布中,数据对象出现在两边尾部的机会很小,因此可以将在尾部的数据是离群点。
一般落在3倍标准差中心区域外的概率仅有0.0027
2.混合模型的离群点检测
理解:
混合是一种特殊的统计模型,使用若干统计分布对数据建模。每一个分布对应一个簇,而每个分布的参数提供对应的描述,通常用中心和发散描述。
混合模型将数据看作从不同的概率分布得到的观测值的集合。概率分布可以是任何分布。但是通常是多元正态分布。
混合模型数据的产生过程:
给定几个类型相同但参数不同的分布;
随机选取一个分布产生一个对象;
重复上述步骤
对于混合模型,每个分布给一个不同的组,即一个不同的簇。使用统计方法,可了解对应书的分布参数,从而可以描述这些簇的分布,但混合模型只能给出具体对象属于特定簇的概率
检测的目标为:估计分布函数的参数,并最大化数据的总似然
在很多情况下,由于数据统计分布未知或没有训练数据可用,可考虑其他不需要建立模型的检测方法
3.2 基于邻近度
**方法描述:**通常可以在数据对象之间定义邻近性度量,把远离大部分点的对象视为离群点
评估方法:低维数据可做散点图观察;大数据不适用;对参数选择敏感;具有全局阈值,不能处理具有不同密度区域的数据集
3.3 基于密度
方法描述: 考虑数据集可能存在不同密度区域,基于密度的观点分析,离群点是低密度区域中的对象;一个对象的离群点得分是该对象周围密度的逆
评分方法: 给出对象是离群点的度量,使数据具有不同的区域也能很好地处理;多参数选择比较困难
3.4 基于聚类
方法描述:
利用聚类检测离群点的方法1-丢弃远离其他簇的小簇;
更系统的方法2-聚类所有对象,然后评估离群点
评估方法: 使用是高度有效的;算法产生的簇的质量对该算法产生的离群点的质量影响很大
1.丢弃远离其他簇的小簇
描述: 利用聚类检测离群点的方法是丢弃远离其他簇的小簇,通常可以简化为丢弃小于某个最小阈值的所有簇。
要求: 可和其他任何聚类技术一起使用;需要最小簇大小和小簇-其他簇之间距离的阈值;对簇个数的选择高度敏感
2.基于原型的聚类
描述: 更加系统的方法,首先聚类所有程度,然后评估对象属于簇的程度,若属于簇的程度小于给定阈值,可认为是离群点
评估对象到簇程度的方法: (1)度量对象到簇原型的距离,并用它作为该对象的离群点得分;(2)考虑到簇具有不同的密度,可以度量簇到原型簇的相对距离。,相对距离=点到质心的距离/簇中所有点到质心距离的中位数