python离群点检测离群点检测方法

转载

墨染青衫 2023-11-05 07:47:04

文章标签 python离群点检测数据聚类正态分布 文章分类 Python 后端开发

一理解

描述： 离群点检测，是发现于大部分其他对象显著不同的对象。大部分分析都会把这些差异信息丢弃，然而在一些场景中，这些数据可能存在巨大的价值

应用范围： 诈骗检测；贷款审批；电子商务；网络入侵；天气预报等领域

二离群点成因及类型

成因： 数据取值来源不同；自然变异造成；数据测量不准；收集误差
离群点的类型：

分类标准	分类标准	分类描述
数据范围	全局离群点和局部离群点	离群特征是从局部和总体来看的，可用二维坐标分布图显示
数据类型	数值型类群点和分类型离群点	根据数据集的属性类型进行划分
属性个数	一维离群点和多维离群点	一个数据对象可能有一个属性或多个属性

三离群点的检测方法

3.1 基于统计的方法

方法描述：一般是构建一个概率分布模型，并计算对象符合该模型的概率，把具有低概率的对象视为离群点
评估方法： 适用什么分布模型；基于该分布模型来离群点的检测
1.一元正态分布中的离群点检测
若随机变量X的密度函数服从正态分布函数，其中x服从整体分布N（μ，σ），参数μ为均值，σ为标准差
正态分布中，数据对象出现在两边尾部的机会很小，因此可以将在尾部的数据是离群点。
一般落在3倍标准差中心区域外的概率仅有0.0027
2.混合模型的离群点检测
理解：
混合是一种特殊的统计模型，使用若干统计分布对数据建模。每一个分布对应一个簇，而每个分布的参数提供对应的描述，通常用中心和发散描述。
混合模型将数据看作从不同的概率分布得到的观测值的集合。概率分布可以是任何分布。但是通常是多元正态分布。
混合模型数据的产生过程：
给定几个类型相同但参数不同的分布；
随机选取一个分布产生一个对象；
重复上述步骤
对于混合模型，每个分布给一个不同的组，即一个不同的簇。使用统计方法，可了解对应书的分布参数，从而可以描述这些簇的分布，但混合模型只能给出具体对象属于特定簇的概率
检测的目标为：估计分布函数的参数，并最大化数据的总似然
在很多情况下，由于数据统计分布未知或没有训练数据可用，可考虑其他不需要建立模型的检测方法

3.2 基于邻近度

**方法描述：**通常可以在数据对象之间定义邻近性度量，把远离大部分点的对象视为离群点
评估方法：低维数据可做散点图观察；大数据不适用；对参数选择敏感；具有全局阈值，不能处理具有不同密度区域的数据集

3.3 基于密度

方法描述: 考虑数据集可能存在不同密度区域，基于密度的观点分析，离群点是低密度区域中的对象；一个对象的离群点得分是该对象周围密度的逆
评分方法： 给出对象是离群点的度量，使数据具有不同的区域也能很好地处理；多参数选择比较困难

3.4 基于聚类

方法描述：
利用聚类检测离群点的方法1-丢弃远离其他簇的小簇；
更系统的方法2-聚类所有对象，然后评估离群点

评估方法： 使用是高度有效的；算法产生的簇的质量对该算法产生的离群点的质量影响很大
1.丢弃远离其他簇的小簇
描述： 利用聚类检测离群点的方法是丢弃远离其他簇的小簇，通常可以简化为丢弃小于某个最小阈值的所有簇。
要求： 可和其他任何聚类技术一起使用；需要最小簇大小和小簇-其他簇之间距离的阈值；对簇个数的选择高度敏感
2.基于原型的聚类
描述： 更加系统的方法，首先聚类所有程度，然后评估对象属于簇的程度，若属于簇的程度小于给定阈值，可认为是离群点
评估对象到簇程度的方法： （1）度量对象到簇原型的距离，并用它作为该对象的离群点得分；（2）考虑到簇具有不同的密度，可以度量簇到原型簇的相对距离。，相对距离=点到质心的距离/簇中所有点到质心距离的中位数