离群点剔除 Python

原创

mob64ca12e676c8 2023-10-15 13:31:39 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12e676c8的原创作品，请联系作者获取转载授权，否则将追究法律责任

离群点剔除 Python

引言

在数据分析和机器学习领域中，离群点是指与大多数数据点存在显著差异的数据点。离群点可能是由于测量误差、异常情况或其他不正常的行为引起的。在处理数据时，离群点可能会对结果产生负面影响，因此需要进行离群点剔除。本文将介绍在 Python 中如何进行离群点剔除，并提供相关的代码示例。

离群点的检测方法

在剔除离群点之前，我们首先需要检测出这些离群点。常用的离群点检测方法有：

1. 基于统计学的方法

基于统计学的方法假设数据服从某种特定的概率分布，通过计算数据点与该分布的偏差程度来判断是否为离群点。常用的统计学方法包括：

Z-Score 方法：基于数据点与均值之间的标准差来判断是否为离群点。Z-Score 大于某个阈值的数据点被认为是离群点。
Tukey's fences 方法：基于四分位数计算上下边界，位于边界之外的数据点被认为是离群点。

下面是使用 Z-Score 方法进行离群点检测的代码示例：

import numpy as np
from scipy import stats

data = np.array([1, 2, 3, 4, 5, 6, 100])

z_scores = stats.zscore(data)
threshold = 3
outliers = np.where(np.abs(z_scores) > threshold)

print("离群点的索引：", outliers[0])

2. 基于距离的方法

基于距离的方法假设离群点与其他数据点之间的距离较远。常用的基于距离的方法包括：

K-Means 算法：根据数据点与聚类中心的距离，将距离较远的数据点划分为离群点。
孤立森林算法：通过构建一棵随机森林来估计数据点的异常程度，异常程度较高的数据点被认为是离群点。

下面是使用 K-Means 算法进行离群点检测的代码示例：

from sklearn.cluster import KMeans

data = np.array([[1, 1], [2, 2], [3, 3], [4, 4], [5, 5], [100, 100]])

kmeans = KMeans(n_clusters=2)
kmeans.fit(data)
distances = kmeans.transform(data)
threshold = np.percentile(distances, 95)
outliers = np.where(distances > threshold)

print("离群点的索引：", outliers[0])

3. 基于异常检测的方法

基于异常检测的方法假设离群点与其他数据点之间存在显著的差异，可以通过建立模型来检测离群点。常用的异常检测方法包括：

高斯混合模型：假设数据由多个高斯分布组成，离群点通常不符合这些分布，因此可以通过计算数据点的概率来判断是否为离群点。
One-Class SVM：通过构建一个只包含正常数据的模型，将与该模型差异较大的数据点判断为离群点。

下面是使用高斯混合模型进行离群点检测的代码示例：

from sklearn.mixture import GaussianMixture

data = np.array([1, 2, 3, 4, 5, 6, 100])

gmm = GaussianMixture(n_components=2)
gmm.fit(data.reshape(-1, 1))
probabilities = gmm.score_samples(data.reshape(-1, 1))
threshold = np.percentile(probabilities, 5)
outliers = np.where(probabilities < threshold)