1.决策树和LR会使结果偏向与训练集多的类别,训练集少的类别会当成噪音或者被忽视
2.没有很好的衡量不平衡问题的评价方法。
1. 重采样 resample
a. Random under-sampling 随机删除类别多的数据集
i. 运行时间和占用内存少
ii. 会忽略掉有用的信息,建立规则分类是的有用信息
iii. 随机采样是数据集的一个biased sample 不能很好的代表整体,结果也不准确
b. Random over-sampling 随机复制少数类别样表,增加少数样本的权重
i. 和下采样不同,这个没有信息损失
ii. 增加了过拟合的可能性,对少数样本会过拟合
c. Cluster-based under sampling 每个类别分别进行K-means 聚类,
其中在数据预处理步骤中使用聚类技术,多数类中的簇的数量被设置为等于少数类中的数据点的数量。第一种策略使用聚类中心来表示多数类,而第二种策略使用聚类中心的最近邻居。 (第二中有用)
d. 基于聚类的上采样:
对分别对正负类进行采样,多数类分的类别多,然后从不同类别中进行采样,使每个类别数量一样,任意过拟合
e. Informed over sampling : 生成少数类别数据集
i. 可避免精确复制少数数据集带来的过拟合,对有用信息没有损失
i. SMOTE(Synthe Minority over-samling Technique):对高维数据不是很有效
工具包
https://imbalanced-learn.readthedocs.io/en/stable/
|
|
|
|
|