样本不平衡问题
样本不均衡:数据集中不同数据类别的比例差距比较大,即有的类别数据量很多,有的类别数据量很少。产生了一种类别样本分布不平衡的现象。
比如,类别样本比例:
1:2到1:10(轻微不平衡),超过1:10(严重不平衡)。
解决方法
一般常见解决方法分为数据层面和算法层面。
1、数据层面(采样、数据合成、数据增强)
数据增强:直接复制小类样本,对小类样本数据经过一定的处理,做一些小的改变等。
1)采样(随机采样):
随机欠采样:从多数类样本集中随机选择较少的样本(有放回/无放回)。
缺点:欠采样中丢失了部分样本,可能损失有用的信息,造成模型对某些特征的欠拟合。
随机过采样:从少数类样本集中随机重复抽取样本(有放回)以得到更多的样本。
缺点:过采样对少数样本进行了复制多份,虽然扩大了数据规模,但是也容易造成过拟合。
2)数据合成:
文本领域(离散空间):裁剪,翻转,旋转,加噪声,SMOTE方法。
图像领域(连续空间):去停用词,同义词替换,加噪声,回翻译。
2、算法层面(修改损失函数值、难例挖掘)
1)带权值的损失函数
为小样本标签增加损失函数的权值,即一个小样本设置权值多次使用,类似于过采样。
2)新损失Focal loss
在原来带权值的loss函数的基础上进行了改进,继续改进损失函数的权值。
3)难例挖掘
挖掘出模型预测效果较差的样本,然后对这些样本再进行重新训练。
4)数据增强:
生成对抗网络(GAN)、自监督对比学习(SSL)等模型算法。