python 样本不均衡采样样本不均衡的处理方式

转载

网络智叶 2023-10-13 19:41:22

文章标签 python 样本不均衡采样机器学习人工智能深度学习数据分析 文章分类 Python 后端开发

样本不平衡问题

样本不均衡：数据集中不同数据类别的比例差距比较大，即有的类别数据量很多，有的类别数据量很少。产生了一种类别样本分布不平衡的现象。

比如，类别样本比例：

1：2到1：10（轻微不平衡），超过1：10（严重不平衡）。

解决方法

一般常见解决方法分为数据层面和算法层面。

1、数据层面（采样、数据合成、数据增强）

数据增强：直接复制小类样本，对小类样本数据经过一定的处理，做一些小的改变等。

1）采样（随机采样）：

随机欠采样：从多数类样本集中随机选择较少的样本（有放回/无放回）。

缺点：欠采样中丢失了部分样本，可能损失有用的信息，造成模型对某些特征的欠拟合。

随机过采样：从少数类样本集中随机重复抽取样本（有放回）以得到更多的样本。

缺点：过采样对少数样本进行了复制多份，虽然扩大了数据规模，但是也容易造成过拟合。

2）数据合成：

文本领域（离散空间）：裁剪，翻转，旋转，加噪声，SMOTE方法。

图像领域（连续空间）：去停用词，同义词替换，加噪声，回翻译。

2、算法层面（修改损失函数值、难例挖掘）

1）带权值的损失函数

为小样本标签增加损失函数的权值，即一个小样本设置权值多次使用，类似于过采样。

2）新损失Focal loss

在原来带权值的loss函数的基础上进行了改进，继续改进损失函数的权值。

3）难例挖掘

挖掘出模型预测效果较差的样本，然后对这些样本再进行重新训练。

4）数据增强：

生成对抗网络（GAN）、自监督对比学习（SSL）等模型算法。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：java 弱拷贝浅拷贝java

下一篇：android 上传资源文件安卓开发上传文件

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯