数 据 集 不 均 衡 问 题 数据集不均衡问题


  1. 数据集不均衡问题及解决方案概述
  2. 下采样
  3. 上采样

对于数据不均衡的数据集,如果想要使用交叉验证,应该使用分层交叉验证(StratifiedKFold)


hard negatives:
 在训练过程中会出现 正样本的数量远远小于负样本,这样训练出来的分类器的效果总是有限的,会出现许多false positive。  采取办法可以是,先将正样本与一部分的负样本投入模型进行训练,然后将训练出来的模型去预测剩下未加入训练过程的负样本,  当负样本被预测为正样本时,则它就为false positive,就把它加入训练的负样本集,进行下一次训练,知道模型的预测精度不再提升  这就好比错题集,做错了一道题,把它加入错题集进行学习,学会了这道题,成绩就能得到稍微提升,把自己的错题集都学过去,成绩就达到了相对最优