数据集问题
问题1:数据量不够。
1、数据集的数量太少,你的模型没有足够的数量,没法去找到其中的特征,在这样的情况去拟合数据,会导致虽然训练结果问题不是很大但是测试错误会很高。
解决方法一
去收集更多的数据给你的模型去训练
解决方法二
通过对原有的数据的一些变化创建多个副本去增强数据集的数量
问题2:低质量的分类
解决方法
花些时间浏览一下您的数据集,并验证每个样本的标签。这可能花很多时间,但在数据集中使用反例会对 学习过程产生不利影响,同时也要选择正确的分类类别
问题3:低质量的数据
低质量数据只会导致低质量的结果。数据集中的数据集中的样本可能与您要使用的数据集相差太远。这些可能会让你的模型更混乱
解决方案:
删除最糟糕的图像。
问题4:不平衡的分类
数据每类样本的不是大致的相同的,模型可能有利于统治阶级的倾向,因为它导致错误。该模型存在偏差,类分布是偏态。
解决方案1:
收集数据较少的分类的更多样本。
解决方案2:对数据进行过度/不足的采样。
您从数据较多的类中删除一些样本,或从数据不足的类中复制样本。
问题5:数据不平衡
数据没有特定 格式,或者值不在特定范围内,模型可能无法处理它
解决方案1:
对数据进行操作,使其具有与其他样本相同的方面或格式
解决方案2:
规范化数据,使每个样本的数据都在相同的值范围内。
问题6:没有验证集和测试集
解决方案:
将数据集拆分为三个:训练集、验证集、测试集。
在训练集上训练你的模型。
在验证集上测试它们以确保没有过拟合。
选择最有希望的模型。在测试集上测试它,这将为您提供模型的真实准确性。
注意:一旦您选择了生产模型,请不要忘记在整个 数据集上进行训练!数据越多越好!
本文参考
https://easyai.tech/blog/ai-dataset-6-problem-solution/