数据集问题

问题1:数据量不够。

1、数据集的数量太少,你的模型没有足够的数量,没法去找到其中的特征,在这样的情况去拟合数据,会导致虽然训练结果问题不是很大但是测试错误会很高。

解决方法一

去收集更多的数据给你的模型去训练

解决方法二

通过对原有的数据的一些变化创建多个副本去增强数据集的数量

问题2:低质量的分类

解决方法

花些时间浏览一下您的数据集,并验证每个样本的标签。这可能花很多时间,但在数据集中使用反例会对 学习过程产生不利影响,同时也要选择正确的分类类别

问题3:低质量的数据

低质量数据只会导致低质量的结果。数据集中的数据集中的样本可能与您要使用的数据集相差太远。这些可能会让你的模型更混乱

解决方案:

删除最糟糕的图像。

问题4:不平衡的分类

数据每类样本的不是大致的相同的,模型可能有利于统治阶级的倾向,因为它导致错误。该模型存在偏差,类分布是偏态。

解决方案1:

收集数据较少的分类的更多样本。

解决方案2:对数据进行过度/不足的采样

您从数据较多的类中删除一些样本,或从数据不足的类中复制样本。

问题5:数据不平衡

数据没有特定 格式,或者值不在特定范围内,模型可能无法处理它

解决方案1:

对数据进行操作,使其具有与其他样本相同的方面或格式

解决方案2:

规范化数据,使每个样本的数据都在相同的值范围内。

问题6:没有验证集和测试集

解决方案:

将数据集拆分为三个:训练集、验证集、测试集。
在训练集上训练你的模型。
在验证集上测试它们以确保没有过拟合。
选择最有希望的模型。在测试集上测试它,这将为您提供模型的真实准确性。

注意:一旦您选择了生产模型,请不要忘记在整个 数据集上进行训练!数据越多越好!

本文参考
https://easyai.tech/blog/ai-dataset-6-problem-solution/