类别不平衡问题是指在一个数据集中,不同类别的样本数量差别很大,其中一类的样本数量明显少于其他类别。

不平衡的训练数据会导致模型的偏差和方差增大。偏差和方差都是评估模型性能的重要指标,偏差主要关注的是模型是否欠拟合,方差主要关注的是模型是否过拟合。要是模型具有良好的泛化能力,需要在偏差和方差之间取得平衡。

泛化能力:模型在新的、未知的数据上预测能力。

偏差:是指一个实际观测值与其所在总体的期望值之差。在统计学中,偏差通常表示一个样本或实际观测值与其所在总体或理论之间的差异。

方差:一组数据的变异程度。在统计学中,方差是衡量一组数据离散程度的指标,它衡量的是每个数据值与数据集平均值的距离的平方的平均值。方差越大,数据之间差异就越大。

在通俗的解释下:

偏差指模型的预测结果和实际结果之间的平均差距,可以理解为模型本身的你和能力,如果模型拟合不足,无法捕捉到数据的实际特征,导致预测结果与实际结果的偏差较大,我们称之为偏差较高的欠拟合模型。(模型队训练数据的预测能看力不足,也就是模型在训练数据上的误差。)

方差是指模型在不同数据集上预测结果的差异,可以理解为模型的泛化能力。如果模型过拟合,会对训练集过于敏感,对未知数据的预测能力较差,我们称之为方差较高的过拟合模型。(模型对测试/预测数据的波动敏感性,也就是模型在测试/预测数据上的误差。)