根据目前自己掌握的知识来总结以下预测的性能评估指标(回归与分类),对于后续研究能有快捷的方式获取,不用再去翻记录了。
1.回归与分类的相似与区别。
区别:回归问题是连续变量,分类问题离散变量。
回归呈现的是与真实数值类似的形态出现,比较预测值与真实值的差别。例如:房价预测问题
该图出自文章https://doi.org/10.1080/00268976.2019.1696478
这是一篇回归类的文章。有兴趣可阅读学习。
分类:
我个人认为分类适用于当数值范围跨度很大得时候并且有等级划分时候的场景应用。例如:红酒,白酒类的品质好坏。你不可能再用数值表示了,如果直接用等级表示就会给人很直接明了的感觉。
相似:个人觉得分类模型和回归模型本质一样,都是要建立映射关系。在实际操作中,我们确实常常将回归问题和分类问题互相转化,即分类模型可将回归模型的输出离散化,回归模型也可将分类模型的输出连续化。(例如预测票房数据,你可以预测准确的票房数据也可以转化为票房的等级,从票房很差到票房大卖。以下这篇文章具有参考意义
https://doi.org/10.1145/3424978.3425091) 接下来是两中方式的评价指标。
分类:
TP: True Positive Example, TN: True Negative Example, FP : False Positive Example, FN: False Negative Example
F1-measure(f1score)=2precisionrecall/(precision+recall)
混淆矩阵:
混淆矩阵画图方法:
PR
回归
Root mean square error (RMSE) and mean absolute error (MAE) can judge the goodness of the model from the perspective of error, while Pearson correlation coefficient ® and R-square (R2) can reflect the fitting degree between the measured value and the predicted value.yt is the test value
and yp is the prediction value.
MAPE:
参考文献:https://doi.org/10.1002/cpe.5921
SSE
误差平方和又称残差平方和、组内平方和等,根据n个观察值拟合适当的模型后,余下未能拟合部份(ei=yi一y平均)称为残差,其中y平均表示n个观察值的平均值,所有n个残差平方之和称误差平方和。