机器学习的算法衡量指标

原创

cunyan 2023-05-16 06:11:25 博主文章分类：机器学习 ©著作权

文章标签 人工智能数据召回率数据集 文章分类 JavaScript 前端开发

©著作权归作者所有：来自51CTO博客作者cunyan的原创作品，请联系作者获取转载授权，否则将追究法律责任

选择合适的指标

在构建机器学习模型时，我们首先要选择性能指标，然后测试模型的表现如何。相关的指标有多个，具体取决于我们要尝试解决的问题。

在可以选择性能指标之前，首先务必要认识到，机器学习研究的是如何学习根据数据进行预测。对于本课程和后续的“监督式机器学习”课程，我们将重点关注那些创建分类或创建预测回归类型的已标记数据。

此外，在测试模型时，也务必要将数据集分解为训练数据和测试数据。如果不区分训练数据集和测试数据集，则在评估模型时会遇到问题，因为它已经看到了所有数据。我们需要的是独立的数据集，以确认模型可以很好地泛化，而不只是泛化到训练样本。在下一课中，我们将探讨模型误差的一些常见来源，并介绍如何正确分解本课程的“数据建模和验证”部分中的数据集。

分类和回归

分类涉及到根据未见过的样本进行预测，并确定新实例属于哪个类别。例如，可以根据蓝色或红色或者方形或圆形来组织对象，以便在看到新对象时根据其特征来组织对象。

在回归中，我们想根据连续数据来进行预测。例如，我们有包含不同人员的身高、年龄和性别的列表，并想预测他们的体重。或者，像在本课程的最终项目中一样，我们可能有一些房屋数据，并想预测某所住宅的价值。

手头的问题在很大程度上决定着我们如何评估模型。

分类指标与回归指标

在分类中，我们想了解模型隔多久正确或不正确地识别新样本一次。而在回归中，我们可能更关注模型的预测值与真正值之间差多少。

在本节课的余下部分，我们会探讨几个性能指标。对于分类，我们会探讨准确率、精确率、召回率和 F 分数。对于回归，我们会探讨平均绝对误差和均方误差

分类指标

对于分类，我们处理的是根据离散数据进行预测的模型。这就是说，此类模型确定新实例是否属于给定的一组类别。在这里，我们测量预测是否准确地将所讨论的实例进行分类。

准确率

最基本和最常见的分类指标就是准确率。在这里，准确率被描述为在特定类的所有项中正确分类或标记的项的数量。

举例而言，如果教室里有 15 个男孩和 16 个女孩，人脸识别软件能否正确识别所有男孩和所有女孩？如果此软件能识别 10 个男孩和 8 个女孩，则它识别男孩和女孩的准确率分别为 66% 和 50%：