数据集划分 PyTorch random 数据集划分英语

转载

mob6454cc747bda 2024-04-15 16:06:16

文章标签 人工智能机器学习深度学习数据集数据 文章分类 PyTorch 人工智能

机器学习中的数据集及其划分

训练集、验证集和测试集
数据集的划分

训练集、验证集和测试集

训练集（Training Dataset）是用来训练模型使用的，通过前向传播和反向传播更新模型中的权重等参数。
验证集（Validation Dataset）根据每一个epoch训练之后模型在新数据上的表现来调整超参数（如学习率等），或是否需要训练的early stop，让模型处于最好的状态。但注意验证集是没有参与模型中权重等参数的调整。
测试集（Test Dataset）来做模型最终的评估，得到一系列评估指标，测试模型的泛化能力。
举一个例子：

训练集——课本：学生上课学习课本知识；
验证集——作业：通过作业了解学生的学习情况（知识掌握程度、进步的快慢等）
测试集——考试：考试题目是平常没有见过的，用来评判学生的真实能力。

数据集的划分

留出法（Holdout cross validation）

按照固定比例将数据集静态的划分为训练集、验证集、测试集的方式就是留出法。
对于小规模样本集（几万量级），常用的分配比例是 60% 训练集、20% 验证集、20% 测试集。若不划分验证集，则常用的分配比例为70% 训练集和30% 测试集。
对于大规模样本集（百万级以上），只要验证集和测试集的数量足够即可，例如有 100w 条数据，那么留 1w 验证集，1w 测试集即可。1000w 的数据，同样留 1w 验证集和 1w 测试集。