Python交叉验证AUPR曲线交叉验证cross_val_score

转载

mob64ca1409d8ea 2023-08-11 13:42:30

文章标签 Python交叉验证AUPR曲线 python 人工智能 MSE 交叉验证 文章分类 Python 后端开发

回归树：交叉验证

本文仅用作学习记录及分享，有不对的地方还请指正，谢谢！
交叉验证是用来观察模型的稳定性的一种方法，我们将数据划分为n份，依次使用其中一份作为测试集，其他n-1份作为训练集，多次计算模型的精确性来评估模型的平均准确程度。训练集和测试集的划分会干扰模型的结果，因此用交叉验证n次的结果求出的平均值，是对模型效果的一个更好的度量。

简单来看看回归树是怎么样工作的

from sklearn.datasets import load_boston
from sklearn.model_selection import cross_val_score
from sklearn.tree import DscisionTreeRegressor

boston = load_boston()
reg = DecisionTreeRegressor(random_state=0)
cross_val_score(regressor,boston.data,boston.target,cv=10，scoring = 'neg_mean_squared_error')

DecisionTreeRegressor

class sklearn.tree.DecisionTreeRegressor(criterion='mse', splitter='best', max_depth=None, min_samples_split=2, min_samples_split=2,min_samples_leaf=1, min_weight_fracton_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, presort=False)

几乎所有参数，属性及接口都和分类树一摸一样。需要注意的是，在回归树中，没有标签分布是否均衡的问题，因此没有class_weight这样的参数

criterion

（1）输入“mse”使用均方误差mean square error(MSE)，MSE = $Python交叉验证AUPR曲线交叉验证cross_val_score_python$ ,其中fi为模型回归出的数值，yi为样本真实，所以MSE的本质是样本真实数据与回归结果的差异。
（2）输入“friedman_mse”使用费尔德曼均方误差，是一种改进后的均方误差。
（3）输入“mae”使用绝对平均误差mean absolute error(MAE)。
属性依旧有feature_importances_,接口依然是apply,fit,predict,score

介绍交叉验证函数

cross_val_score()
第一个位置可以是任何模型，包括分类树，回归树，随机森林等。
第二个是所有特征数据，这里不用分训练集和测试集
第三个是所有标签数据。
第四个是划分份数n，这里cv=10是将数据集分了10份。
第五个是返回的衡量指标，默认是R平方，这里的是neg_mean_squared_error是负均方误差
注意，R平方越接近1说明效果越好，很有意思的是R平方也可以为负数，但是一旦为负数时，说明曲线拟合效果不是很好，最好更换估计量。
负均方误差我们一般将其乘以负一得到均方误差（MSE）再来评估，当MSE越小，则说明拟合越好。
实例在泰坦尼克号幸存者的预测和用随机森林填充缺失值中有涉及

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。