在神经网络的训练当中, 神经网络可能会因为各种各样的问题, 出现学习的效率不高, 或者是因为干扰太多, 学到最后并没有很好的学到规律 . 而这其中的原因可能是多方面的, 可能是数据问题, 学习效率 等参数问题.
1、训练集和测试集(验证集):检验数据,我们一般将现有的数据划分成两个集合:训练集和测试集,使用训练集训练模型,使用测试集考察训练的模型对于未见样本的泛化能力。
2、误差曲线:机器学习可以从误差的开始值, 随着训练时间的变长, 优秀的神经网络能预测到更为精准的答案, 预测误差也会越少 . 到最后能够提升的空间变小, 曲线也趋于水平 .
3、准确度曲线:最好的精度是趋向于100%精确. 比如在神经网络的分类问题中, 100个样本中, 我有90张样本分类正确, 那就是说我的预测精确度是90%.怎样看预测值是连续数字的精确度? 这时, 我们可以引用 R2 分数在测量回归问题的精度 . R2给出的最大精度也是100%, 所以分类和回归就都有的统一的精度标准. 除了这些评分标准, 我们还有很多其他的标准, 比如 F1 分数 , 用于测量不均衡数据的精度.
一般来说准确率(accuracy)会用于判断分类(Classification)模型的好坏。
平方差衡量回归模型的好坏
其他的判断指数还有
机器学习之性能度量指标——决定系数R^2、PR曲线、ROC曲线、AUC值、以及准确率、查全率、召回率、f1_score
西瓜书中 第二章 模型评估与选择
4、防止过拟合问题的方法
:L2:L1,正规化;DROPOUT方法
5、神经网络中有很多参数,如何哪个参数更有效的解决现有的问题
交叉验证:在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立的模型进行预报,并求这小部分样本的预报误差,记录它们的平方加和。
基础知识
1.回归分析
回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且自变量之间存在线性相关,则称为多重线性回归分析。
2.过拟合:我们通过训练集训练的模型对于训练样本的的拟合程度十分高,就会放大一些不必要的特征,再对测试集进行测试时,就容易造成测试精度很低,也就是模型的泛化能力很弱,这就是过拟合