神经网络超参数表格神经网络中的超参数

转载

mob64ca13f40f3d 2023-12-13 05:00:39

文章标签 神经网络超参数表格 Andrew学习笔记神经网络取值深度学习 文章分类 神经网络人工智能

参数VS超参数

参数和超参数并不是一个东西，现在可以理解为：参数是我们真正要通过深度学习学到的参数。比如神经网络中的W和b;超参数会影响参数的最优取值，比如学习率，神经网络的层数，每层的神经元个数，目前获得超参数的较好取值的方法就是多尝试一些值，看取哪个值更好。

什么是超参数？

神经网络超参数表格神经网络中的超参数_Andrew学习笔记

想要让你的深度神经网络运作得更为高效，你不仅要好好设置参数，更需要用心配置超参数，让我们来看一下什么是超参数。
在神经网络模型中我们常见的参数是W和b。而在整个学习算法模型中，还有另一些参数，比如学习率α 和梯度下降算法中的迭代次数决定了你神经网络模型中的参数会如何变化。所以你还需要为学习算法设定其他超参数，比如隐藏层的层数即L ；还有隐藏神经元的个数比如n[1] n[2]等等；还有激活函数的选择，在隐藏层中可以使用ReLu或tanh或sigmoid 或其他激活函数，这些参数都是你需要在学习算法中设定的。它们会影响到参数W和b的最终结果，我们称之为超参数。实际上深度学习中有许多不同的超参数在后面的课程中我们会学习其他超参数，比如动量、最小批大小以及各种形式的正则化参数等等。

分清参数和超参数

跟之前几代的机器学习算法相比深度学习算法多了不少超参数以后我都会把学习率α称为超参数而不是参数。在之前的机器学习时代中我们没有这么多的超参数很多人就常常偷懒把α称为参数，其实α的确是个参数只是它是一个可以决定真正参数的参数所以为了在学习的过程中将概念梳理得更为清晰我们会将类似α和迭代次数的这类参数统称为超参数。

如何选取超参数的取值

神经网络超参数表格神经网络中的超参数_神经网络_02

当你在训练深度神经网络的时候你会发现在超参数取值的问题上会有很多不同的选择而你需要尝试许多可能的值。所以在深度学习算法中的超参数如何取值是一个以实验为依据的过程。你可能经常会有些直觉比如当你在设定学习率的时候你可能会说我认为α应该设为0.01 然后你实际操作了一下并且得到了最终结果。但是基于结果你可能会说我觉得把学习率增加到0.05 会比较好，所以如果你不确定学习率的最优值应该是多少。你可以先随意尝试一个学习率α 如果发现代价函数J像这样下降你可能会尝试一个更大的值。在之前的幻灯片中可以看到有许多不同的超参数并且当你创建新模型的时候，很难提前知道超参数的最优取值是多少所以通常我们会这么做首先尝试许多不同的取值就像图中的模型这样尝试不同的参数配置比如5个隐藏层数个隐藏单元构建模型并运行看看效果如何然后循环往复直到找到最优值这个幻灯片的标题是应用深度学习是一个基于实验的过程基于实验的过程就是不断尝试然后找到最优值的高端说法。另一个我观察到的现象是如今深度学习被应用于众多领域如今深度学习被应用于众多领域从计算机视觉到语音识别到自然语言处理到许多结构化数据应用比如在线广告或者网页搜索或者产品推荐等等我观察到的情形有以下几种第一种某一个领域的研究者尝试去拓展另一个领域有时候可以完美继承对超参数配置的直觉而有时候却得到大相径庭的结果所以我建议大家多尝试几次取不同的值看看结果是不是尽如人意尤其是在开始新项目的时候下节课我们会学习一些系统性方法来看看怎样才能取到最优值第二种情形是就算你已经在某个领域上已经工作了很久很久比如你在研究在线广告随着你的研究不断深入很有可能学习率和隐藏单元的个数等超参数的最优值会发生改变尽管已经把模型的参数都设置成当前的最优值有可能一年后你会发现这些竟然不是最优值了可能是因为计算机基础结构比如CPU GPU的类型或者其他一些构架发生了很大改变所以这里我分享一个经验之谈如果你研究的问题会持续比较久例如很多年你可以不时地比如每隔几个月尝试一些不同的超参数取值来确认这些超参数是否存在更为合适的取值相信经过不断尝试并且累积一些经验之后你也会慢慢养成关于最优超参数取值的直觉说到这里我也明白去逐个尝试超参数的取值听起来可能是深度学习中不那么令人愉快的部分但这是因为深度学习的研究依然处于初级阶段或许不久后对于超参数的最优值选取会出现更好的方法但也有可能因为CPU GPU 网络和数据库一直在不断变化这些方法在一段时间内不会趋于一致你还是需要不断地尝试对超参数不同的取值在预留的交叉验证集或其他集合上进行评估然后选取最优解。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。