深度学习的历史和趋势

转载

大数据和云计算技术 2021-07-27 17:11:53

引言：

本文是黄文辉同学的第4篇文章，前面三篇分别是：

最近AI领域真的很热，国际国内，大小巨头都投入巨资在这个领域，而引发这波浪潮的很大一部分原因是深度学习这种无监督的学习方法在语音，图像识别的一个成熟，以及大家看到了深度学习通过大量数据训练的方式获取更有效的特征，取代了传统依赖专家经验设置特征的一个巨大潜力和憧憬。本文就是回顾深度学习的历史以及展望未来的趋势。

以下是正文：

深度学习的历史和趋势_深度学习的历史和趋势

近几年，人工智能成为一个具有众多实际应用和活跃研究的课题领域，并且在蓬勃发展。而深度学习是通向人工智能的途径之一，它是机器学习的一种，一种能够使计算机系统从经验和数据中得到提高的技术，具有强大的能力和灵活性，由简单概念间的联系定义复杂概念，从一般抽象概括到高级抽象表示。

下面，我们来一起了解下深度学习的历史趋势。关键趋势：

深度学习有着悠久而丰富的历史，但随着许多不同哲学观点的渐渐消逝，与之对应的名称也渐渐尘封；

随着可以的训练数据量不断增加，深度学习变得更加有用；

随着时间的推移，针对深度学习的计算机软硬件设施都有所改善，深度学习模型的规模也随之增长；

随着时间的推移，深度学习已经解决日益复杂的应用，并且精度不断提高。

1.神经网络的众多名称和命运变迁

深度学习的历史可以追溯到20世纪40年代。现在我们看来深度学习是一个全新的领域，主要是因为在目前流行的前几年它是相对冷门的，同时也因为它被赋予了许多不同的名称，比如最近才成为众所周知的“深度学习”。这个领域已经更换了很多名称，反映了不同的研究员和不同观点的影响。

一般来说，目前为止深度学习已经经历了三次发展浪潮:

20世纪40年代到60年代深度学习的雏形出现在控制论中;
20世纪80年代到90年代深度学习表现为联结主义;
直到2006年，才真正以深度学习指明复兴。

（1）20世纪40年代到60年代深度学习的雏形

深度学习模型被认为是受生物大脑所启发而设计出来的系统。现代深度学习的最早前身是从神经科学的角度出发的简单线性模型，这第一波网络神经研究浪潮称为控制论。

神经元是脑功能的早期模型，该线性模型通过检验函数的正负来识别两种不同类别的输入。同一时期，自适应线性单元(adaptive linear element，ADALINE)简单地返回函数本身的值来预测一个实数，并且他还可以学习从数据预测这些数。

这些简单的学习算法大大影响了机器学习的现代景象。用于调节ADALINE其中的训练算法被称为随机梯度下降的一种特例。稍加改进后的随机梯度下降算法仍然是当今深度学习的主要训练算法。基于感知机和ADALINE中使用的函数f(x，w)的模型被称为线性模型。线性模型有很多局限性，最著名的的是，他无法学习异或。这导致了神经网络热潮的第一次大衰退。

现在，神经科学被视为深度学习研究的一个主要灵感来源，但它已不再是该领域的主要指导，如今神经科学在深度学习研究中的占用被削弱，主要原因是我们根本没有足够的关于大脑的信息来作为指导去使用它。现代深度学习从许多领域获取获取灵感，特别是应用数学的基本内容如线性代数，概率论，信息论和数值优化。

（2）20世纪80年代，神经网络第二次浪潮

神经网络第二次浪潮在很大程度上是伴随一个被称为联结主义或并行分布处理浪潮而出现的。

联结主义(几个关键概念在今天深度学习中仍然是非常重要)是在认知科学的背景下出现的。认知科学是联结思维的跨学科途径，即融合多个不同的分析层次。联结主义的中心思想是，当网络将大量简单的计算单元连接在一起时可以实现智能行为。这种见解同样适用于生物神经系统中的神经元，因为它和计算模型中隐藏单元起着类似的作用。

联结主义其中一个概念是分布式表示（重点），其思想是:系统的每一个输入都应该由多个特征表示，并且每一个特征都应该参与到多个可能输入的表示。例如，假设我们有一个能够识别红色、绿色、或蓝色的汽车、卡车和鸟类的视觉系统。用分布式表示，即用3个神经元描述颜色，三个神经元描述对象身份。

神经网络研究的第二次浪潮一直持续到上世纪90年代中期。基于神经网络和其他AI技术的创业公司开始寻求投资，其做法野心勃勃但不切实际。当AI研究不能实现这些不会的期望是，投资者感到失望。同时，机器学习的其他领域取得了进步，比如核方法在很多重要任务上实现了很好的效果。这两个因素导致了神经网络热潮的第二次衰退，并一直持续到2007年。

在20世纪80年代那个时候，人们普遍任务深度网络是难以训练的。在那个时候就存在的算法工作的非常好，但是直到在2006年前后都没有体现出来。这可能仅仅由于其计算代价太高，而但是可用的硬件难以进行足够的实验。

（3）神经网络研究的第三次浪潮始于2006年的突破

Geoffrey Hinton表明名为深度信念的神经网络可以使用一种贪婪逐层预训练的策略来有效地训练。其他CIFAR附属研究小组很快表明，同样的策略可以被依赖训练许多其他类型的深度网络，并能系统地帮助提高在尝试样例上的泛化能力。神经网络研究的这一次浪潮普及了"深度学习"这一术语的使用，强调研究者现在有能力训练以前不可能训练的比较深的神经网络，并着力于深度的理论重要性上。此时，深度神经网络已经由于与之竞争的基于其他机器学习技术以及送设计概念的AI系统。

目前，神经网络的第三次发展浪潮仍在继续，第三次浪潮已开始着眼于新的无监督学习技术和深度模型在小数据集的泛化能力。

2.与日俱增的数据量

自20世纪90年代以来，深度学习就已经成功与商业应用，但通常被视为一种只有专家才可以适于的艺术而不是技术，因为要从一个深度学习算法获得良好的性能需要一些技巧。但随着训练数据的增加，所需的技巧正在减少。最重要的新进展是现在我们有了这些算法得以成功训练所需的资源。

这种趋势是由社会日益数据化驱动的。由于我们的活动越来越多发生在计算机上，我们做什么也越来越多地被记录。由于我们的计算机越来越多的联网在一起，这些记录变得更容易集中管理，并更容易将他们整理成适于机器学习应用的数据集。因为统计估计的主要负担已经减轻。"大数据"时代是机器学习更加容易。

截止2016，一个粗略的经验法则是，监督深度学习书法在没类给定月5000个标注样本情况下一般将达到可以接受的性能，当至少有1000万个标注样本的数据集用于训练时，它将达到或超过人类表现。

在更小的数据集上获得成功是一个主要的研究领域，为此我们应特别侧重于然后通过无监督或半无监督学习充分利用大量的未标注样本。

3.与日俱增的模型规模

20世纪80年代，神经网络智能取得相对较小的成功，而现在神经网络非常成功的另一个重要原因是我们现在要用计算资源可以运行更大的模型

最初，人工世纪网络中神经元之间的连接数受限于硬件能力。而现在，神经元至今的连接数大多是出于设计考虑。就神经元的总数而言，知道最近神经网络都是惊人的下。自从隐藏单元引入以来，人工世纪网络的规模大约每2。4年扩大一倍。这种增长是有更大内存，更快的计算机和更大的可用数据集驱动的。更大的网络能够在更复杂的任务中实现更高的精度。这种趋势看起来将持续数十年。

由于更快的CPU，通用GPU的出现，更快的网络连接和更好的分布式计算的软件基础设施，模型规模随着时间的推移不断增加是深度学习历史中最重要的趋势之一。人们普遍以及这种趋势将更好的持续到未来。

4.与日俱增的精度，复杂度和对现实世界的冲击

20世纪80年代以来,深度学习提供精度识别和预测的能力一值在提高。而且，深度学习持续成功被应用于越来越广泛的实际问题中。

最早的深度模型被依赖识别裁剪紧凑且非常小的图像中的单个对象。此后，实际网络可以处理的图像尺寸逐渐增加。现代对象识别网络能处理丰富的高分辨率照片并且不需要在被识别的对象附近进行裁剪。

深度学习迅速崛起的激动人心的一幕是卷积网络第一次大幅赢得这一挑战，它将最高水准的千万错误率从26.1%降到15.2%。截止2015，深度学习的最新结果将这个比赛中的前5错误降到了3.6%。

深度学习也对语音识别产生了巨大的影响。语音识别在20世纪90年代提高后，直到约2000年都停滞不前。深度学习的引入使得语音识别错误率徒然下降。

在深度网络的规模和精度有所提高的同时,它们可以解决的任务也日益复杂。神经网络可以学习描述图像的这个字符串序列,而不是仅仅识别单个兑现。此前,人们普遍认为,这种学习需要对序列中的单个元素进行标注。循环神经网络,现在对于序列和其他序列之间的关系进行建模,而不是仅仅固定输入之间的关系。这种序列到序列的学习似乎引领着另一个应用的颠覆性发展,即机器翻译深度学习的另一个最大的成就是在强化学习领域的扩展。在强化学习中。一个自主的智能体必须在没有人来操作者指导的情况下，通过试错来执行任务。

深度学习也在其他学科做出了贡献，例如在生物制药等领域。以后，深度学习能够出现在越来越多的科学领域。

5.总结

总之，深度学习是机器学习的一种方法。在过去几十年的发展中，它大量借鉴了我们关于人脑，统计学和应用数学的知识。近年来，对于更强大的计算机，更大的数据集和能够训练更深网络的技术，深度学习的普及型和实用性都有了极大的发展。未来几十年充满了进一步提高深度学习并将它带到心理与的挑战和机遇。