深度学习简史

原创

wx5ba0c87f1984b 2021-08-13 09:45:12 博主文章分类：机器学习理论 ©著作权

文章标签 深度学习神经网络机器学习权重线性模型 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者wx5ba0c87f1984b的原创作品，请联系作者获取转载授权，否则将追究法律责任

一、概述

深度学习可以追溯到20世纪40年代。深度学习看似是一个全新的领域，最不过因为在目前流行的前几年它还是相对冷门的，同时也因为它被赋予了许多不同的名称(其中大部分已经不再使用)，最近才成为众所周知的“深度学习”。这个研究领域已经更换了很多名称，它反映了不同的研究人员和不同观点的影响。一般认为，迄今为止深度学习已经经历了3次发展浪潮：20世纪40年代到60年代，深度学习的雏形已经出现在控制论(cybeinetics)中；20世纪80年代到90年代，深度学习表现为连接主义(connectionsm)；直到2006年，才真正以深度学习之名复兴。

二、控制论背景下的ANN

我们今天直到的一些最早的学习算法，旨在模拟生物学习的计算模型，即大脑怎样学习或为什么能学习的模型。其结果是深度学习以人工神经网络(arificial neural network, ANN)之名而淡去。彼时，深度学习模型被认为是受生物大脑(无论人类大脑或其他动物的大脑)所启发而设计出来的系统。尽管有些机器学习的神经网络有时被用来理解大脑功能，但它们一般都没有设计成生物功能的真实模型。深度学习的神经观点受两个主要思想启发：一个想法是，大脑作为例子证明智能行为是可能的，因此，概念上，建立智能的直接途径是逆向大脑背后的计算原理，并复制其功能；另一种看法是，理解大脑和人类智能背后的原理也非常有趣，因此机器学习模型除了解决工程应用的能力，如果能让人类对这些基本的科学问题有进一步的认识，也将会很有用。

现代术语“深度学习”超越了目前机器学习模型的神经科学观点。它诉诸于学习多层次组合这一更普遍的原理，这一原理也可以应用于那些并非受神经科学启发的机器学习模型。现代深度学习最早的前身是从神经科学的角度出发的简单线性模型。这些模型设计为使用一组n个输入 $深度学习简史_深度学习$ ，并将它们与一个输入y相关联。这些模型希望一组权重 $深度学习简史_神经网络_02$ ，并计算它们的输出 $深度学习简史_深度学习_03$ 。第一次神经网络研究浪潮称为控制论。

三、连结主义

MeCulloch-Pitts神经元是脑功能的早期模型。该线性模型通过检验函数 $深度学习简史_机器学习_04$ 的正负来识别两种不同类型的输入。显然，模型的权重需要正确设置后才能使模型的输出对应于期望的类别。显然，模型的权重需要正确设置后才能使模型的输出对应于期望的类别。这些权重可以由操作人员设定。20世纪50年代，感知机称为第一个能根据每个类别的输入样本来学习权重的模型。感知机成为第一个能根据每个类别的输入样本来学习权重的模型。大约在同一时期，自使用线性单元(adaptive linear element，ADALINE)简单地返回函数f(x)。本身的值来预测一个实数，并且它还可以学习从数据预测这些数。

这些简单的学习算法大大影响了机器学习的现代景象。用于调节ADALINE权重的训练算法是被称为随机梯度下降(stochastic gradient descent)的一种特例。稍加改进后的随机梯度下降算法仍然是当今深度学习的主要训练算法。基于感知机和ADALINE中使用的函数f(x, w)的模型称为线性模型(linear model)。尽管在许多情况下，这些模型以不同于原始模型的方式进行训练，但仍然是目前最广泛使用的机器学习模型。线性模型有很多局限性。最著名的是，它们无法学习异或(XOR)函数，即f([0,1],w)=1和f([1,0],w)=1，但f([1,1],w)=0和f([0,0],w)=0。观察到线性模型这个缺陷的批评者对受生物学启发的学习普遍地产生了抵触。这导致了神经网络热潮的第一次大衰退。

现在，神经网络科学被视为深度学习研究的一个重要灵感来源，但已不再是该领域的主要指导。如今神经科学在深度学习研究中的作用被削弱，主要原因是我们根本没有足够关于大脑的信息来作为指导去使用它。要获得对被大脑实际使用算法的深刻理解，我们需要有能力同时监测(至少是)数千相连神经元的活动。我们不能够做到这一点，所以我们甚至连大脑最简单、最深入研究的部分都还远远没有理解。

神经科学已经给我们依靠单一深度学习算法理解许多不同任务的理由。神经学家们发现，如果将雪貂的大脑重新连接，使视觉信号传输到听觉区域，它们可以学会使用大脑的听觉处理区域去看“看”。这暗示着大多数不如动物的大脑使用单一的算法可以解决的大部分不同任务。在这个假设之前，机器学习研究是比较分散的，研究人员在不同的社群研究自然语言处理、计算机视觉、运动规划和语音识别。如今，这些应用社群仍然是独立的，但是对于深度学习研究团体来说，同时研究许多甚至所有这些应用领域是很常见的。

我们能够从神经科学得到的一些粗略指南。仅通过计算单元之间的相互作用变得智能的基本思想是受大脑启发的。新认知机受哺乳动物视觉系统的结构启发，引入了一个处理图片的强大模型架构，它后来成为了现代卷积网络的基础。目前大多数神经网络时基于一个称为整流线性单元(rectified linear unit)的神经单元模型。原始认知机受我们关于大脑功能知识的启发，引入了一个更复杂的版本。简化的现代版通过吸收来自不同观点的思想而形成，Nair、Hinton和Glorot等援引神经科学作为影响，Jarrett援引更多面向工程的影响。虽然神经科学是灵感的重要来源，但它不需要被视为刚性指导。我们知道，真实的神经元计算着与现代整流线性单元非常不同的函数，但更接近真实神经网络的系统并没有导致机器学习性能的提升。此外，虽然神经科学已经成功地启发了一些神经网络架构，但我们对用于神经科学的生物学习还没有足够多的了解，因此也就不能为训练这些架构用的学习算法提供太多的借鉴。媒体报道经常强调深度学习与大脑的相似性。的确，深度学习研究者比其他机器学习算法领域(如核方法或贝叶斯统计)的研究者更可能地引用大脑作为影响，但是大疆不应该认为深度学习在尝试模型大脑。现代深度学习从许多领域获取灵感，特别是应用数学的基本内容，如线性代数、概率论、信息论和数值优化。尽管一些深度学习的研究人员引用神经科学作为灵感的重要来源，然而其他学者完全不关心神经科学。

值得注意的是，了解大脑是如何在算法层面上工作的尝试确实存在且发展良好。这项尝试主要被称为“计算神经科学”，并且是独立于深度学习的领域。研究人员在两个领域之间来回研究是很常见的。深度学习领域主要关注的构建计算机系统，从而成功解决需要智能才能解决的任务，而计算神经科学领域主要关注如何真实工作的、比较精确的模型。

20世纪80年代，神经科学领域研究的第二次浪潮在很大程度上是伴随一个被称为联结主义(connectionism)或并行分布处理(parallel distributed processing)潮流而出现的。联结主义是在认知科学的背景下出现的。认知科学是理解思维的跨学科途径，即它融合多个不同的分析层次。20世纪80年代初期，大多数认知科学家研究符号推理模型。尽管这很流行，但符号模型很难解释大脑如何真正使用神经元实现推理功能。联结主义者开始研究真正基于神经系统实现的认知模型，其中很多复苏的想法可以追溯到心理学家Donald Hebb在20世纪40年代的工作。在20世纪80年代的联结主义期间形成的几个关键概念在今天的深度学习中仍然是非常重要的。

其中一个概念是分布式表示。其思想是：系统的每一个输入都应该由多个特征表示，并且一个特征都应该参与到多个可能输入的表示。例如，假设我们有一个能够识别红色、绿色或蓝色的汽车、卡车和鸟类的视觉系统，表示这些输入的其中一个方法是将9个可能的组合：红卡车、红汽车、红鸟、绿卡车等使用单独的神经元或隐藏层单元激活。这需要9个不同的神经元，并且每个神经元必须独立地学习颜色和对象身份的概念。改善这种情况的方法之一是使用分布式表示，即用3个神经元描述颜色，3个神经元描述对象身份。这仅仅需要6个神经元而不是9个，并且描述红色神经元能够从汽车、卡车和鸟类的图像中学习红色，而不仅仅是从一个特定类别的图像中学习。分布式表示的概念是本书的核心。

联结主义浪潮的另一个重要成就是反向传播在训练具有内部表示的深度神经网络中的成功使用以及反向传播算法的普及。这个算法虽然层黯然失色且不再流行，但是现在仍然是训练深度模型的主导方法。

四、深度学习的复兴

20世纪90年代，研究人员在使用神经网络进行序列建模的方面取得了重要进展。Hochreiter和Bengio指出了对长序列进行建模的一些根本性数学难题。Hochreiter和Schmidhuber引入了长短期记忆(long short term memory, LSTM)网络类解决这些难题。如今，LSTM在许多序列建模任务中广泛应用，包括Google的许多自然语言处理任务。神经网络研究的第二次浪潮持续到20世纪90年代中期。基于神经网络和其他AI技术的创业公司开始寻求投资，其做法野心勃勃但不切实际。当AI研究不能实现这些不合理的期望时，投资者感到失望。同时，机器学习的其他领域取得了进步。比如，核方法和图模型都在很多重要任务上实现了很好的效果。这两个因素导致了神经网络热潮的第二次衰退，并一直持续到2007年。

在此期间，神经网络继续在某些任务上获得令人印象深刻的表现。加拿大高级研究所(CIFAR)通过神经计算和自适应感知(NCAP)研究计划帮助维持神经网络研究。该计划联合了分别由Geoffrey Hinton、Yoshua Bengio和Yann LeCun领导的多伦多大学、蒙特利尔大学和纽约大学的机器学习研究小组。这个多学科的CIFAR NCAP研究计划还包括了神经科学家、人类和计算机视觉专家。

在那个时候，人们普遍认为深度网络是难以训练的。现在我们知道。20世纪80年代就存在的算法能工作得非常好，但是直到2006年的突破。Geoffery Hinton表明“深度信念网络”的深度网络可以使用一种称为“贪婪逐层预训练”的策略来有效地训练。其他CIFAR附属研究小组很快表明，同样的策略可以被用来训练许多其他类型的深度网络，并能系统地帮助提高在测试样例上的泛化能力。神经网络研究的这一次浪潮普及了“深度学习”这一术语，强调研究者现在有的能力训练以前不可能训练的比较深的神经网络，并力着于深度的理论的重要性上。此时深度学习已经优于与之竞争的基于其他机器学习技术以及手工设计功能的AI系统。