第二部分 深度网络:现代实践

深度前馈网络

深度前馈网络,也叫做前馈神经网络或者多层感知机,是典型的深度学习模型。

这种模型被称为前向的,是因为信息流过前馈神经网络预测气温 前馈神经网络实例_机器学习的函数,流经用于定义前馈神经网络预测气温 前馈神经网络实例_神经网络_02的中间计算过程,最终到达输出前馈神经网络预测气温 前馈神经网络实例_前馈神经网络预测气温_03。在模型的输出和模型本身之间没有反馈连接。当前馈神经网络被扩展成包含反馈连接时,它们被称为循环神经网络

前馈神经网络被称作网络是因为它们通常用不同函数复合在一起来表示。
该模型与一个有向无环图相关联,而图描述了函数是如何复合在一起的。

例如,我们有三个函数前馈神经网络预测气温 前馈神经网络实例_深度学习_04,前馈神经网络预测气温 前馈神经网络实例_前馈神经网络预测气温_05,前馈神经网络预测气温 前馈神经网络实例_卷积_06连接在一个链上以形成前馈神经网络预测气温 前馈神经网络实例_卷积_07。这些链式结构是神经网络中最常用的结构。
在这种情况下,前馈神经网络预测气温 前馈神经网络实例_深度学习_04被称为网络的第一层前馈神经网络预测气温 前馈神经网络实例_前馈神经网络预测气温_05被称为第二层,以此类推。
链的全长称为模型的深度。前馈网络的最后一层被称为 输出层

基于梯度的学习

混合密度网络
反向传播

深度学习中的正则化

参数范数惩罚

权重衰减

作为约束的范数惩罚

数据集增强

噪声鲁棒性
半监督学习
多任务学习

深度模型中的优化

机器学习算法的目标是降低期望泛化误差。

批量算法和小批量算法

机器学习算法和一般优化算法不同的一点是,机器学习算法的目标函数通常可以分解为训练样本上的求和。机器学习中的优化算法在计算参数的每一次更新时通常仅使用整个代价函数中的一部分项来估计代价函数的期望值。

基本算法

随机梯度下降

随机梯度下降(SGD)及其变种很可能是一般机器学习中应用最多的优化算法,特别是在深度学习中。按照数据生成分布抽取前馈神经网络预测气温 前馈神经网络实例_机器学习_10个小批量样本,通过计算它们的梯度均值,我们可以得到梯度的无偏估计。

卷积网络

卷积网络,也叫做卷积神经网络,是一种专门用来处理具有类似网格结构的数据的神经网络。例如时间序列数据(可以认为是在时间轴上有规律地采样形成的一维网格)和图像数据(可以看作是二维的像素网络)。

“卷积神经网络”一词表明该网络使用了卷积这种数学运算。卷积是一种特殊的线性运算。卷积网络是指那些至少在网络的一层中使用卷积运算来替代一般的矩阵乘法运算的神经网络。

卷积运算

在通常形式中,卷积是对两个实变函数的一种数学运算。
卷积运算通常用星号表示:
前馈神经网络预测气温 前馈神经网络实例_深度学习_11
在卷积网络的术语中,卷积的第一个参数(前馈神经网络预测气温 前馈神经网络实例_机器学习)通常叫做输入,第二个参数(函数前馈神经网络预测气温 前馈神经网络实例_前馈神经网络预测气温_13)叫做核函数。输出有时被称作特征映射

动机

卷积运算通过三个重要的思想来帮助改进机器学习系统:稀疏交互参数共享等变表示
参数共享是指一个模型的多个函数中使用相同的参数。

池化

卷积网络中一个典型层包含三级。

  1. 在第一级中,这一层并行地计算多个卷积产生一组线性激活响应。
  2. 在第二级中,每一个线性激活响应将会通过一个非线性的激活函数 ,例如 整流线性激活函数。这一级有时也被称为探测级。
  3. 在第三级中,我们使用池化函数来进一步调整这一层的输出。

池化函数使用某一位置的相邻输出的总体统计特征来代替网络在该位置的输出。
例如,最大池化函数给出相邻矩形区域内的最大值。

序列建模:循环和递归网络

循环神经网络RNN是一类用于处理序列数据的神经网络。

深度循环网络

大多数RNN中的计算可以分解成三块参数及其相关的变换:

  1. 从输入到隐藏状态
  2. 从前一隐藏状态到下一隐藏状态,以及
  3. 从隐藏状态到输出

递归神经网络

递归神经网络代表循环网络的另一个扩展,它被构造为深的树状结构而不是RNN的链状结构,因此是不同类型的计算图。

应用

级联

计算机视觉

预处理
对比度归一化

全局对比度归一化前馈神经网络预测气温 前馈神经网络实例_深度学习_14旨在通过从每个图像中减去其平均值,然后重新缩放使得其像素上的标准差等于某个常数前馈神经网络预测气温 前馈神经网络实例_神经网络_15来防止图像具有变化的对比度。

白化:与直觉相反的是,存在被称为前馈神经网络预测气温 前馈神经网络实例_神经网络_16的预处理操作,并且它不同于前馈神经网络预测气温 前馈神经网络实例_前馈神经网络预测气温_17
前馈神经网络预测气温 前馈神经网络实例_神经网络_16并不会使数据位于球形壳上,而是将主成分重新缩放以具有相等方差。前馈神经网络预测气温 前馈神经网络实例_神经网络_16通常被称为白化

局部对比归一化通常可以通过使用可分离卷积来计算特征映射的局部平均值和局部标准差,然后在不同的特征映射上使用逐元素的减法和除法。

数据集增强

语音识别

语音识别任务在于将一段包括了自然语言发音的声学信号投影到对应说话人的词序列上。

之前,最先进的语音识别系统是隐马尔可夫模型(HMM)和高斯混合模型(GMM)的结合。GMM对声学特征和音素之间的关系建模,HMM对音素序列建模。
之后,随着更大更深的模型以及更大的数据集的出现,通过使用神经网络代替GMM来实现将声学特征转化为音素的过程可以大大提高识别的精度。

自然语言处理

前馈神经网络预测气温 前馈神经网络实例_前馈神经网络预测气温_20

语言模型定义了自然语言中标记序列的概率分布。

神经语言模型

神经语言模型是一类用来克服维数灾难的语言模型,它使用词的分布式表示对自然语言序列建模。

其他应用

推荐系统

协同过滤

强化学习需要权衡探索利用
利用指的是从目前学到的最好策略采取动作,也就是我们所知的将获得高奖励的动作。
探索是指采取行动以获得更多的训练数据。

第三部分 深度学习研究

线性因子模型
独立成分分析

慢特征分析

慢特征分析是使用来自时间信号的信息信号不变特征的线性因子模型。
慢特征分析的想法源于所谓的慢性原则。其基本思想是,与场景中其描述作用的单个量度相比,场景的重要特性通常变化地非常缓慢。

蒙特卡罗方法

随机算法可以粗略地分为两类:Las Vegas算法和蒙特卡罗算法。

采样与蒙特卡罗方法

重要采样

  • 最优重要采样
  • 有偏重要采样

马尔可夫链蒙特卡罗方法

Gibbs采样

深度生成模型

玻尔兹曼机

玻尔兹曼机的学习算法基于最大似然。

深度信念网络

深度信念网络是第一批成功应用深度架构训练的非卷积模型之一。

主要有两种方法可以处理深度玻尔兹曼机的联合训练问题。
第一个是中心化深度玻尔兹曼机
第二个是使用多预测深度玻尔兹曼机