初稿进行中。。。。

一、内部方法
  1. 网络结构的选择
    比如 CNN 与 RNN,前者更适合并行架构
  2. 优化算法的改进:动量、自适应学习率
  3. 减少参数规模
    比如使用 GRU 代替 LSTM
  4. 参数初始化
    Batch Normalization
  5. mini-batch 的调整
二、外部方法
  1. GPU 加速
  2. 数据并行
  3. 模型并行
  4. 混合数据并行与模型并行
  5. CPU 集群
  6. GPU 集群

如下图所示(如借用的)
深度学习训练加速--分布式_深度学习
这里重点讲解外部加速方法,旨在阐述训练大规模深度学习模型时的分布式计算思想:
具体来讲:
首先,介绍了分布式计算的基本概念,以及分布式计算如何用于深度学习。
然后,列举了配置处理分布式应用的环境的标准需求(硬件和软件)。
最后,提供实践,从理论角度和实现的角度演示了一个用于训练深度学习模型的分布式算法(同步随机梯度下降,synchronous SGD)。

并行及分布式框架概述: