THNN是一个用C语言实现的神经网络模块的库,提供的功能非常底层。它实现了许多基础的神经网络模块,包括线性层,卷积层,Sigmoid等各种激活层,一些基本的loss函数,这些API都声明在THNN/generic/THNN.h中。每个模块都实现了前向传导(forward)和后向传导(backward)的功能。THCUNN则是对应模块的CUDA实现。

THNN & THCUNN

我们通过几个例子具体看一下几种模块是怎么实现的。

Tanh

首先从最简单的激活层开始看,以 tanh 为代表,代码在THNN/generic/Tanh.c。这个模块只有两个函数,分别是THNN_(Tanh_updateOutput)()和THNN_(Tanh_updateGradInput)(),其中前者实现了前向传播,后者实现了反向传播。注意到函数的命名方式,依旧是使用宏实现范式,THNN_是宏定义,Tanh_是具体模块名,updateOutput表示前向传播,updateGradInput表示反向传播,与之前不同的是,这里只需生成浮点类型(float和double)的实现即可。

前向传播的实现很简单,直接调用之前实现的tanh函数就行了:

void THNN_(Tanh_updateOutput)(
          THNNState *state,
          THTensor *input,
          THTensor *output)
{
  THTensor_(tanh)(output, input);
}

它有三个参数,分别是THNN状态(暂不知有何用),本层的输入(input)和本层的输出(output),输出存储在output参数中。

反向传播的实现为:

void THNN_(Tanh_updateGradInput)(
          THNNState *state,
          THTensor *gradOutput,
          THTensor *gradInput,
          THTensor *output)
{
  THNN_CHECK_SHAPE(output, gradOutput);
  THTensor_(resizeAs)(gradInput, output);

  if (/* output, gradInput, 和 gradOutput 的内存是连续的 */)
  {
    TH_TENSOR_APPLY3(scalar_t, gradInput, scalar_t, gradOutput,
                     scalar_t, output,
      scalar_t z = *output_data;            \
      *gradInput_data = *gradOutput_data * (1. - z*z);
    );
  }
  else
  {
    scalar_t* ptr_gradOutput = gradOutput->data<scalar_t>();
    scalar_t* ptr_gradInput  = gradInput->data<scalar_t>();
    scalar_t* ptr_output     = output->data<scalar_t>();
    int64_t i;

#pragma omp parallel for private(i)
    for (i = 0; i < THTensor_(nElement)(gradInput); i++)
    {
      scalar_t z = ptr_output[i];
      ptr_gradInput[i] = ptr_gradOutput[i] * (1. - z*z);
    }
  }
}

反向传播接收5个参数,分别是THNN状态,从后面传回来的梯度(gradOutput),本层往回传的梯度(gradInput),本层前向传播的输出(output),这个函数计算的是本层的梯度,然后存储在gradInput中。

tanh 的导数为:

faster pytorch源码 rcnn pytorch源码分析_反向传播


其中,f(z) 就是前向传播时本层的输出,也就是output参数(循环里的z),根据链式法则,再乘以后面层传回来的梯度(gradOutput)就是本层应该往回传的梯度了(相对于本层输入的梯度),所以循环里的代码为:

*gradInput_data = *gradOutput_data * (1. - z*z);

注:_data后缀表示数据指针,具体可以看Apply宏的实现。

2D Convolution

最普通的2D卷积,CPU实现在THNN/generic/SpatialConvolutionMM.c,CUDA实现在THCUNN/generic/SpatialConvolutionMM.cu,大体的算法是把输入展开成一个特殊的矩阵,然后把卷积转化为矩阵相乘(MM = Matrix Multiplication)。模块里主要包含三个函数,前向传播(THNN_(SpatialConvolutionMM_updateOutput)()),反向传播(THNN_(SpatialConvolutionMM_updateGradInput)()),和更新层内参数(THNN_(SpatialConvolutionMM_accGradParameters)())。

前向传播

PyTorch实现卷积的做法是用im2col算法把输入展开成一个大矩阵,然后用kernel乘以这个大矩阵,就得了卷积的结果。这里不具体介绍im2col算法是怎么做的,但会解释为什么可以这么做。

首先定义符号,为了和代码中的符号一致,首先来看一下updateOutput的声明:

void THNN_(SpatialConvolutionMM_updateOutput)(
           THCState *state,
           THCTensor *input,
           THCTensor *output,
           THCTensor *weight,
           THCTensor *bias,
           THCTensor *columns,
           THCTensor *ones,
           int kW, int kH,
           int dW, int dH,
           int padW, int padH);

其中,

faster pytorch源码 rcnn pytorch源码分析_卷积_02


定义好了符号之后来看一下卷积是怎么转化为一个矩阵乘法的。首先来看卷积是怎么做的,下图是一个简单的例子,其中输入和输出深度 nInputPlane=nOutputPlane=1,卷积核大小 kH=kW=3,输入大小 inputHeight=inputWidth=7,步长 dW=dH=2,补零 padW=padH=1,可以算出 outputHeight=outputWidth=3。

faster pytorch源码 rcnn pytorch源码分析_反向传播_03


要想把卷积变成一次矩阵乘法运算,就需要把输入中每个卷积窗口变为单独一列,这也就是im2col做的事情,见下图:

faster pytorch源码 rcnn pytorch源码分析_反向传播_04


上图中右边矩阵的每一列都是原输入矩阵的一个卷积窗口,转换后的矩阵大小为

(nInputPlane×kH×kW)×(outputHeight×outputWidth)

得到上述矩阵之后,只需把kernel的大小也resize成

(nOutputPlane)×(nInputPlane×kH×kW)

就可以直接用kernel乘以该矩阵得到卷积结果了,见下图。

faster pytorch源码 rcnn pytorch源码分析_反向传播_05


代码(CUDA版)

void THNN_(SpatialConvolutionMM_updateOutput)(/* 参数列表前面有 */) {
  /* 省略了一些常规check */
  
  /* resize 卷积核 */
  weight = THNN_(newViewWeightMM2d)(state, weight);
  /* 对输入的维度进行check */
  THNN_(SpatialConvolutionMM_shapeCheck)
       (state, input, NULL, weight, bias, kH, kW, dH, dW, padH, 
        padW, 0);

  int ndim = input->dim();
  int dimf = 0;
  int dimh = 1;
  int dimw = 2;

  if (ndim == 4) {	/* 如果输入是4D的话,第0维是batch size */
    dimf++;
    dimh++;
    dimw++;
  }

  /* 计算输入输出大小 */
  int64_t nInputPlane = input->size(dimf);
  int64_t inputHeight  = input->size(dimh);
  int64_t inputWidth   = input->size(dimw);
  int64_t nOutputPlane = weight->size(0);
  int64_t outputHeight = (inputHeight + 2*padH - kH) / dH + 1;
  int64_t outputWidth  = (inputWidth + 2*padW - kW) / dW + 1;

	
  input = THCTensor_(newContiguous)(state, input);
  int is_batch = 1;
  if (input->dim() == 3) {
    /* 强行加入 batch 维度,把输入变为4D Tensor(batch size = 1)*/
    is_batch = 0;
    THCTensor_(resize4d)(state, input, 1, input->size(0), 
                         input->size(1), input->size(2));
  }

  /* 获取 batch size */
  int64_t batchSize = input->size(0);

  // Resize output
  THCTensor_(resize4d)(state, output, batchSize, nOutputPlane,
                       outputHeight, outputWidth);

  /* Resize columns 矩阵 */
  THCTensor_(resize2d)(state, columns, nInputPlane*kW*kH,
                       outputHeight*outputWidth);

  /* 定义 buffer `ones`,代码略 */

  // Helpers
  THCTensor *input_n = THCTensor_(new)(state);
  THCTensor *output_n = THCTensor_(new)(state);

  /* 对每个batch单独计算: */
  for (int elt = 0; elt < batchSize; elt ++) {
    /* 取出对应batch的输入和输出buffer */
    /* input_n = input[elt] */
    THCTensor_(select)(state, input_n, input, 0, elt);
    THCTensor_(select)(state, output_n, output, 0, elt);

    /* 首先计算偏置 bias,即把 bias 存到 output_n 中 */
    // M,N,K are dims of matrix A and B
    int64_t m_ = nOutputPlane;
    int64_t n_ = outputHeight * outputWidth;
    int64_t k_ = 1;

    /* 调用 GEMM 计算 output_n = 1 * ones * bias + 0 * output_n */
    if (bias) {
      #ifdef THC_REAL_IS_FLOAT
      THCudaBlas_Sgemm(
      #elif defined(THC_REAL_IS_HALF)
      THCudaBlas_Hgemm(
      #elif defined(THC_REAL_IS_DOUBLE)
      THCudaBlas_Dgemm(
      #endif
          state,
          't', 'n',
          n_, m_, k_,
          ScalarConvert<int, scalar_t>::to(1),
          THCTensor_(data)(state, ones), k_,
          THCTensor_(data)(state, bias), k_,
          ScalarConvert<int, scalar_t>::to(0),
          THCTensor_(data)(state, output_n), n_
      );
    } else {
      /* 如果没有 bias 就把 output_n 填零 */
      THCTensor_(zero)(state, output_n);
    }

    /* 用 im2col 把输入 input_n 转化为列矩阵存储在 columns */
    im2col(
      THCState_getCurrentStream(state),
      THCTensor_(data)(state, input_n),
      nInputPlane, inputHeight, inputWidth,
      outputHeight, outputWidth,
      kH, kW, padH, padW, dH, dW,
      1, 1, THCTensor_(data)(state, columns)
    );

    /* 接下来计算 kernel * columns: */
    int64_t m = nOutputPlane;
    int64_t n = columns->size(1);
    int64_t k = nInputPlane*kH*kW;

    /* 计算 output_n = 1 * weight * columns + 1 * bias */
    /* 代码中 columns 在 weight 前面是因为 GEMM 假设矩阵是列主序 */
    #ifdef THC_REAL_IS_FLOAT
    THCudaBlas_Sgemm(
    #elif defined(THC_REAL_IS_HALF)
    THCudaBlas_Hgemm(
    #elif defined(THC_REAL_IS_DOUBLE)
    THCudaBlas_Dgemm(
    #endif
        state,
        'n', 'n',
        n, m, k,
        ScalarConvert<int, scalar_t>::to(1),
        THCTensor_(data)(state, columns), n,
        THCTensor_(data)(state, weight), k,
        ScalarConvert<int, scalar_t>::to(1),
        THCTensor_(data)(state, output_n), n
    );
  }

  /* free 临时变量 input_n, output_n 等 */
  /* resize 输出矩阵,代码略 */
}

反向传播

faster pytorch源码 rcnn pytorch源码分析_卷积_06


从公式可以看出反向传播分为两个部分:计算对输入的梯度和计算对参数的梯度,这两部分也分别对应了模块里的两个函数,我们一个一个分析。

THNN_(SpatialConvolutionMM_updateGradInput)

这部分是计算对输入的梯度,虽然公式摆在了那里,但Torch的代码实现并不是直接翻译公式,我也一直没能把这部分的实现和公式对上,不过倒是可以通过图示的方式来理解,有点像前向传播的逆过程,把卷积后的梯度分配回卷积前。

在画图之前还是先定义一些符号:

void THNN_(SpatialConvolutionMM_updateGradInput)(
           THCState *state,
           THCTensor *input,
           THCTensor *gradOutput,
           THCTensor *gradInput,
           THCTensor *weight,
           THCTensor *gradColumns,
           THCTensor *ones,
           int kW, int kH,
           int dW, int dH,
           int padW, int padH);
}

其中(与前向传播相同的参数就不重复介绍了),

gradOutput 是相对于输出的梯度,即 δl,大小与前向传播的输出 output 相同;
gradInput 是相对于输入的梯度,即 δl−1,是这个函数需要计算的对象,大小与输入 input 相同;
gradColumns 是个列矩阵,用于存储临时的梯度,大小为 (nInputPlane×kH×kW)×(outputHeight×outputWidth);

代码的实现逻辑是用权重的转置乘以输出梯度,得到gradColumns,然后通过col2im还原到输入的大小,即得到了相对输入的梯度 gradInput。这个操作看起来就是前向传播的逆操作,但是搞不懂为什么这样就实现了 δl∗rot180(Wl),如果有大佬知道希望评论区指点一下。使用前面例子的设定,这波操作的示意图如下所示:

faster pytorch源码 rcnn pytorch源码分析_反向传播_07


faster pytorch源码 rcnn pytorch源码分析_反向传播_08

核心部分代码(其余部分与前向传播类似)

/* 循环取每个批次: */
for (int elt = 0; elt < batchSize; elt ++) {
  /* gradInput_n = gradInput[elt]; gradInput_n 同理 */
  THCTensor_(select)(state, gradInput_n, gradInput, 0, elt);
  THCTensor_(select)(state, gradOutput_n, gradOutput, 0, elt);

  // M,N,K are dims of matrix A and B
  int64_t m = nInputPlane*kW*kH;
  int64_t n = gradColumns->size(1);
  int64_t k = nOutputPlane;

  /* 调用GEMM计算 gradColumns = weight' * gradOutput_n */
  #ifdef THC_REAL_IS_FLOAT
  THCudaBlas_Sgemm(
  #elif defined(THC_REAL_IS_HALF)
  THCudaBlas_Hgemm(
  #elif defined(THC_REAL_IS_DOUBLE)
  THCudaBlas_Dgemm(
  #endif
      state,
      'n', 't',
      n, m, k,
      ScalarConvert<int, scalar_t>::to(1),
      THCTensor_(data)(state, gradOutput_n), n,
      THCTensor_(data)(state, weight), m,
      ScalarConvert<int, scalar_t>::to(0),
      THCTensor_(data)(state, gradColumns), n
  );

  /* 调用 col2im 把 gradColumns 还原为 gradInput_n */
  col2im<scalar_t, accreal>(
    THCState_getCurrentStream(state),
    THCTensor_(data)(state, gradColumns),
    nInputPlane, inputHeight, inputWidth, outputHeight,
    outputWidth, kH, kW, padH, padW, dH, dW,
    1, 1, THCTensor_(data)(state, gradInput_n)
  );
}

THNN_(SpatialConvolutionMM_accGradParameters)

接下来看计算参数梯度的部分,这部分相对好理解,因为代码和公式一样,还是先看函数声明:

void THNN_(SpatialConvolutionMM_accGradParameters)(
           THCState *state,
           THCTensor *input,
           THCTensor *gradOutput,
           THCTensor *gradWeight,
           THCTensor *gradBias,
           THCTensor *columns,
           THCTensor *ones,
           int kW, int kH,
           int dW, int dH,
           int padW, int padH,
           accreal scale_);
}

其中,
gradWeight 是权重的梯度,是这个函数需要计算的对象,大小和权重相同;
gradBias 是偏置的梯度,也是函数需要计算的对象,大小与偏置相同(就是一个Vector)
columns 是用来存储 im2col 的结果,因为要计算卷积,所以要把输入展开
scale_ 是学习速率(learning rate)

faster pytorch源码 rcnn pytorch源码分析_卷积_09

核心代码

void THNN_(SpatialConvolutionMM_accGradParameters)(/* 略 */) {
  /* ... */
  
  /* 循环取每个batch: */
  for (int elt = 0; elt < batchSize; elt ++) {
    /* gradOutput_n = gradOutput[elt] */
    THCTensor_(select)(state, gradOutput_n, gradOutput, 0, elt);

    /* 计算权重梯度 */
    if (gradWeight) {
      /* input_n = input[elt] */
      THCTensor_(select)(state, input_n, input, 0, elt);

      /* 把 input_n 展开为 columns */
      im2col(
        THCState_getCurrentStream(state),
        THCTensor_(data)(state, input_n),
        nInputPlane, inputHeight, inputWidth,
        outputHeight, outputWidth,
        kH, kW, padH, padW, dH, dW,
        1, 1, THCTensor_(data)(state, columns)
      );

      
      int64_t m = nOutputPlane;
      int64_t n = nInputPlane*kW*kH;
      int64_t k = columns->size(1);

      /* 调用GEMM计算gradWeight += scale * gradOutput_n * columns'*/
      #ifdef THC_REAL_IS_FLOAT
      THCudaBlas_Sgemm(
      #elif defined(THC_REAL_IS_HALF)
      THCudaBlas_Hgemm(
      #elif defined(THC_REAL_IS_DOUBLE)
      THCudaBlas_Dgemm(
      #endif
          state,
          't', 'n',
          n, m, k,
          scale,
          THCTensor_(data)(state, columns), k,
          THCTensor_(data)(state, gradOutput_n), k,
          ScalarConvert<int, scalar_t>::to(1),
          THCTensor_(data)(state, gradWeight), n
      );
    }

    /* 计算偏置梯度 */
    if (gradBias) {
     	
      int64_t m_ = nOutputPlane;
      int64_t k_ = outputHeight * outputWidth;

      /* 调用GEMV计算 gradBias += scale * gradOutput_n * ones */
      #if defined(THC_REAL_IS_FLOAT) || defined(THC_REAL_IS_DOUBLE)
      #ifdef THC_REAL_IS_FLOAT
      THCudaBlas_Sgemv(
      #elif defined(THC_REAL_IS_DOUBLE)
      THCudaBlas_Dgemv(
      #endif
          state,
          't',
          k_, m_,
          scale,
          THCTensor_(data)(state, gradOutput_n), k_,
          THCTensor_(data)(state, ones), 1,
          ScalarConvert<int, scalar_t>::to(1),
          THCTensor_(data)(state, gradBias), 1
      );
      #endif
      #ifdef THC_REAL_IS_HALF
      THCudaBlas_Hgemm(
          state,
          't', 'n',
          m_, 1, k_,
          scale,
          THCTensor_(data)(state, gradOutput_n), k_,
          THCTensor_(data)(state, ones), k_,
          ScalarConvert<int, scalar_t>::to(1),
          THCTensor_(data)(state, gradBias), m_
      );
      #endif
    }
  }
  
  /* ... */
}

ATen

ATen这个文件夹我们在之前介绍THTensor的时候已经有所接触。

看了THNN.h的读者可能会发现,THNN和THCUNN只定义了少量的神经网络相关的函数,其实大部分都定义在ATen中,这个ATen是指pytorch/aten/src/ATen文件夹(下同)。说到底,TH系列库都是torch lua时代留下的产物,是用C语言实现的,后来PyTorch开发者觉得cpp大法好,就用C++写了ATen,把TH里的接口都封装了,同时新的API直接在ATen里实现。

这个ATen有点意思,它大概干了这么几件事情:

  • 在ATen/core/Tensor.h定义了at::Tensor类型,这个是C++前端以及更上层的API都在用的Tensor类型,它的成员内有一个TensorImpl impl_,提供底层实现;
  • 实现和封装了有关Tensor的所有操作,并根据数据类型和设备进行自动派发;
  • 使用Python脚本生成ATen API。

其中从TH(包括THC、THNN等)里封装的函数叫做 legacy函数,而在ATen直接实现的函数叫 native函数。native函数的实现全在ATen/native文件夹中,实现了THNN里没有的神经网络和Tensor操作,比如RNN什么的,API列表在ATen/native/native_functions.yaml里,感兴趣的童鞋可以自己阅读。

了解了神经网络每一层的前向传播和反向传播的实现之后,下一步就是控制执行顺序了,也就是自动微分(Autograd),下一篇将介绍PyTorch自动微分的实现。