线性模型可能会出错

前面我们使用深度学习神经网络完成了线性回归,softmax回归。但是它们的网络结构都较为简单,仅仅是含有一个Linear。这就需要对我们的输入和输出的关系有较为严格的要求–线性相关。但是大多数时候,这个关系显然是不满足的。所以我们需要引入一个新的神经网络层,使得它能够构建更加复杂的函数模型。

隐藏层

我们可以通过在网络中加入一个或多个隐藏层来克服线性模型的限制, 使其能处理更普遍的函数关系类型。 要做到这一点,最简单的方法是将许多全连接层堆叠在一起。 每一层都输出到上面的层,直到生成最后的输出。 我们可以把前L-1层看作表示,把最后一层看作线性预测器。 这种架构通常称为多层感知机(multilayer perceptron),通常缩写为MLP。

万能逼近定理

定义:一个包含足够多隐含层神经元的多层前馈网络,能以任意精度逼近任意预定的连续函数。
也就是说无论输入和输出之间存在一个多么复杂的函数关系式,我们总能使用足够的隐藏层来近似地逼近它,只要函数关系是连续的。

隐藏层的具体实现

有了以上解释以及定理的加持,我们知道的神经网络的“万能性”。但是我们具体应该如何去实现呢?

激活函数

激活函数(activation function)通过计算加权和并加上偏置来确定神经元是否应该被激活, 它们将输入信号转换为输出的可微运算。 大多数激活函数都是非线性的。 由于激活函数是深度学习的基础,下面简要介绍一些常见的激活函数。

常见的激活函数有:ReLu函数
Sigmoid函数
Tanh函数
它们各自有各自的特性,在具体使用时我们会做进一步地补充。

多层感知机的简洁实现

我们仍然基于Fashion-MNIST数据集,对于这个图像分类问题,使用感知机进行实现。

import torch
from torch import nn
from d2l import torch as d2l

batch_size = 256
train_iter,test_iter = d2l.load_data_fashion_mnist(batch_size)

net = nn.Sequential(nn.Flatten(),
                   nn.Linear(784,256),
                   nn.ReLU(),
                   nn.Linear(256,10))

def init_weight(m):
    if type(m) == nn.Linear:
        nn.init.normal_(m.weight,std=0.01)
net.apply(init_weight)

lr,num_epochs = 0.1,10
loss = nn.CrossEntropyLoss()
trainer = torch.optim.SGD(net.parameters(),lr=lr)
d2l.train_ch3(net,train_iter,test_iter,loss,num_epochs,trainer)