pytorch 修改dropout源码 pytorch dropout参数

转载

mob64ca1404ed65 2024-06-17 12:38:58

文章标签 pytorch 修改dropout源码 pytorch dropout pytorch softmax 正规字符查找每行的第二个单词 4s 文章分类 PyTorch 人工智能

作者 | News

专栏目录：

第一章： PyTorch之简介与下载

PyTorch简介
PyTorch环境搭建

第二章：PyTorch之60分钟入门

PyTorch入门
PyTorch自动微分
PyTorch神经网络
PyTorch图像分类器
PyTorch数据并行处理

第三章：PyTorch之入门强化

数据加载和处理
PyTorch小试牛刀
迁移学习
混合前端的seq2seq模型部署
保存和加载模型

第四章：PyTorch之图像篇

微调基于torchvision 0.3的目标检测模型
微调TorchVision模型
空间变换器网络
使用PyTorch进行神经传递
生成对抗示例
使用ONNX将模型转移至Caffe2和移动端

第五章：PyTorch之文本篇

聊天机器人教程
使用字符级RNN生成名字
使用字符级RNN进行名字分类
在深度学习和NLP中使用Pytorch
使用Sequence2Sequence网络和注意力进行翻译

第六章：PyTorch之生成对抗网络第七章：PyTorch之强化学习

pytorch 修改dropout源码 pytorch dropout参数_pytorch softmax_02

使用字符级RNN生成名字

pytorch 修改dropout源码 pytorch dropout参数_pytorch dropout_03

在本教程中我们使用RNN网络根据语言生成名字。

> python sample.py Russian RUS
Rovakov
Uantov
Shavakov

> python sample.py German GER
Gerren
Ereng
Rosher

> python sample.py Spanish SPA
Salla
Parer
Allan

> python sample.py Chinese CHI
Chan
Hang
Iun

我们使用只有几层线性层的小型RNN。最大的区别在于，这里不是在读取一个名字的所有字母后预测类别，而是输入一个类别之后在每一时刻输出一个字母。循环预测字符以形成语言通常也被称为“语言模型”。(也可以将字符换成单词或更高级的结构进行这一过程)

阅读建议

开始本教程前，你已经安装好了PyTorch，并熟悉Python语言，理解“张量”的概念：

https://pytorch.org/ PyTorch 安装指南
Deep Learning with PyTorch：A 60 Minute Blitz :PyTorch的基本入门教程
Learning PyTorch with Examples:得到深层而广泛的概述
PyTorch for Former Torch Users Lua Torch:如果你曾是一个Lua张量的使用者

事先学习并了解RNN的工作原理对理解这个例子十分有帮助:

The Unreasonable Effectiveness of Recurrent Neural Networks展示了很多实际的例子
Understanding LSTM Networks是关于LSTM的，但也提供有关RNN的说明

1.准备数据

打开网页(https://download.pytorch.org/tutorial/data.zip)下载数据并将其解压到当前文件夹。有些纯文本文件data/names/[Language].txt，它们的每行都有一个名字。

我们按行将文本按行分割得到一个数组，将Unicode编码转化为ASCII编码，最终得到{language: [names ...]}格式存储的字典变量。

from __future__ import unicode_literals, print_function, division
from io import open
import glob
import os
import unicodedata
import string

all_letters = string.ascii_letters + " .,;'-"
n_letters = len(all_letters) + 1 # Plus EOS marker

def findFiles(path): return glob.glob(path)

# 将Unicode字符串转换为纯ASCII, 感谢https://stackoverflow.com/a/518232/2809427
def unicodeToAscii(s):
    return ''.join(
        c for c in unicodedata.normalize('NFD', s)
        if unicodedata.category(c) != 'Mn'
        and c in all_letters
    )

# 读取文件并分成几行
def readLines(filename):
    lines = open(filename, encoding='utf-8').read().strip().split('\n')
    return [unicodeToAscii(line) for line in lines]

# 构建category_lines字典，列表中的每行是一个类别
category_lines = {}
all_categories = []
for filename in findFiles('data/names/*.txt'):
    category = os.path.splitext(os.path.basename(filename))[0]
    all_categories.append(category)
    lines = readLines(filename)
    category_lines[category] = lines

n_categories = len(all_categories)

if n_categories == 0:
    raise RuntimeError('Data not found. Make sure that you downloaded data '
        'from https://download.pytorch.org/tutorial/data.zip and extract it to '
        'the current directory.')

print('# categories:', n_categories, all_categories)
print(unicodeToAscii("O'Néàl"))

输出结果

# categories: 18 ['French', 'Czech', 'Dutch', 'Polish', 'Scottish', 'Chinese', 'English', 'Italian', 'Portuguese', 'Japanese', 'German', 'Russian', 'Korean', 'Arabic', 'Greek', 'Vietnamese', 'Spanish', 'Irish']
O'Neal

2.构造神经网络

这个神经网络网络增加了额外的类别张量参数，该参数与其他输入连接在一起。类别可以像字母一样组成 one-hot 向量构成张量输入。

我们将输出作为下一个字母是什么的可能性。采样过程中，当前输出可能性最高的字母作为下一时刻输入字母。

在组合隐藏状态和输出之后我们增加了第二个linear层o2o，使模型的性能更好。当然还有一个dropout层，参考这篇论文随机将输入部分替换为0给出的参数(dropout=0.1)来模糊处理输入防止过拟合。我们将它添加到网络的末端，故意添加一些混乱使采样特征增加。

import torch
import torch.nn as nn

class RNN(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(RNN, self).__init__()
        self.hidden_size = hidden_size

        self.i2h = nn.Linear(n_categories + input_size + hidden_size, hidden_size)
        self.i2o = nn.Linear(n_categories + input_size + hidden_size, output_size)
        self.o2o = nn.Linear(hidden_size + output_size, output_size)
        self.dropout = nn.Dropout(0.1)
        self.softmax = nn.LogSoftmax(dim=1)

    def forward(self, category, input, hidden):
        input_combined = torch.cat((category, input, hidden), 1)
        hidden = self.i2h(input_combined)
        output = self.i2o(input_combined)
        output_combined = torch.cat((hidden, output), 1)
        output = self.o2o(output_combined)
        output = self.dropout(output)
        output = self.softmax(output)
        return output, hidden

    def initHidden(self):
        return torch.zeros(1, self.hidden_size)

3.训练

3.1 训练准备

首先，构造一个可以随机获取成对训练数据(category, line)的函数。

import random

# 列表中的随机项
def randomChoice(l):
    return l[random.randint(0, len(l) - 1)]

# 从该类别中获取随机类别和随机行
def randomTrainingPair():
    category = randomChoice(all_categories)
    line = randomChoice(category_lines[category])
    return category, line

对于每个时间步长(即，对于要训练单词中的每个字母)，网络的输入将是“(类别，当前字母，隐藏状态)”，输出将是“(下一个字母，下一个隐藏状态)”。因此，对于每个训练集，我们将需要类别、一组输入字母和一组输出/目标字母。

在每一个时间序列，我们使用当前字母预测下一个字母，所以训练用的字母对来自于一个单词。例如对于 "ABCD"，我们将创建(“A”，“B”)，(“B”，“C”)，(“C”，“D”)，(“D”，“EOS”))。

类别张量是一个<1 x n_categories>尺寸的one-hot张量。训练时，我们在每一个时间序列都将其提供给神经网络。这是一种选择策略，也可选择将其作为初始隐藏状态的一部分，或者其他什么结构。

# 类别的One-hot张量
def categoryTensor(category):
    li = all_categories.index(category)
    tensor = torch.zeros(1, n_categories)
    tensor[0][li] = 1
    return tensor

# 用于输入的从头到尾字母(不包括EOS)的one-hot矩阵
def inputTensor(line):
    tensor = torch.zeros(len(line), 1, n_letters)
    for li in range(len(line)):
        letter = line[li]
        tensor[li][0][all_letters.find(letter)] = 1
    return tensor

# 用于目标的第二个结束字母(EOS)的LongTensor
def targetTensor(line):
    letter_indexes = [all_letters.find(line[li]) for li in range(1, len(line))]
    letter_indexes.append(n_letters - 1) # EOS
    return torch.LongTensor(letter_indexes)

为了方便训练，我们将创建一个randomTrainingExample函数，该函数随机获取(类别，行)的对并将它们转换为所需要的(类别，输入，目标)格式张量。

# 从随机(类别，行)对中创建类别，输入和目标张量
def randomTrainingExample():
    category, line = randomTrainingPair()
    category_tensor = categoryTensor(category)
    input_line_tensor = inputTensor(line)
    target_line_tensor = targetTensor(line)
    return category_tensor, input_line_tensor, target_line_tensor

3.2 训练神经网络

和只使用最后一个时刻输出的分类任务相比，这次我们每一个时间序列都会进行一次预测，所以每一个时间序列我们都会计算损失。

autograd 的神奇之处在于您可以在每一步中简单地累加这些损失，并在最后反向传播。

criterion = nn.NLLLoss()

learning_rate = 0.0005

def train(category_tensor, input_line_tensor, target_line_tensor):
    target_line_tensor.unsqueeze_(-1)
    hidden = rnn.initHidden()

    rnn.zero_grad()

    loss = 0

    for i in range(input_line_tensor.size(0)):
        output, hidden = rnn(category_tensor, input_line_tensor[i], hidden)
        l = criterion(output, target_line_tensor[i])
        loss += l

    loss.backward()

    for p in rnn.parameters():
        p.data.add_(-learning_rate, p.grad.data)

    return output, loss.item() / input_line_tensor.size(0)

为了跟踪训练耗费的时间，我添加一个timeSince(timestamp)函数，它返回一个人类可读的字符串：

import time
import math

def timeSince(since):
    now = time.time()
    s = now - since
    m = math.floor(s / 60)
    s -= m * 60
    return '%dm %ds' % (m, s)

训练过程和平时一样。多次运行训练，等待几分钟，每print_every次打印当前时间和损失。在all_losses中保留每plot_every次的平均损失，以便稍后进行绘图。

rnn = RNN(n_letters, 128, n_letters)

n_iters = 100000
print_every = 5000
plot_every = 500
all_losses = []
total_loss = 0 # Reset every plot_every iters

start = time.time()

for iter in range(1, n_iters + 1):
    output, loss = train(*randomTrainingExample())
    total_loss += loss

    if iter % print_every == 0:
        print('%s (%d %d%%) %.4f' % (timeSince(start), iter, iter / n_iters * 100, loss))

    if iter % plot_every == 0:
        all_losses.append(total_loss / plot_every)
        total_loss = 0

输出结果：

0m 23s (5000 5%) 3.1569
0m 43s (10000 10%) 2.3132
1m 3s (15000 15%) 2.5069
1m 24s (20000 20%) 1.3100
1m 44s (25000 25%) 3.6083
2m 4s (30000 30%) 3.5398
2m 24s (35000 35%) 2.4387
2m 44s (40000 40%) 2.2262
3m 4s (45000 45%) 2.6500
3m 24s (50000 50%) 2.4559
3m 44s (55000 55%) 2.5030
4m 4s (60000 60%) 2.9417
4m 24s (65000 65%) 2.1571
4m 44s (70000 70%) 1.7415
5m 4s (75000 75%) 2.3649
5m 24s (80000 80%) 3.0096
5m 44s (85000 85%) 1.9196
6m 4s (90000 90%) 1.9468
6m 25s (95000 95%) 2.1522
6m 45s (100000 100%) 2.0344

3.3 损失数据作图

从all_losses得到历史损失记录，反映了神经网络的学习情况：

import matplotlib.pyplot as plt
import matplotlib.ticker as ticker

plt.figure()
plt.plot(all_losses)

pytorch 修改dropout源码 pytorch dropout参数_pytorch dropout_04

4.网络采样

我们每次给网络提供一个字母并预测下一个字母是什么，将预测到的字母继续输入，直到得到EOS字符结束循环。

用输入类别、起始字母和空隐藏状态创建输入张量。
用起始字母构建一个字符串变量 output_name
得到最大输出长度， * 将当前字母传入神经网络 * 从前一层得到下一个字母和下一个隐藏状态 * 如果字母是EOS，在这里停止 * 如果是一个普通的字母，添加到output_name变量并继续循环
返回最终得到的名字单词

另一种策略是，不必给网络一个起始字母，而是在训练中提供一个“字符串开始”的标记，并让网络自己选择起始的字母。

max_length = 20

# 来自类别和首字母的样本
def sample(category, start_letter='A'):
    with torch.no_grad():  # no need to track history in sampling
        category_tensor = categoryTensor(category)
        input = inputTensor(start_letter)
        hidden = rnn.initHidden()

        output_name = start_letter

        for i in range(max_length):
            output, hidden = rnn(category_tensor, input[0], hidden)
            topv, topi = output.topk(1)
            topi = topi[0][0]
            if topi == n_letters - 1:
                break
            else:
                letter = all_letters[topi]
                output_name += letter
            input = inputTensor(letter)

        return output_name

# 从一个类别和多个起始字母中获取多个样本
def samples(category, start_letters='ABC'):
    for start_letter in start_letters:
        print(sample(category, start_letter))

samples('Russian', 'RUS')

samples('German', 'GER')

samples('Spanish', 'SPA')

samples('Chinese', 'CHI')

输出结果：

Rovanik
Uakilovev
Shaveri
Garter
Eren
Romer
Santa
Parera
Artera
Chan
Ha
Iua

练习

尝试其它 (类别->行) 格式的数据集，比如: * 系列小说 -> 角色名称 * 词性 -> 单词 * 国家 -> 城市
尝试“start of sentence” 标记，使采样的开始过程不需要指定起始字母
通过更大和更复杂的网络获得更好的结果 * 尝试 nn.LSTM 和 nn.GRU 层 * 组合这些 RNN构造更复杂的神经网络

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：java mongo批量保存前判断是否存在 java mongodb多条件查询

下一篇：蓝牙mesh homeassistant 蓝牙耳机

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯