前言
在 《Deep Learning》一书中介绍了好几种模型超参数的选择方式:手动调整、使用自动超参数优化算法、网格搜索(grid search)、随机搜索(random search)和基于模型的超参数优化。其中,随机搜索是该书作者较为推荐的方法,这篇博客的主题是随机搜索在 Pytorch 中的实现,就不对其他方法展开描述了(其实是因为自己理解还不够深)。
注:近期查阅资料时发现 Pytorch 官方已经出了一篇关于超参优化的教程,其中使用了 Ray Tune 这个 Python 库,感兴趣的读者可以移步到这。(2021.12.10 加)
具体实现
一些确保模型能够复现的操作
在进行超参搜索时,应该固定住其他操作中的随机种子,并执行一些能够确保模型复现的操作(虽然在 Pytorch 中无法实现严格意义上的复现),防止模型其他部分(如全连接层中权重矩阵的初始化)引入的随机性破坏超参组合性能对比的公平性。这部分可参考 Reproducibility in Pytorch 和 Reproducibility and performance in PyTorch.
import os
import torch
import random
import numpy as np
# 这里不固定 random 模块的随机种子,因为 random 模块后续要用于超参组合随机组合。
def set_seed(seed):
torch.manual_seed(seed)
np.random.seed(seed)
os.environ['PYTHONHASHSEED'] = str(seed)
if torch.cuda.is_available():
torch.cuda.manual_seed_all(seed)
torch.backends.cudnn.deterministic = True
torch.backends.cudnn.benchmark = False
(注:刚开始的版本中没有这一小节的内容,多亏了一网友的提醒,在此感谢)
定义超参的候选集以及超参随机选取的最大次数
# Hyperparameter grid,这些超参实际代表的意义没必要去了解,
# 因为不同的模型有着不同的超参,你只需要知道它们是超参就行,这并不妨碍你对 random search 的理解,
# 这里只是为了方便展示,现实中的超参候选范围可能会比此大得多。
param_grid = {
'patience': list(range(5, 20)),
'learning_rate': list(np.logspace(np.log10(0.005), np.log10(0.5), base = 10, num = 1000)),
'batch_size': [1, 4, 8, 16, 32],
'hidden_size': [128, 256]
}
# 超参组合最大选取次数,该次数一般会远小于网格搜索遍历所有超参候选值所需的模型训练次数,否则就失去随机搜索的意义了。
MAX_EVALS = 100
从超参候选集中随机选取超参组合
random.seed(50) # 设置随机种子
# Randomly sample from dictionary,随机从 param_grid 中对超参进行采样
# random_params 也是一个字典,k 为超参名,v 为随机选取的超参值
# 对于 random.sample 的用法建议自己查官方文档
random_params = {k: random.sample(v, 1)[0] for k, v in param_grid.items()}
如果你打印出
{'patience': 12,
'learning_rate': 0.1,
'batch_size': 4,
'hidden_size': 256}
根据选取得到的超参组合来定义并训练模型,验证训练后的模型的效果,并记录迄今最优模型
# Evaluate randomly selected hyperparameters
# ------------------------------------------------------
# 读取被选取的超参
patience = hyperparameters['patience']
learning_rate = hyperparameters['learning_rate']
hidden_size = hyperparameters['hidden_size']
batch_size = hyperparameters['batch_size']
# ------------------------------------------------------
# 接下来为了方便,会使用伪代码
# 定义你的模型,将超参加入到你的模型定义或模型训练中,"..." 表示除超参外定义模型所需的参数
model = yourModel(hidden_size, ...) # 伪
# 训练模型
train_model(model, x_train, y_train, patience, learning_rate, batch_size,...) # 伪
# 使用验证集评估模型效果
score = evaluate(model, x_val, y_val) # 伪
# 与所记录的最好效果相比较
if score > best_score:
best_hyperparams = hyperparameters
best_score = score
重复进行第 步直至到达定义好的随机选取次数,最优模型对应的超参组合即为最优超参组合(这里的“最优”俩字不严谨,但能表达意思),也就是
组合起来
set_seed(24) # 为了模型除超参外其他部分的复现
param_grid = {
'patience': list(range(5, 20)),
'learning_rate': list(np.logspace(np.log10(0.005), np.log10(0.5), base = 10, num = 1000)),
'batch_size': [1, 4, 8, 16, 32],
'hidden_size': [128, 256]
}
MAX_EVALS = 100
# 记录用
best_score = 0
best_hyperparams = {}
for i in range(MAX_EVALS):
random.seed(i) # 设置随机种子,每次搜索设置不同的种子,若种子固定,那每次选取的超参都是一样的
hyperparameters = {k: random.sample(v, 1)[0] for k, v in param_grid.items()}
patience = hyperparameters['patience']
learning_rate = hyperparameters['learning_rate']
hidden_size = hyperparameters['hidden_size']
batch_size = hyperparameters['batch_size']
model = yourModel(hidden_size, ...)
train_model(model, x_train, y_train, patience, learning_rate, batch_size,...)
score = evaluate(model, x_val, y_val)
if score > best_score:
best_hyperparams = hyperparameters
best_score = score
# 你还可以在这一步保存模型,以最终得到最优的模型,如
torch.save(model.state_dict(), "best_model.pt")
# 对于模型的保存与读取相关方法,请你查询 pytorch 官方文档
总结
本文为了描述方便在一些地方使用了伪代码,希望读者能够根据自己的情况进行改动。若有问题,欢迎指正。写到最后,才发现这篇博客的内容与标题中的 没有太多联系,甚至可以说是没有联系,除了模型保存部分的 ,所以你也可以在