深度学习常用优化器的优缺点优化器有哪些

转载

架构领航博主 2024-04-21 17:41:46

文章标签 深度学习常用优化器的优缺点人工智能深度学习权值梯度下降法 文章分类 深度学习人工智能

文章

一、优化器

1.SGD(Stochastic gradient descent)
2.Momentum
3.NAG(Nesterov accelerated gradient)
4.Adagrad
5.RMSprop
6.Adadelta
7.Adam
效果对比：

二、优化器的简单使用

完整代码

一、优化器

常见的一些优化器有：SGD、Adagrad、Adadelta、RMSprop、Adam、Adamax、Nadam、TFOptimizer等等。

1.SGD(Stochastic gradient descent)

标准梯度下降法:
标准梯度下降法计算所有样本汇总误差，然后根据总误差来更新权值。
随机梯度下降法:
随机梯度下降法随机抽取一个样本来计算误差，然后更新权值。
批量梯度下降法:
批量梯度下降算是一种折中的方案，从总样本中选取一个批次（比如一共有10000个样本，随机选取100个样本作为一个batch），然后计算这个batch的总误差，根据总误差来更新权值。

标准梯度下降法：速度慢，效果好

随机梯度下降法：速度快，效果差

深度学习常用优化器的优缺点优化器有哪些_梯度下降法

深度学习常用优化器的优缺点优化器有哪些_人工智能_02

2.Momentum

$深度学习常用优化器的优缺点优化器有哪些_权值_03$ 动力，通常设置为0.9。

深度学习常用优化器的优缺点优化器有哪些_深度学习_04

当前权值的改变会受到上一次权值改变的影响，类似于小球向下滚动的时候带上了惯性。这样可以加快小球的向下的速度。

3.NAG(Nesterov accelerated gradient)

$深度学习常用优化器的优缺点优化器有哪些_权值_03$ 动力，通常设置为0.9。

深度学习常用优化器的优缺点优化器有哪些_梯度下降法_06

深度学习常用优化器的优缺点优化器有哪些_权值_07

深度学习常用优化器的优缺点优化器有哪些_深度学习常用优化器的优缺点_08

4.Adagrad

深度学习常用优化器的优缺点优化器有哪些_权值_09

ε：避免分母为0，取值一般是1e-8。

Adagrad主要的优势在于不需要人为的调节学习率，它可以自动调节。它的缺点在于，随着迭代次数的增多，学习率也会越来越低，最终会趋向于0。

5.RMSprop

深度学习常用优化器的优缺点优化器有哪些_梯度下降法_10

$深度学习常用优化器的优缺点优化器有哪些_权值_03$ 动力，通常设置为0.9。

RMSprop是Adagrad的改进，RMSprop不会出现学习率越来越低的问题，而且也能自己调节学习率，可以得到一个比较好的效果。

6.Adadelta

深度学习常用优化器的优缺点优化器有哪些_深度学习常用优化器的优缺点_12

$深度学习常用优化器的优缺点优化器有哪些_权值_03$ 动力，通常设置为0.9。

Adadelta也是Adagrad的改进，Adadelta不需要使用学习率也可以达到一个很好的效果。

7.Adam

深度学习常用优化器的优缺点优化器有哪些_深度学习常用优化器的优缺点_14

β1：通常取0.9，β2：通常取0.999。

Adam是常用的一种优化器。Adam会存储之前衰减的平方梯度，同时它也会保存之前衰减的梯度。经过一些处理之后再用来更新权值W。

效果对比：

深度学习常用优化器的优缺点优化器有哪些_深度学习常用优化器的优缺点_15

深度学习常用优化器的优缺点优化器有哪些_人工智能_16

二、优化器的简单使用

以使用Adam优化器为例：
修改4.交叉熵中的

# 定义优化器
sgd = SGD(lr=0.2)

# 定义优化器，loss_function,训练过程中计算准确率
model.compile(
    optimizer=sgd,
    loss="categorical_crossentropy",
    metrics=['accuracy']
)

变化为

# 定义优化器
sgd = SGD(lr=0.2)
adam = Adam(lr=0.001)

# 定义优化器，loss_function,训练过程中计算准确率
model.compile(
    optimizer=adam,
    loss="categorical_crossentropy",
    metrics=['accuracy']
)

使用前需要先导入from tensorflow.keras.optimizers import SGD,Adam。

运行结果：

深度学习常用优化器的优缺点优化器有哪些_权值_17

完整代码

代码运行平台为jupyter-notebook，文章中的代码块，也是按照jupyter-notebook中的划分顺序进行书写的，运行文章代码，直接分单元粘入到jupyter-notebook即可。
1.导入第三方库

import numpy as np
from keras.datasets import mnist
from keras.utils import np_utils
from keras.models import Sequential
from keras.layers import Dense
from tensorflow.keras.optimizers import SGD,Adam

2.加载数据及数据预处理

# 载入数据
(x_train,y_train),(x_test,y_test) = mnist.load_data()
#  (60000, 28, 28)
print("x_shape:\n",x_train.shape)
# (60000,)  还未进行one-hot编码 需要后面自己操作
print("y_shape:\n",y_train.shape)
# (60000, 28, 28) -> (60000,784)  reshape()中参数填入-1的话可以自动计算出参数结果 除以255.0是为了归一化
x_train = x_train.reshape(x_train.shape[0],-1)/255.0
x_test = x_test.reshape(x_test.shape[0],-1)/255.0
# 换one hot格式
y_train = np_utils.to_categorical(y_train,num_classes=10)
y_test = np_utils.to_categorical(y_test,num_classes=10)

3.训练模型

# 创建模型 输入784个神经元，输出10个神经元
model = Sequential([
        # 定义输出是10 输入是784,设置偏置为1,添加softmax激活函数
        Dense(units=10,input_dim=784,bias_initializer='one',activation="softmax"),
])
# 定义优化器
sgd = SGD(lr=0.2)
adam = Adam(lr=0.001)

# 定义优化器，loss_function,训练过程中计算准确率
model.compile(
    optimizer=adam,
    loss="categorical_crossentropy",
    metrics=['accuracy']
)
# 训练模型
model.fit(x_train,y_train,batch_size=32,epochs=10)

# 评估模型
loss,accuracy = model.evaluate(x_test,y_test)

print("\ntest loss",loss)
print("accuracy:",accuracy)

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：sqlserver数据库怎么更改sql server代理里的作业备份位置 sql作业如何备份

下一篇：basePackages通配符通配符类型

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯