NOTE2: Normalization/优化器/其他GAN

原创

拧螺丝的大白菜 2024-07-29 21:10:38 博主文章分类：NOTES ©著作权

©著作权归作者所有：来自51CTO博客作者拧螺丝的大白菜的原创作品，请联系作者获取转载授权，否则将追究法律责任

::: hljs-right DATE: March 30, 2024 :::

//

在Python中，// 是整除运算符（也称为地板除法运算符），用于对两个数字进行整除运算

for i in range(num_samples_per_class // (bs // num_classes)):
	label = torch.arange(num_classes).repeat(bs // num_classes).to(device)

GAN

GAN 架构的大部分工作都集中在改进鉴别器上，例如，使用多个鉴别器、多分辨率鉴别器或自注意力（self-attention）。生成器端的工作主要集中在输入隐空间中的精确分布或通过高斯混合模型、聚类或鼓励凸性来塑造输入隐空间。 https://www.zhihu.com/question/484004802/answer/2592153405

Instance Normalization（实例归一化）和 Spectral Normalization（谱归一化）

Instance Normalization 更适用于生成模型中，而 Spectral Normalization 更适用于生成对抗网络的鉴别器。

Instance Normalization：

作用：

对每个样本单独进行归一化，即对每个样本的每个特征维度进行独立的归一化处理，不同于批归一化（Batch Normalization），它对整个批次进行归一化。

应用场景：

主要用于生成模型中，如图像风格转换（Style Transfer）、图像生成（Image Generation）等任务，有助于提高模型的表现和生成图像的质量。

Spectral Normalization：

作用：

通过对权重矩阵的谱范数进行限制，来控制模型的 Lipschitz 常数，从而使模型的输出更加稳定，有助于提高生成器和鉴别器的训练稳定性。

应用场景：

主要应用于生成对抗网络（GANs）中的鉴别器（Discriminator），尤其在训练深度卷积神经网络时，有助于防止梯度消失和爆炸，提高训练效果和生成结果的质量。

后馈网络

除了循环神经网络（RNN）之外，还有一些其他类型的后馈神经网络，例如：

时间递归神经网络（TRNN）：与标准的RNN不同，时间递归神经网络将权重矩阵分解为多个时间步长，以便在训练期间降低计算成本。
循环神经网络（RNN）的变体：包括长短期记忆网络（LSTM）和门控循环单元（GRU）。它们通过引入门控机制来解决传统RNN中的梯度消失问题，从而更好地捕捉序列数据中的长期依赖关系。
神经图网络（NGN）：这是一种处理图形数据的后馈神经网络。NGN通过对节点和边的信息进行聚合来学习图形的全局表示，可用于图形分类、图形生成等任务。
深度信念网络（DBN）：这是一种由多层受限玻尔兹曼机（RBM）组成的前馈和反馈神经网络。DBN可以用于无监督学习和生成模型的训练。
回声状态网络（ESN）：回声状态网络是一种基于随机矩阵理论的循环神经网络，它使用固定的权重矩阵来处理时间序列数据。

优化器

当我们训练神经网络时，我们需要选择一个合适的优化器来更新模型的参数，以使损失函数尽可能地减小。下面是几种常用的优化器及其作用和区别：

随机梯度下降（SGD）：SGD是最基本的优化器之一，它在每次迭代中使用负梯度乘以学习率来更新模型参数。它的优点是简单易于实现，并且在某些情况下能够取得不错的效果。缺点是可能会陷入局部最小值，并且收敛速度较慢。
RMSprop：RMSprop（Root Mean Square Propagation）是一种自适应学习率方法，它会根据梯度的大小来调整每个参数的学习率。它通过平均最近梯度的平方来调整学习率，从而在训练过程中使学习率逐渐减小。这有助于加速收敛，并且可以应对不同参数的梯度变化幅度不同的情况。
Adagrad：Adagrad（Adaptive Gradient Algorithm）是一种自适应学习率方法，它根据每个参数的历史梯度大小来调整学习率。它的优点是可以针对稀疏梯度问题进行自适应调整，适用于非平稳目标和非凸优化问题。但是，由于历史梯度的累积会导致学习率不断减小，可能会导致学习率过小，进而使模型无法收敛。
Adam：Adam（Adaptive Moment Estimation）是一种结合了动量优化和自适应学习率的方法，它结合了Momentum和RMSprop的优点。它利用了梯度的一阶矩估计和二阶矩估计来调整每个参数的学习率，从而既考虑了梯度的方向，又考虑了梯度的大小。 Adam通常被认为是一种非常有效的优化器，适用于大多数深度学习任务，并且具有较快的收敛速度和良好的性能。在选择优化器时，通常需要根据具体的任务和数据集情况来进行选择，同时还需要考虑模型的复杂度和训练时间等因素。

其他概念

Auxiliary Classifier GAN (AC-GAN):

AC-GAN 是一种结合生成对抗网络（GAN）和条件生成模型的方法。它通过引入一个额外的分类器（判别器），来对生成的样本进行类别标签的预测。这个额外的分类器与原始的判别器共同评估生成器生成的样本的真实性。AC-GAN 既可以生成逼真的图像，又可以确保生成的图像符合特定的类别标签。

Multi-Scale GAN (MSGAN):

MSGAN 是一种基于多尺度判别器的方法。它使用多个判别器来评估生成器生成的图像的真实性，这些判别器分别操作于不同尺度的图像。通过在不同尺度上对图像进行评估，MSGAN 能够更好地捕捉图像的全局和局部特征，提高生成图像的质量和多样性。

Multi-Discriminator GAN (MD-GAN):

MD-GAN 是一种使用多个独立判别器的方法。它包括多个判别器，每个判别器都独立地评估生成器生成的样本的真实性。这些独立的判别器可以使用不同的参数或架构，以提供更丰富和多样化的反馈信号，帮助生成器学习到更广泛的数据分布。

Feature Matching:

特征匹配是一种使用多个判别器的方法，但不同于独立的判别器，它使用一个共享的判别器，但训练目标不仅包括判别器的输出，还包括判别器中间层的特征表示。通过最大化生成图像和真实图像在判别器中间层的特征匹配程度，特征匹配可以提高生成图像的质量和多样性。

上一篇：多模态大模型：LLM Applications in Automated Essay Scoring (AES)

下一篇：Vue学习笔记1

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯