大模型 | 快手多模态理解岗面试题7道(含答案解析)

原创

沈页dd 2024-09-02 17:12:49 ©著作权

©著作权归作者所有：来自51CTO博客作者沈页dd的原创作品，请联系作者获取转载授权，否则将追究法律责任

DPO 和 PPO

PPO (Proximal Policy Optimization): PPO 是一种强化学习算法，采用了策略优化方法。它的目标是通过限制策略更新的幅度来避免策略剧烈变化，减小策略崩溃的风险。具体做法是通过剪裁损失函数，确保策略变化在一个较小的范围内，从而提高训练的稳定性。PPO 的核心是引入了一种近端目标函数，利用优势函数更新策略，兼顾了策略的探索和收敛。
DPO (Direct Policy Optimization): DPO 是一种最近提出的算法，旨在简化传统强化学习中的策略优化问题。它的主要思想是通过直接最小化目标函数来优化策略，而不是像 PPO 一样通过对数比率和剪裁损失函数来进行策略更新。DPO 采用了更直接的优化方式，简化了策略更新的过程。

区别：

梯度爆炸或消失: 由于 DPO 更直接地优化策略目标函数，可能导致策略更新过快或过剧，从而导致梯度爆炸或消失的问题。

收敛性问题: DPO 没有像 PPO 那样的机制来限制策略更新，因此可能在训练过程中出现不稳定或策略崩溃的情况。

探索和利用之间的平衡问题: 由于 DPO 直接最小化目标函数，可能会倾向于过早地进行利用，导致探索不足，从而无法找到全局最优解。

Transformer 是一种基于自注意力机制的深度学习模型，广泛应用于自然语言处理任务中。其核心结构包括：

Encoder 和 Decoder: Encoder 负责对输入序列进行编码，生成一组高维特征表示；Decoder 则根据这些表示和目标序列进行解码，生成最终输出。
多头自注意力机制 (Multi-Head Self-Attention): 通过多个注意力头并行处理序列数据，捕捉不同位置之间的依赖关系。
前馈神经网络 (Feed-Forward Network, FFN): 在注意力层后面，通过两层全连接网络对每个位置进行独立的非线性变换。
残差连接和 LayerNorm: 通过残差连接和 LayerNorm，避免梯度消失问题，同时加快模型的收敛速度。

Transformer 由于没有循环结构，无法捕捉序列中的位置信息，因此需要位置编码 (Positional Encoding)。位置编码有两种主要方式：

绝对位置编码 (APE): 通过固定的位置编码向量为序列中的每个位置赋予唯一标识。
相对位置编码 (ROPE, Relative Positional Encoding): 相对位置编码可以动态地捕捉序列中的相对位置信息，使模型具有更好的外推能力。在处理长度变化的序列时，ROPE 相比 APE 表现更优，因其不依赖于绝对位置，能更好地处理序列中元素之间的相对关系。

BatchNorm (Batch Normalization): 主要用于卷积神经网络中，通过对 mini-batch 的每个维度进行标准化，减少内部协变量偏移，提高训练的稳定性。

LayerNorm (Layer Normalization): 主要用于 RNN 和 Transformer 等序列模型中，它对整个层进行标准化，独立于 mini-batch，确保在不同时间步和序列长度下具有一致的归一化效果。

Transformer 的输入是序列数据，不同的批次可能会有不同的长度和特征分布，使用 LayerNorm 可以更好地处理这些变化，同时适应不同时间步的归一化需求。

PostNorm: 在注意力层和前馈网络之后进行归一化。这种方式能让主干网络更强大，但归一化的影响在模型早期阶段相对较弱。
PreNorm: 在注意力层和前馈网络之前进行归一化，可以增强模型的稳定性，尤其是在训练初期。但随着网络深度增加，归一化可能会影响表示能力的提升。优缺点：

PostNorm: 优点是后期训练效果较好，缺点是前期训练不够稳定。
PreNorm: 优点是前期训练更稳定，缺点是模型可能会陷入局部最优解。

Warm-up 通常用于缓解训练初期梯度过大或过小的问题，使模型能够平稳过渡到正常训练阶段。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯