神经网络注意力机制ppt 神经网络注意力机制和

转载

killads 2024-01-13 20:01:50

文章标签 神经网络注意力机制ppt 神经网络深度学习机器学习感知机 文章分类 文心一言 AIGC

最近在看文献、学习神经网络过程中，对于神经网络、注意力机制等概念有所混淆（基于多层感知的神经网络、基于多层感知机的注意力等）

注意力机制(Attention Mechanism)是人们在机器学习（深度学习）模型中嵌入的一种特殊结构，用来自动学习和计算输入数据对输出数据的贡献大小。

从一般意义上说，注意力机制是对编码-解码器结构的改进。编码器-解码器模型利用神经网络将输入的编码特征转换成另一种编码特征。注意机力制组件赋予了神经网络在编码数据时对特定特征赋予 “注意力”的能力，它有助于解决神经网络中经常发生的梯度消失/爆炸问题。

常见用例

自然语言处理(NLP)
计算机视觉

深度学习的发展一般分为三个阶段，感知机-->三层神经网络-->深度学习（表示学习）。早先的感知机由于采用线性模型，无法解决异或问题，表示能力受到限制。为此三层神经网络放弃了感知机良好的解释性，而引入非线性激活函数来增加模型的表示能力。三层神经网络与感知机的两点不同

1）非线性激活函数的引入，使得模型能解决非线性问题

2）引入激活函数之后，不再会有损失的情况，损失函数采用对数损失，这也使得三层神经网络更像是三层多元（神经单元）逻辑回归的复合
神经网络中每一个神经元都可以看作是一个逻辑回归模型，三层神经网络就是三层逻辑回归模型的复合，只是不像逻辑回归中只有一个神经元，一般输入层和隐藏层都是具有多个神经元，而输出层对应一个logistic回归单元或者softmax单元，或者一个线性回归模型。

多层感知机MLP(ANN）

这一部分是神经网络的基础，在CNN和RNN的算法以及一系列的衍生算法中的最后层基本都是classifier层（fully connected（FC）层），用于把前面通过CNN和RNN处理后的获得的特征参数（features）进行最终的分类计算获得预测每一个样本标签的概率。而MLP就是通常被应用在这个FC层的。CNN和RNN用于训练学习获得特征参数（features）。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。