算法工程师面试题十二之LSTM简析

原创

说文科技 2022-01-25 16:11:42 ©著作权

文章标签 机器学习数据 ide 文章分类 神经网络人工智能

©著作权归作者所有：来自51CTO博客作者说文科技的原创作品，请联系作者获取转载授权，否则将追究法律责任

前言

望各位读者审慎阅读

1.模型单元结构

算法工程师面试题十二之LSTM简析_数据

主要记住如下特征：

lstm 有三重门，分别是：输入门，输出门，遗忘门。
输入门：输入的数据有多大程度进入模型；
输出门：控制当前时刻的内部状态 c t c_t ct有多少信息需要输出给外部状态；
遗忘门：控制上一个时刻的内部状态 c t − 1 c_{t-1} ct−1需要遗忘多少信息

lstm 的三重门都是由输入向量 x t \bold{x_t} xt变换得到的，变换公式如下：
i t = σ ( W i x t + U i h t − 1 + b i ) o t = σ ( W o x t + U o h t − 1 + b o ) f t = σ ( W f x t + U f h t − 1 + b f ) \bold{i_t} = \sigma(\bold{W_i} \bold{x_t}+ \bold{U_i} \bold{h_{t-1}} + \bold{b_i})\\ \bold{o_t} = \sigma(\bold{W_o} \bold{x_t}+ \bold{U_o} \bold{h_{t-1}} + \bold{b_o})\\ \bold{f_t} = \sigma(\bold{W_f} \bold{x_t}+ \bold{U_f} \bold{h_{t-1}} + \bold{b_f})\\ it=σ(Wixt+Uiht−1+bi)ot=σ(Woxt+Uoht−1+bo)ft=σ(Wfxt+Ufht−1+bf)

更新公式
c t = f t ⊙ c t − 1 + i t ⊙ c ~ t h t = o t ⊙ t a n h c t c_t=f_t \odot c_{t-1} + i_t \odot \widetilde{c}_{t}\\ h_t=o_t \odot tanh {c_t} ct=ft⊙ct−1+it⊙c tht=ot⊙tanhct

其它标记
这里再解释一下其它的标记：和内部状态 c t c_t ct相反， h t h_t ht 表示的是外部状态