Lstm通俗详解
- LSTM因其特殊的网络结构,目前在序列建模中有非常大的优势,也算是序列建模的标配了(不考虑Self-Attention的情况下)。
- RNN的局限性
- 对RNN有认识的人都知道RNN在训练的过程中会有长期依赖的问题,这是由于RNN模型在训练时会遇到梯度消失(大部分情况)或者梯度爆炸(很少,但对优化过程影响很大)的问题。对于梯度爆炸是很好解决的,可以使用梯度修剪(Gradient Clipping),即当梯度向量大于某个阈值,缩放梯度向量。但对于梯度消失是很难解决的。所谓的梯度消失或梯度爆炸是指训练时计算和反向传播,梯度倾向于在每一时刻递减或递增,经过一段时间后,梯度就会收敛到零(消失)或发散到无穷大(爆炸)。简单来说,长期依赖的问题就是在每一个时间的间隔不断增大时,RNN会丧失到连接到远处信息的能力。
- LSTM网络结构通俗详解
- RNN网络结构图
- LSTM网络结构图
由两个结构图可见,RNN与LSTM都具有一种重复神经网络模块的链式的形式。但在标准的RNN中,这个重复的模块只有一个非常简单的结构,例如一个tanh层;但在LSTM中
重复的模块拥有一个不同的结构,不同于RNN单一神经网络层,这里是有四个,并且以一种非常特殊的方式进行交互。LSTM的核心理解就在于这里指出的四种特殊网络交互层了。- 1.细胞状态(Ct)