首页 1 2 3 4 5 6 7

手搓GPT系列之 - 通过理解LSTM的反向传播过程，理解LSTM解决梯度消失的原理 - 逐条解释LSTM创始论文全部推导公式，配超多图帮助理解（下篇）

本文承接上篇上篇在此和中篇中篇在此，继续就Sepp Hochreiter 1997年的开山大作 Long Short-term Memory 中APPENDIX A.1和A.2所载的数学推导过程进行详细解读。希望可以帮助大家理解了这个推导过程，进而能顺利理解为什么那几个门的设置可以解决RNN里的梯度消失和梯度爆炸的问题。中篇介绍了各个权重的误差更新算法。本篇将继续说明梯度信息在LSTM的记忆单元中经过一定的时间步之后如何变化，并由此证明LSTM可实现CEC（Constant Error Carousel）。本篇为整个文章的终章，也是最关键的一篇，因为此篇正是理解LSTM实现CEC的关键。一家之言，若有任何错漏欢迎大家评论区指正。好了，Dig in！

6. 误差流

我们将计算误差值在记忆单元上流过 $时间步之后（也称误差流error flow）的变化情况。$

6.1 记忆单元输出点的误差值计算

已知记忆单元的计算公式：
$s_{c_j}(t) = s_{c_j}(t-1) + g(net_{c_j}(t)) y^{in_j}(t)$

根据截断求导的规则，上式中的 $\frac{\partial y^{in_j}(t-k)}{\partial y^u(t-k-1)}$

为了解释这个情况，我们需要先看一下下边从 $y^{in_j}(t-k)$

我们把传播路径上的各个节点展开一下（如下图所示），这里边 $y^{in_j}(t-k)$

上图分别显示了 $\frac{\partial y^{in_j}(t-k)}{\partial y^u(t-k-1)}$

我们可以如此定义 $v_j(t)$

6.2 输出门的误差值计算

此时我们可以计算 $t t 时刻，输出门得到的误差值 v o u t j ( t ) v_{out_j}(t)$

6.3 CEC的误差值计算

我们现在来计算在 $t t 时刻传播到记忆单元内部的 s c j s_{c_j}$

从上图我们可以明显地看出来，因为 $s_{c_j}(t)$

6.4 CEC之间的误差流

接下来算一个中间公式，后边有用：
$\begin{aligned} \frac{\partial v_j(t)}{\partial v_{s_{c_j}}(t+1)}&= \frac{\partial \sum_u w_{ic_j}v_i(t+1)}{\partial v_{s_{c_j}}(t+1)}&(代入式31*)\\ &=\sum_u w_{uc_j}\frac{\partial v_u(t+1)}{\partial v_{s_{c_j}}(t+1)}\\ &=0\tag{34}. \end{aligned}$

为什么 $\sum_u w_{uc_j}\frac{\partial v_u(t+1)}{\partial v_{s_{c_j}}(t+1)}=0$

由于：
$\sum_{u:\ u\ no\ gate\ no\ memory\ cell} w_{uc_j}v_u(t+1)=\sum_{i} w_{ic_j}v_i(t+1) + \sum_{k} w_{kc_j}v_i(t+1)$

此时我们来计算时刻 $流入$

式35意味着：
$v_{s_{c_j}}(t) = v_{s_{c_j}}(t+1) + C.$

6.5 记忆单元的误差值计算

记忆单元输入处的误差值 $v_{c_j}(t)$

6.6 输入门的误差值计算

$v_{in_j}(t)\approx_{tr}\frac{\partial y^{in_j}(t)}{\partial net_{in_j}(t)}\frac{\partial s_{c_j}(t)}{\partial y_{in_j}(t)}v_{s_{c_j}}(t)\tag{37}.$

6.7 外部误差流的计算

在 $时刻，各个门或记忆单元（记为）的误差值$

此时我们可以得到外部误差与记忆单元 $v_v^e(t-1)$

$\begin{aligned} \frac{\partial v_v^e(t-1)}{\partial v_j(t)}&= \frac{\partial y^v(t-1)}{\partial net_v(t-1)}( \frac{\partial v_{out_j}(t)}{\partial v_j(t)}\frac{\partial net_{out_j}(t)}{\partial y^v(t-1)}+ \frac{\partial v_{in_j}(t)}{\partial v_j(t)}\frac{\partial net_{in_j}(t)}{\partial y^v(t-1)} + \frac{\partial v_{c_j}(t)}{\partial v_j(t)}\frac{\partial net_{c_j}(t)}{\partial y^v(t-1)}) \\ &\approx_{tr}0\tag{39}. \end{aligned}$

上式的意义就在于，证明了应用截断规则后，从记忆单元出口处的误差值，不会经由 $in_j,out_j,c_j$

6.8 记忆单元内部的误差流计算

最后，让我们来关注从记忆单元出口处的误差，传递到记忆单元内的CEC的情况。这也是整个模型中唯一的错误信息会跨时间步传递的误差流。
给定时间步 $q q ，我们计算 ∂ v s c j ( t − q ) ∂ v j ( t ) \frac{\partial v_{s_{c_j}}(t-q)}{\partial v_j(t)}$

$\begin{aligned} \frac{\partial v_{s_{c_j}}(t-q)}{\partial v_j(t)}&=\frac{\partial v_{s_{c_j}}(t-1)}{\partial v_j(t)}\\ &\approx_{tr}\frac{\partial v_j(t)\frac{\partial y^{c_j}(t)}{\partial s_{c_j}(t)}\frac{\partial s_{c_j}(t)}{\partial s_{c_j}(t-1)}}{\partial v_j(t)}\\ &\approx_{tr}\frac{\partial y^{c_j}(t)}{\partial s_{c_j}(t)}\frac{\partial s_{c_j}(t)}{\partial s_{c_j}(t-1)}\\ &\approx_{tr}\frac{\partial s_{c_j}(t)}{\partial s_{c_j}(t-1)}\frac{\partial v_{s_{c_j}}(t)}{\partial v_j(t)} \end{aligned}$

$\begin{aligned} \frac{\partial v_{s_{c_j}}(t-q)}{\partial v_j(t)}&\approx_{tr}\frac{\partial v_j(t)\frac{\partial y^{c_j}(t)}{\partial s_{c_j}(t-q+1)}\frac{\partial s_{c_j}(t-q+1)}{\partial s_{c_j}(t-q)}}{\partial v_j(t)}\\ &\approx_{tr}\frac{\partial y^{c_j}(t)}{\partial s_{c_j}(t-q+1)}\frac{\partial s_{c_j}(t-q+1)}{\partial s_{c_j}(t-q)}\\ &\approx_{tr}\frac{\partial v_{s_{c_j}}(t-q+1)}{\partial v_j(t)}\frac{\partial s_{c_j}(t-q+1)}{\partial s_{c_j}(t-q)} \end{aligned}$

因此我们可得：
$\frac{\partial v_{s_{c_j}}(t-q)}{\partial v_j(t)}\approx_{tr} \begin{cases} \frac{\partial y^{c_j}(t)}{\partial s_{c_j}(t)} &(q=0)\\ \frac{\partial s_{c_j}(t-q+1)}{\partial s_{c_j}(t-q)}\frac{\partial v_{s_{c_j}}(t-q+1)}{\partial v_j(t)}&(q>0) \end{cases}\tag{40}.$

将式40扩展为计算记忆节点在时刻 $的误差值，传播到时刻任意节点时的误差，误差传播路经如下图所示：从上图可知在时刻，只有$

通过上式可以看出，误差流的变化只有分别与 $和时刻有关，在不同时间步之间流经CEC时未受影响。最后Sepp Hochreiter指出以下几点：$

$y^{out_j}(t)$
根据式35可知， $v_{s_{c_j}}(t) = v_{s_{c_j}}(t+1) + C$
如果我们给 $in_j$

总之一句话，LSTM模型比没有记忆单元的RNN模型好很多。

由于文章太长，我把整个文章分为上中下三篇，本篇为最后一篇。
上篇：上篇在此
中篇：中篇在此
下篇：下篇在此