lstm和gru结构的再理解

我看大部分介绍rnn的文章里面都只画了cell的图，但是这对一个刚入门的人来说是会造成很大的误解，而正确的介绍方法应该先介绍rnn的总体结构，然后再介绍cell的结构。这才有可能对rnn有一个更清晰的认识。

我们在网上多是看到这样的图

cell是什么呢，我们首先回到MLP结构中

RNN中的cell其实就是MLP结构中隐藏层的神经元。但是这个神经元有点特殊，它加入了时序的特点，所以不同时间段它的表达是不一样的。

所以，RNN正确的模型结构图应该是这样：

横向是不同的时序，纵向是不同的层。这样是不是会更好理解了呢。

而LSTM和GRU只是cell的变种形式，总体上RNN的结构是不变的。双向RNN的总体结构也没变，也只是cell的形式有所变化。

好了，下面回到经常看到的图

这张图是一个lstm的总体结构，我们知道，lstm里面最重要的概念是“门结构（gate）”，分为遗忘门，输入门和输出门。这里分4步来理解这个cell的结构。

可以看到公式里面的[h, x]，这里表示将这一时刻的输入x[t]，和上一时刻t-1的输出h[t-1]做一个concat，然后经过sigmoid函数。

因为sigmoid输出是0和1（大部分），这里面0和1与后面做乘法的时候，等于相应的让一些信息变成了0，就等于是忘记了一些信息。这里其实一个开关，控制信息的通过。

举个例子，比如完形填空中填“他”或者“她”的问题，细胞状态可能包含当前主语的类别，当我们看到新的代词，我们希望忘记旧的代词。

公式中[h,x]还是做的concat操作。

这里的意思可以看作为放什么新信息到细胞状态（C[t]）中。

i[t]有一个sigmoid，类似于遗忘操作，这里就是对新知识的筛选， C`[t]可以将其看作全部的新知识。

之前两补的操作就是为了更新细胞的状态，更新知识体系。包括让细胞忘记一些东西，然后给细胞补充新知识。

这里另外说一点，为什么lstm可以解决RNN中梯度弥散/消失的问题。

因为C[t]是又两个结果相加得到，求导时会保留更新梯度。

lstm结构理解完了，其实gru结构的理解方式基本一致。还是那张图

这里和lstm不同的是：

如果r[t] = 1，z[t] = 1，那么gru和普通rnn的cell就是一样的。

因为gru参数更少，所以gru训练起来比lstm更简单。

但是， 这两种cell最后的结果差不了太多！ 用的时候不必纠结选择哪种结构。

好了，lstm和gru说完了，下次来点新玩意，seq2seq和attention。