9 循环神经网络¶

说明

本文档仅涉及部分内容，仅可用于复习重点知识

Recurrent Neural Network（RNN）

9.1 循环神经网络概述¶

RNN 是一种特殊类型的反馈神经网络，专门用于处理序列数据

在 t 时刻，输出

\[ \begin{aligned} Y_t & = h(V·S_t + \alpha)\\ S_t & = f(W·X_t + H·S_{t - 1} + \beta) \end{aligned} \]

Long Short-Term Memory（长短期记忆网络）

RNN 的问题：无法学习太长的序列，“很快忘记前面说过的话”

LSTM 是一种优化的 RNN，由输入门、遗忘门、输出门及记忆状态（也叫记忆细胞）组成

在 t 时刻，输入有 3 个向量

输出也有 3 个向量

模块	作用	计算方法
遗忘门	决定什么时候把以前的状态遗忘	\(f_t = sigmoid(Net1)\)
输入门	决定什么时候加入新的状态	\(i_t = sigmoid(Net2)\)
输出门	决定什么时候把状态和输入叠加输出	\(o_t = sigmoid(Net4)\)
记忆状态	累计历史信息，调控 \(h_t\) 输出内容	\(C_t = f_t \otimes C_{t-1} \oplus i_t \otimes \tanh(Net3)\)
隐式编码	与下一次的输入一起参与计算	\(h_t = o_t \otimes \tanh(C_t)\)
Net1	遗忘门的拓扑结构	\(Net1 = W_{h1} · h_{t-1} + W_{X_1} · X_t + b_1\)
Net2	输入门的拓扑结构	\(Net2 = W_{h2} · h_{t-1} + W_{X_2} · X_t + b_2\)
Net3	输入 tanh 层的拓扑结构	\(Net3 = W_{h3} · h_{t-1} + W_{X_3} · X_t + b_3\)
Net4	输出门的拓扑结构	\(Net4 = W_{h4} · h_{t-1} + W_{X_4} · X_t + b_4\)
\(\otimes\)	向量按位相乘（点乘）
\(\oplus\)	向量按位相加

权重 \(W_{hn},\ W_{xn},\ b\) 就是 LSTM 需要学习的参数

计算的复杂性和训练时间太长是 LSTM 最大的局限

Gated Recurrent Unit（门控循环单元）是对 LSTM 的一种简化

GRU 去掉了记忆状态，结构得到简化后，大大加快了训练速度

Bi-directional RNN（双向 RNN）

Deep Recurrent Neural Network（深度循环神经网络）

欢迎在评论区指出文档错误，为文档提供宝贵意见，或写下你的疑问