GRU

原理

GRU是循环神经网络（RNN）的一种变体，旨在解决长序列训练过程中的梯度消失问题。它通过引入门控机制来控制信息的流动。GRU的主要组成部分包括更新门和重置门：

更新门(z_t)：决定新状态中有多少信息需要保留或丢弃。
重置门(r_t)：控制如何结合新的输入与之前的状态。

门控详解

重置门（Reset Gate）

公式： $r_{t} = σ (W_{r} \cdot [h_{t - 1}, x_{t}] + b_{r})$

原理：

输入：前一时刻隐藏状态 $h_{t - 1}$ 和当前输入 $x_{t}$ ，拼接为 $[h_{t - 1}, x_{t}]$ 。
通过权重矩阵 $W_{r}$ 和偏置 $b_{r}$ 线性变换后，使用 $σ$ （Sigmoid）激活函数生成门控值 $r_{t} \in [0, 1]$ 。

目的：

控制历史信息 $h_{t - 1}$ 对候选隐藏状态的影响程度。
当 $r_{t} \approx 0$ 时，丢弃历史信息，仅依赖当前输入 $x_{t}$ 。

更新门（Update Gate）

公式： $z_{t} = σ (W_{z} \cdot [h_{t - 1}, x_{t}] + b_{z})$

原理：

类似重置门，但使用独立的权重矩阵 $W_{z}$ 和偏置 $b_{z}$ 。
生成门控值 $z_{t} \in [0, 1]$ 。

目的：

平衡历史状态 $h_{t - 1}$ 和候选状态 $\tilde{h}_{t}$ 的贡献比例。
当 $z_{t} \approx 1$ 时，保留更多历史信息；反之则更新为新的候选状态。

候选隐藏状态（Candidate Hidden State）

公式： $\tilde{h}_{t} = tanh (W \cdot [r_{t} ⊙ h_{t - 1}, x_{t}] + b)$

原理：

重置门 $r_{t}$ 与历史状态 $h_{t - 1}$ 逐元素相乘（ $⊙$ ），过滤无关信息。
将过滤后的 $r_{t} ⊙ h_{t - 1}$ 与当前输入 $x_{t}$ 拼接，经线性变换和 $tanh$ 激活生成 $\tilde{h}_{t}$ 。

目的：

生成一个包含当前输入和部分历史信息的新候选状态。
$tanh$ 确保状态值在 $[- 1, 1]$ 之间稳定。

最终隐藏状态（Hidden State Update）

公式： $h_{t} = (1 - z_{t}) ⊙ h_{t - 1} + z_{t} ⊙ \tilde{h}_{t}$

原理：

更新门 $z_{t}$ 作为权重，对历史状态 $h_{t - 1}$ 和候选状态 $\tilde{h}_{t}$ 进行加权平均。

目的：

动态决定保留多少历史信息（长期依赖）和引入多少新信息（短期依赖）。
允许模型跳过无关时间步，缓解梯度消失问题。

候选隐藏状态的好处

非线性特征融合

机制
- 将过滤后的历史信息 $r_{t} ⊙ h_{t - 1}$ 与当前输入 $x_{t}$ 拼接。
- 使用 $tanh$ 激活函数对拼接结果进行非线性变换。
好处
- 高阶交互建模：捕捉历史状态与当前输入之间的非线性关系。
- 特征归一化： $tanh$ 将输出限制在 $[- 1, 1]$ ，避免梯度爆炸（对比ReLU）。

参数效率对比LSTM

机制
- GRU候选状态计算仅需 一组参数（ $W, b$ ）。
- 对比LSTM：需要独立计算输入门、遗忘门、输出门和候选状态（4组参数）。
好处
- 更少参数量：降低过拟合风险，尤其适合小规模数据集。
- 更快训练速度：减少矩阵乘法运算量（例如：参数矩阵维度更小）。

损失函数

在GRU中，损失函数通常取决于任务类型。对于分类任务，常用的损失函数是交叉熵损失函数(Cross-Entropy Loss)；对于回归任务，则可能使用均方误差(Mean Squared Error, MSE)作为损失函数。例如，在二分类问题中，损失函数可以定义为： $L = - \frac{1}{N} \sum_{i = 1}^{N} [y_{i} lo g (\overset{y}{^}_{i}) + (1 - y_{i}) lo g (1 - \overset{y}{^}_{i})]$ 其中， $y_{i}$ 是真实标签， $\overset{y}{^}_{i}$ 是模型预测值。

梯度更新

梯度更新遵循反向传播算法(BPTT, Backpropagation Through Time)原则。基于计算出的损失，使用梯度下降法及其变种（如Adam、RMSprop等）来调整权重。梯度计算涉及链式法则，并且由于GRU结构中的门控机制，使得其相对于传统RNN更容易捕捉长期依赖关系。

优点与缺点

优点
- 相比于传统的RNN，GRU能够更有效地缓解梯度消失问题。
- 参数数量少于LSTM，因此训练速度更快，也更容易收敛。
- 在某些情况下，性能接近甚至优于LSTM，但计算成本更低。
缺点
- 尽管GRU减少了参数数量，但在一些复杂的任务上，其表达能力可能不如LSTM。
- 对于非常长的序列，仍然可能存在记忆不足的问题。

Quartz 4

Explorer

GRU

原理

门控详解

重置门（Reset Gate）

更新门（Update Gate）

候选隐藏状态（Candidate Hidden State）

最终隐藏状态（Hidden State Update）

候选隐藏状态的好处

非线性特征融合

参数效率对比LSTM

损失函数

梯度更新

优点与缺点

Graph View

Table of Contents

Quartz 4

Explorer

GRU

原理

门控详解

重置门（Reset Gate）

更新门（Update Gate）

候选隐藏状态（Candidate Hidden State）

最终隐藏状态（Hidden State Update）

候选隐藏状态的好处

​非线性特征融合

参数效率对比LSTM

损失函数

梯度更新

优点与缺点

Graph View

Table of Contents

非线性特征融合