2.3.2-Maxout

原理

Maxout是一种激活函数，它通过在数个线性元素中取最大值来增加模型的非线性表达。对于给定的输入向量 $x$ ，Maxout层则将输入映射到一组仿射变换上，并从中选择最大的输出作为最终结果。

具体来说，如果我们将 $z_{i} = W_{i} x + b_{i}$ 定义为第 $i$ 个仿射变换，则Maxout单元的输出被定义为 $f (x) = ma x {z_{1}, z_{2}, ..., z_{k}}$

唯一最大通道 若 $z_{j}$ 是唯一的最大值，则导数仅传递到该通道： $\frac{\partial f}{\partial x} = w_{j}$ 此时仅更新第 $j$ 个通道的权重 $W_{j}$ 和偏置 $b_{j}$ 。

多个最大通道 若有 $m$ 个通道值同为最大，则梯度均分到这些通道： $\frac{\partial f}{\partial x} = \frac{1}{m} \sum_{i = 1}^{m} w_{j} .$