背景
-
传统CNN的局限性:
早期卷积神经网络(CNN)依赖线性卷积核和池化层的堆叠,特征提取的非线性表达能力有限。 -
NiN的提出:
NiN(Network in Network)由Min Lin等人在2013年提出,核心思想是通过微型多层感知机(MLP)增强局部非线性,并减少全连接层的参数量。 -
关键动机:
- 通过非线性组合提升卷积层的特征抽象能力。
- 用全局平均池化替代全连接层以降低过拟合风险。
原理
NiN块(MLP卷积层)
- 结构:
每个NiN块由 1个常规卷积层 和 多个1×1卷积层 串联组成,每层后接非线性激活函数(如ReLU)。- 1×1卷积的作用:
- 跨通道特征融合:调整通道维度并混合不同通道的信息。
- 增强非线性:通过叠加激活函数增加模型的表达能力。
- 参数高效:小尺寸卷积核大幅减少参数量。
- 1×1卷积的作用:
全局平均池化(GAP)
- 替代全连接层:
传统CNN使用全连接层进行分类,而NiN在最后一层对每个特征图计算全局平均值,直接作为类别置信度。- 优势:
- 消除全连接层的大量参数,降低过拟合风险。
- 保留特征图的空间信息,增强模型鲁棒性。
- 优势:
梯度计算与反向传播
MLP卷积层的梯度
- 前向传播:
输入 经过多层1×1卷积和非线性激活后得到输出 ,公式为:
- 反向传播:
- 梯度通过链式法则逐层反向传播,计算每层权重 和输入梯度。
- 局部梯度计算:
对第 层的权重梯度:
输入梯度传递至前一层:
全局平均池化的梯度
- 梯度分配规则:
假设特征图尺寸为 ,第 个通道的梯度 均匀分配到所有空间位置:
优点与缺点
优点
-
参数效率高:
- 1×1卷积压缩通道间冗余参数,全局平均池化减少全连接层的参数量。
-
非线性能力强:
- 多层1×1卷积与激活函数叠加,提升复杂特征的建模能力。
-
抗过拟合:
- 去除了全连接层,降低模型对训练数据噪声的敏感性。
缺点
-
计算开销增加:
- 多层1×1卷积在深层网络中可能导致训练速度下降。
-
小数据集表现受限:
- 高度非线性结构需要大量数据支撑,否则易欠拟合。
-
空间信息丢失:
- 全局平均池化可能忽略局部细节,对细粒度分类任务不友好。