Quartz 4

❯

深度学习基础

❯

2 深度学习基础

❯

2.4 多层感知机

❯

2.4.2-前馈神经网络

2.4.2-前馈神经网络

Mar 19, 20254 min read

原理细节

结构: 由输入层、隐藏层（可多层）和输出层组成，信息单向流动（无循环连接）。
全连接: 每层神经元与下一层全部连接，权重矩阵 $W^{(l)}$ 和偏置向量 $b^{(l)}$ 描述第 $l$ 层参数。
激活函数: 引入非线性，常见函数包括：
- ReLU: $a = max (0, z)$
- Sigmoid: $a = \frac{1}{1 + e ^{- z}}$
- Tanh: $a = \frac{e ^{z} - e ^{- z}}{e ^{z} + e ^{- z}}$
前向传播: 输入 $x$ 逐层计算输出： $z^{(l)} = W^{(l)} a^{(l - 1)} + b^{(l)}, a^{(l)} = σ (z^{(l)})$ 最终输出 $\overset{y}{^} = a^{(L)}$ （ $L$ 为输出层）。

梯度计算与反向传播

损失函数: 常用交叉熵（分类）或均方误差（回归），例如： $L = - \frac{1}{N} \sum_{i = 1}^{N} (y_{i} lo g \overset{y}{^}_{i} + (1 - y_{i}) lo g (1 - \overset{y}{^}_{i}))$
反向传播:
1. 计算输出层误差 $δ^{(L)} = \frac{\partial L}{\partial z ^{(L)}} = (\overset{y}{^} - y) ⊙ σ^{'} (z^{(L)})$
2. 反向传播至隐藏层： $δ^{(l)} = ((W^{(l + 1)})^{T} δ^{(l + 1)}) ⊙ σ^{'} (z^{(l)})$
3. 计算梯度： $\frac{\partial L}{\partial W ^{(l)}} = δ^{(l)} (a^{(l - 1)})^{T}, \frac{\partial L}{\partial b ^{(l)}} = δ^{(l)}$
参数更新: 使用优化算法（如SGD、Adam）更新参数： $W^{(l)} \leftarrow W^{(l)} - η \frac{\partial L}{\partial W ^{(l)}}$

典型前馈神经网络

多层感知机（Multilayer Perceptron, MLP）

结构: 基础前馈网络，包含至少一个隐藏层，全连接结构。
特点:
- 使用Sigmoid/Tanh/ReLU等激活函数。
- 适用于表格数据、简单分类/回归任务。
典型应用: 信用卡欺诈检测、房价预测。

卷积神经网络（Convolutional Neural Network, CNN）

核心结构:
- 卷积层（局部连接+参数共享）
- 池化层（降采样）
- 末端全连接层
创新点:
- 空间特征自动提取
- 显著降低参数量
经典变体:
- LeNet-5（手写数字识别）
- AlexNet（ImageNet突破）
- ResNet（残差连接解决梯度问题）

自动编码器（Autoencoder）

结构特点:
- 对称的编码器-解码器结构
- 瓶颈层实现数据压缩
变体类型:
- 降噪自编码器（抗噪声）
- 稀疏自编码器（特征选择）
- 变分自编码器（VAE，生成模型）
应用场景: 数据降维、异常检测、图像去噪

深度信念网络（Deep Belief Network, DBN）

混合结构:
- 底层使用受限玻尔兹曼机（RBM）
- 顶层为前馈网络
训练方式: 逐层贪婪预训练+微调
优势: 解决深层网络初始化难题
应用: 早期语音识别、推荐系统

径向基函数网络（Radial Basis Function Network, RBFN）

特殊结构:
- 隐藏层使用径向基函数（如高斯函数）
- 输出层为线性组合
数学表达: $y (x) = \sum_{i = 1}^{M} w_{i} ϕ (∣∣ x - c_{i} ∣∣)$
特点: 局部响应特性，适合函数逼近

前馈型生成模型

**生成对抗网络（GAN）**的前馈部分:
- 生成器本质是深度前馈网络
- 输入噪声向量，输出生成数据
示例: DCGAN（深度卷积生成网络）

发展趋势

结构创新: 残差连接（ResNet）、密集连接（DenseNet）。
动态前馈: 条件计算（MoE混合专家系统）。
神经架构搜索: 自动优化网络结构。
脉冲神经网络: 引入生物神经元特性。

Graph View

原理细节
梯度计算与反向传播
典型前馈神经网络
多层感知机（Multilayer Perceptron, MLP）
卷积神经网络（Convolutional Neural Network, CNN）
自动编码器（Autoencoder）
深度信念网络（Deep Belief Network, DBN）
径向基函数网络（Radial Basis Function Network, RBFN）
前馈型生成模型
发展趋势

Created with Quartz v4.4.1 © 2025

GitHub
Discord Community