神经网络
受生物神经回路启发的数学模型,由输入层、隐藏层和输出层组成,是高级图像处理任务的基础。
神经网络是受生物神经元启发的计算模型。每个人工神经元计算输入的加权和,应用激活函数,并将结果向前传递。将这些单元堆叠为多层可以学习图像分类、目标检测和图像生成等复杂任务。
核心组件:
- 输入层:接收原始数据。对于 RGB 图像,输入是宽 × 高 × 3 的张量
- 隐藏层:应用非线性变换。更深的网络可表示更复杂的模式 (深度学习)
- 输出层:产生特定任务的结果 - 分类的类别概率,回归的连续值
- 激活函数:ReLU、Sigmoid、Tanh 引入非线性以形成复杂的决策边界
训练使用反向传播,将损失梯度从输出传播到输入以更新权重。常用优化器包括 SGD、Adam 和 AdaGrad。
model = Sequential([Dense(128, activation='relu'), Dense(10, activation='softmax')])- Keras 示例loss = nn.CrossEntropyLoss()- PyTorch 分类损失
在图像处理中,全连接网络无法利用空间结构,因此发展出 CNN。除 CNN 外,GAN、Vision Transformer 和扩散模型极大地扩展了计算机视觉的能力。