Epoch
模型训练中对整个训练数据集的一次完整遍历。Epoch 数是衡量训练进度和收敛性的基本指标。
一个 Epoch 代表对整个训练数据集的一次完整遍历。对于 ImageNet 的 128 万张图像,批量大小为 256 时,一个 Epoch 约为 5000 次迭代。典型的图像分类模型需要 90 到 300 个 Epoch 才能收敛。
Epoch 数是控制训练充分性的超参数。Epoch 过少会导致欠拟合,模式未被捕获。过多则导致过拟合,模型记住训练样本而牺牲泛化能力。
- 学习曲线:绘制每个 Epoch 的训练损失和验证损失可揭示模型行为。当训练损失下降而验证损失上升时,过拟合已经开始
- 早停:当验证损失在设定的 Epoch 数(耐心值,如 10)内未改善时终止训练,防止不必要的计算和过拟合
- 学习率调度:随 Epoch 推进降低学习率。ResNet 训练使用阶梯衰减,每 30 个 Epoch 除以 10 以实现精细收敛
迁移学习大幅减少所需 Epoch 数:微调预训练模型通常只需 10-30 个 Epoch。数据增强增加每个 Epoch 的有效数据集大小,提高效率并减少所需的总 Epoch 数。