图像分类

将预定义类别标签分配给整张输入图像的基础计算机视觉任务，推动了深度学习革命并支撑许多下游视觉任务。

图像分类将一个或多个预定义类别标签分配给输入图像。它是最基础的计算机视觉问题，AlexNet 在 2012 年 ImageNet 挑战赛中的决定性胜利点燃了现代深度学习时代。

如今，ResNet、EfficientNet 和 Vision Transformer (ViT) 等架构在 ImageNet 上达到超人精度。通过分类学习的特征表示作为强大的骨干网络服务于检测和分割等下游任务。

标准指标包括 top-1 和 top-5 准确率。在生产中，混淆矩阵、精确率、召回率和 F1 分数提供逐类分析。类别不平衡通过加权损失函数或 Focal Loss 解决。知识蒸馏将大模型压缩以实现高效的边缘部署。

相关术语