图像分类
将预定义类别标签分配给整张输入图像的基础计算机视觉任务,推动了深度学习革命并支撑许多下游视觉任务。
图像分类将一个或多个预定义类别标签分配给输入图像。它是最基础的计算机视觉问题,AlexNet 在 2012 年 ImageNet 挑战赛中的决定性胜利点燃了现代深度学习时代。
如今,ResNet、EfficientNet 和 Vision Transformer (ViT) 等架构在 ImageNet 上达到超人精度。通过分类学习的特征表示作为强大的骨干网络服务于检测和分割等下游任务。
- 单标签分类:每张图像分配恰好一个类别。Softmax 函数产生概率分布,最高概率的类别成为预测结果
- 多标签分类:同时分配多个标签。每个类别独立的 Sigmoid 激活配合置信度阈值确定预测
- 零样本分类:CLIP 等模型通过利用共享的文本-图像嵌入空间,将图像分类到训练中从未见过的类别,实现开放词汇识别
标准指标包括 top-1 和 top-5 准确率。在生产中,混淆矩阵、精确率、召回率和 F1 分数提供逐类分析。类别不平衡通过加权损失函数或 Focal Loss 解决。知识蒸馏将大模型压缩以实现高效的边缘部署。