推理
将新数据输入已训练模型以获得预测的过程。与训练不同,推理不更新模型参数。
推理是将未见过的数据通过已训练的神经网络以获得预测(如类别标签、边界框或分割掩码)的过程。与训练不同,推理仅执行前向传播且权重冻结,使得每个样本的计算量更轻。
性能通过延迟-精度权衡来衡量。实时目标检测要求每帧低于 33ms(30 FPS)。YOLOv8 在 GPU 上每张图像约 1.5ms,而 MobileNetV3 在 CPU 上约 5ms。
- 批量推理:同时处理多个输入以利用 GPU 并行性,最大化吞吐量。服务器部署通常使用 8 到 64 的批量大小
- 边缘推理:使用 TensorFlow Lite、ONNX Runtime 和 Core ML 等引擎在智能手机或 IoT 设备上运行模型,针对受限硬件优化执行
- 推理优化:量化(FP32 到 INT8)、剪枝(移除冗余权重)和知识蒸馏(压缩大模型)在保持精度的同时提升速度
通过 WebAssembly 的浏览器端推理实现了无需服务器通信的客户端图像处理,有利于隐私和延迟。由于推理成本在云端开支中占主导地位,模型优化对生产部署至关重要。