推理

将新数据输入已训练模型以获得预测的过程。与训练不同，推理不更新模型参数。

推理是将未见过的数据通过已训练的神经网络以获得预测（如类别标签、边界框或分割掩码）的过程。与训练不同，推理仅执行前向传播且权重冻结，使得每个样本的计算量更轻。

性能通过延迟-精度权衡来衡量。实时目标检测要求每帧低于 33ms（30 FPS）。YOLOv8 在 GPU 上每张图像约 1.5ms，而 MobileNetV3 在 CPU 上约 5ms。

批量推理：同时处理多个输入以利用 GPU 并行性，最大化吞吐量。服务器部署通常使用 8 到 64 的批量大小
边缘推理：使用 TensorFlow Lite、ONNX Runtime 和 Core ML 等引擎在智能手机或 IoT 设备上运行模型，针对受限硬件优化执行
推理优化：量化（FP32 到 INT8）、剪枝（移除冗余权重）和知识蒸馏（压缩大模型）在保持精度的同时提升速度

通过 WebAssembly 的浏览器端推理实现了无需服务器通信的客户端图像处理，有利于隐私和延迟。由于推理成本在云端开支中占主导地位，模型优化对生产部署至关重要。

Related Terms