JA EN

量子化

読み: りょうしか

モデルの重みや活性化値を低ビット精度 (INT8 など) で表現することで、推論速度の向上とメモリ使用量の削減を実現する最適化手法。

量子化 (Quantization) は、ニューラルネットワークのパラメータや中間計算を通常の 32 ビット浮動小数点 (FP32) からより低いビット精度 (INT8、FP16 など) に変換する技術である。モデルサイズを最大 4 倍圧縮し、推論速度を 2-4 倍向上させることができる。エッジデバイスやモバイル環境でのリアルタイム画像処理に不可欠な最適化手法である。

FP32 の重みを INT8 に量子化すると、1 パラメータあたりのメモリが 4 バイトから 1 バイトに削減される。ResNet-50 (約 100MB) は INT8 量子化で約 25MB になり、スマートフォンのメモリ制約内で動作可能になる。

TensorFlow Lite は tf.lite.Optimize.DEFAULT で自動量子化を提供し、ONNX Runtime は INT8 量子化をサポートする。WebAssembly 環境でもブラウザ上で量子化モデルを実行でき、サーバーレスな画像処理パイプラインを構築できる。量子化による精度低下は通常 1-2% 以内に収まり、実用上問題にならないケースが多い。

関連用語

関連記事