量子化モデル
量子化モデルとは、訓練された機械学習モデルの重みと活性化の数値精度が削減されたバージョンです。通常、モデルは32ビット浮動小数点数(FP32)を使用して訓練されます。量子化は、これらの高精度な値を16ビット浮動小数点数(FP16)、8ビット整数(INT8)などの低ビット表現に変換します。
モデルサイズと計算要件は、特にエッジデバイスやリソース制約のあるクラウド環境で大規模AIモデルを展開する上での大きなボトルネックです。量子化は、推論中のメモリフットプリントと必要な計算量(FLOPs)を大幅に削減することで、この問題に直接対処します。
この効率の向上は、より高速な推論時間、低遅延、およびAIワークロードを大規模に実行するビジネスの運用コストの削減に直接つながります。
核となるアイデアは、連続的な浮動小数点数の範囲を離散的な低精度値のセットにマッピングすることです。このプロセスでは、各テンソルに対してスケーリングファクタとゼロポイントを定義します。元のFP32値は、選択されたビット幅の範囲内の整数値にマッピングされます。訓練後に量子化を行うポストトレーニング量子化(PTQ)や、精度低下を最小限に抑えるためにシミュレートされた量子化ノイズでモデルを訓練する量子化認識トレーニング(QAT)など、いくつかの手法があります。
量子化モデルは、いくつかの最新のAIアプリケーションにとって極めて重要です。