この機能は、Intel OpenVINOツールキットを活用し、ニューラルネットワークのアーキテクチャを最適化することで、推論処理のスループットを最大化します。具体的には、Intelハードウェア環境向けに設計された量子化、枝刈り、およびグラフ変換技術を適用します。このプロセスにより、モデルがエンタープライズレベルのレイテンシ要件を満たし、同時に、多様なコンピューティングクラスタ全体でメモリ使用量と消費電力を最小限に抑えることを保証します。
初期モデルの取り込みには、TensorFlowやPyTorchなどの標準的なフレームワークから、OpenVINO IR形式への変換が必要であり、これにより特定の最適化パイプラインを有効にすることができます。
コア最適化アルゴリズムは、Intel Core Ultraシリーズやデータセンター向けアクセラレータなどのターゲットとなるIntelプロセッサに最適化された、動的な量子化とレイアウト変換を実行します。
最終検証において、介入前までに確立されたベースラインのパフォーマンス指標と比較し、推論遅延の削減率およびメモリ効率の向上率を測定しました。
入力モデルをOpenVINO IR形式に変換します。
量子化処理とレイアウト変換を適用する。
ターゲットハードウェアに最適化されたグラフ構造を構築する。
パフォーマンスを基準となる指標と比較して検証する。
サポートされている形式で学習済みモデルをアップロードし、OpenVINOのIntermediate Representation (IR) 形式に変換します。
特定のIntelハードウェア仕様を対象とした、自動量子化およびグラフ最適化スクリプトを実行します。
ベンチマークスイートを実行し、レイテンシの改善とメモリ使用量の削減を確認します。