この機能は、機械学習モデルを本番環境に展開し、推論処理を行うための基盤を提供します。サービングエンドポイントの設定、コンピューティングクラスタ間でのリソース割り当ての管理、およびダウンストリームアプリケーション向けの低遅延応答の実現を支援します。このプロセスには、モデルをコンテナ化すること、適切なハードウェアバックエンドを選択すること、および稼働中のパフォーマンス指標を追跡するための監視パイプラインを確立することが含まれます。
システムは、実行可能な状態にするために、最適化されたコンテナにモデルのアーティファクトをロードし、推論エンジンを初期化します。
バッチサイズ、同時実行数制限、タイムアウト閾値などの設定パラメータを適用することで、負荷を管理します。
トラフィックは、利用可能なサーバーインスタンスにリクエストを動的に分散するロードバランサーを経由してルーティングされます。
モデルの整合性と、本番環境の要件とのスキーマ互換性を検証する。
標準化された推論フレームワークのイメージを使用して、モデルをコンテナ化してください。
コンピューティングクラスタ内で、スケーリングポリシーとリソース制限を設定します。
サービスエンドポイントを有効にし、ヘルスチェックの応答を確認してください。
デプロイに必要な、承認済みのモデル成果物およびバージョン情報にアクセスします。
推論エンジン向けに、GPU/CPUリソースを割り当て、コンテナランタイムの仕様を定義します。
外部クライアントに対して、認証とレート制限を適用しながら、RESTまたはgRPCのエンドポイントを公開します。