リ_MODULE
モデルのデプロイメント

リクエストルーティング

この機能は、入力スキーマ、レイテンシ要件、およびコンピューティングクラスタ内のリソース可用性に基づいて、受信した推論リクエストを最適なデプロイ済みモデルにルーティングします。

High
機械学習エンジニア
Man views a holographic interface projected in front of rows of server racks.

Priority

High

Execution Context

リクエストルーティングは、モデルデプロイメントライフサイクルにおいて、重要なディスパッチメカニズムとして機能します。リアルタイムのメトリクス(レイテンシ、スループット、モデル互換性など)に基づいて、すべての推論リクエストを最適なモデルインスタンスにルーティングします。システムは、リクエストヘッダーとペイロードの特性を分析し、パフォーマンスの最適化とコスト効率のバランスを取りながら、ターゲットサービスを動的に選択します。このプロセスは、負荷の偏りを防ぎ、コンピューティングインフラ全体で高い可用性を確保します。

ルーティングエンジンは、受信したAPIリクエストのペイロードを解析し、必要なモデルのバージョンと入力フォーマットを特定します。

現在のクラスタのヘルス状態メトリクスを評価し、特定のモデルファミリーで使用可能なリソース容量を算出します。

決定アルゴリズムは、トラフィックを転送する前に、ロードバランシングルールを適用して、対象のエンドポイントを選択します。

Operating Checklist

受信リクエストのスキーマを、登録されたモデル仕様と照合して検証します。

要求された機能に合致する、アクティブなデプロイメントをモデルレジストリから検索します。

最適なターゲットインスタンスを選択するために、ロードバランシングアルゴリズムを適用します。

指定された推論エンドポイントに、リクエストヘッダーとペイロードを転送します。

Integration Surfaces

APIゲートウェイ

リクエストのメタデータと認証トークンが検証され、ルーティング処理が実行される前の初期のエントリーポイントです。

モデルレジストリ

利用可能なモデルのリアルタイムなステータスを提供するデータストア。バージョン情報、デプロイメントの状態、およびリソースの割り当て量などが含まれます。

推論クラスタ

分散コンピューティング環境において、選択されたモデルが実際の推論タスクを実行するホスト環境。

FAQ

Bring リクエストルーティング Into Your Operating Model

Connect this capability to the rest of your workflow and design the right implementation path with the team.