リクエストルーティングは、モデルデプロイメントライフサイクルにおいて、重要なディスパッチメカニズムとして機能します。リアルタイムのメトリクス(レイテンシ、スループット、モデル互換性など)に基づいて、すべての推論リクエストを最適なモデルインスタンスにルーティングします。システムは、リクエストヘッダーとペイロードの特性を分析し、パフォーマンスの最適化とコスト効率のバランスを取りながら、ターゲットサービスを動的に選択します。このプロセスは、負荷の偏りを防ぎ、コンピューティングインフラ全体で高い可用性を確保します。
ルーティングエンジンは、受信したAPIリクエストのペイロードを解析し、必要なモデルのバージョンと入力フォーマットを特定します。
現在のクラスタのヘルス状態メトリクスを評価し、特定のモデルファミリーで使用可能なリソース容量を算出します。
決定アルゴリズムは、トラフィックを転送する前に、ロードバランシングルールを適用して、対象のエンドポイントを選択します。
受信リクエストのスキーマを、登録されたモデル仕様と照合して検証します。
要求された機能に合致する、アクティブなデプロイメントをモデルレジストリから検索します。
最適なターゲットインスタンスを選択するために、ロードバランシングアルゴリズムを適用します。
指定された推論エンドポイントに、リクエストヘッダーとペイロードを転送します。
リクエストのメタデータと認証トークンが検証され、ルーティング処理が実行される前の初期のエントリーポイントです。
利用可能なモデルのリアルタイムなステータスを提供するデータストア。バージョン情報、デプロイメントの状態、およびリソースの割り当て量などが含まれます。
分散コンピューティング環境において、選択されたモデルが実際の推論タスクを実行するホスト環境。