リクエストルーティング

この機能は、入力スキーマ、レイテンシ要件、およびコンピューティングクラスタ内のリソース可用性に基づいて、受信した推論リクエストを最適なデプロイ済みモデルにルーティングします。

High

機械学習エンジニア

Man views a holographic interface projected in front of rows of server racks.

Priority

High

Execution Context

リクエストルーティングは、モデルデプロイメントライフサイクルにおいて、重要なディスパッチメカニズムとして機能します。リアルタイムのメトリクス（レイテンシ、スループット、モデル互換性など）に基づいて、すべての推論リクエストを最適なモデルインスタンスにルーティングします。システムは、リクエストヘッダーとペイロードの特性を分析し、パフォーマンスの最適化とコスト効率のバランスを取りながら、ターゲットサービスを動的に選択します。このプロセスは、負荷の偏りを防ぎ、コンピューティングインフラ全体で高い可用性を確保します。

ルーティングエンジンは、受信したAPIリクエストのペイロードを解析し、必要なモデルのバージョンと入力フォーマットを特定します。

現在のクラスタのヘルス状態メトリクスを評価し、特定のモデルファミリーで使用可能なリソース容量を算出します。

決定アルゴリズムは、トラフィックを転送する前に、ロードバランシングルールを適用して、対象のエンドポイントを選択します。

Operating Checklist

受信リクエストのスキーマを、登録されたモデル仕様と照合して検証します。

要求された機能に合致する、アクティブなデプロイメントをモデルレジストリから検索します。

最適なターゲットインスタンスを選択するために、ロードバランシングアルゴリズムを適用します。

指定された推論エンドポイントに、リクエストヘッダーとペイロードを転送します。

Integration Surfaces

APIゲートウェイ

リクエストのメタデータと認証トークンが検証され、ルーティング処理が実行される前の初期のエントリーポイントです。

モデルレジストリ

利用可能なモデルのリアルタイムなステータスを提供するデータストア。バージョン情報、デプロイメントの状態、およびリソースの割り当て量などが含まれます。

推論クラスタ

分散コンピューティング環境において、選択されたモデルが実際の推論タスクを実行するホスト環境。

FAQ

Technical Specifications

Deliverables

ルーティングが成功した場合、HTTP 200レスポンスと共に推測された結果が返されます。

モデルの不一致またはバージョンが利用できないことを示すエラーコード。

選択されたインスタンスのレイテンシに関する指標とスループットに関する統計データ。

ルーティングログ：意思決定要因と宛先エンドポイントの選択に関する詳細情報。

Bring リクエストルーティング Into Your Operating Model

Connect this capability to the rest of your workflow and design the right implementation path with the team.

リクエストルーティング

Execution Context

Operating Checklist

Integration Surfaces

APIゲートウェイ

モデルレジストリ

推論クラスタ

FAQ

システムは、複数の互換性のあるモデルをどのように処理しますか？

ターゲットとする全てのモデルが過負荷状態になった場合、どのような事象が発生しますか？

ルーティング規則は、実行中に動的に変更できますか？

デバッグのために、リクエスト追跡機能はどのように実装されていますか？

Bring リクエストルーティング Into Your Operating Model