この機能は、開発者が機械学習モデルの推論およびトレーニングのエンドポイントをプログラム的に利用するための標準化されたインターフェースを提供します。エンタープライズ環境で求められる厳格な認証プロトコルを維持しながら、低遅延な応答を実現します。REST APIにより、既存のレガシーシステムとのシームレスな連携が可能となり、機械学習エンジニアはカスタムSDKを記述することなくモデルをデプロイできます。また、基盤となる計算の複雑さを抽象化することで、データサイエンスチームの開発サイクルを加速します。
システムは、利用可能なGPUインスタンスおよびモデルレジストリに直接対応する、一貫したリソースロケータ構造を提供します。
認証トークンは、計算リソースの割り当てまたは照会を行う前に、エンタープライズIDプロバイダーに対して検証されます。
レスポンスのペイロードには、推論タスクにおける特定の入力パラメータと期待される出力形式を反映した、構造化されたJSONスキーマが含まれています。
指定された推論エンドポイントに対して、JSON形式のペイロード(入力テンソルを含む)を伴うHTTP POSTリクエストを開始します。
ゲートウェイは、リクエストの署名を検証し、ユーザーロールに関連付けられたアクティブなコンピューティングライセンスの有無を確認します。
計算リソースは、APIパラメータで指定されたレイテンシ要件に基づいて、動的に割り当てられます。
モデルの推論処理を実行し、設定されたタイムアウト期間内に処理結果を返してください。
受信したHTTPリクエストが、リソースタグに基づいて適切なモデル配信エンドポイントにルーティングされるための主要なエントリーポイントです。
ベアータokenまたはOAuth認証情報を検証し、許可された機械学習エンジニアのみが機密性の高い計算リソースにアクセスできるようにします。
API呼び出しを通じて、要求された特定のモデルのメタデータとバージョン情報を取得します。