シャドウデプロイメントは、機械学習エンジニアが、エンドユーザーサービスに影響を与えることなく、新しいモデルを本番環境のデータで検証することを可能にします。元のモデルを稼働させたまま、トラフィックの小部分を新しいモデルにルーティングすることで、組織はレイテンシ、精度、およびコストへの影響をリアルタイムで評価できます。この手法は、テスト環境から本番環境への移行時のリスクを最小限に抑え、本格的な導入前に、パフォーマンス指標がビジネスの期待に合致していることを確認します。
新モデルは既存の生産モデルと並行して稼働しますが、ユーザーへの応答には影響を与えません。
トラフィックは両方のモデルに同時に送られ、推論結果とパフォーマンス指標を直接比較することができます。
シャドウランから取得されたデータは、エンドユーザーインターフェースに表示されることなく、分析のために記録されます。
新しいモデルのサービング設定において、トラフィック分割の割合(例:10%)を定義してください。
デプロイメントパイプラインでシャドウモードを有効にすることで、サイレントな推論実行を保証します。
同時処理機能を有効にして、両方のモデルがリクエストを同時に処理するように設定してください。
主要業績指標をモニタリングし、その結果を基準となる指標と比較します。
レガシーモデルと新モデルのエンドポイント間でトラフィックを分割するために、デュアルルーティングルールを設定します。
アクティブモデルとシャドウモデルの両方について、リアルタイムの遅延、スループット、およびエラー率を表示します。
シャドウランから収集された推論ログを匿名化し、デプロイ後分析やドリフト検出のために保存します。