この機能は、ブルーグリーンアーキテクチャを活用することで、シームレスかつ本番環境レベルのモデル移行を可能にします。システムは、同一の計算環境を2つ維持することで、トラフィックを即座に切り替えることができ、同時に旧バージョンをアクティブな状態に保ち、ロールバックに備えることができます。このアプローチにより、重要な機械学習パイプラインの更新中にサービス中断が発生するのを防ぎ、エンタープライズ環境における重要な推論ワークロードの継続的な可用性を確保します。
同一構成のコンピューティングクラスタを2つ用意し、それぞれ異なるモデルバージョンを搭載させることで、ブルー/グリーン環境を構築します。
受信する推論処理リクエストを、監視対象のレイテンシ、エラー率、およびリソース使用率の指標とともに、アクティブな環境にのみルーティングします。
パフォーマンスのベンチマークと安定性チェックを検証後、システムを待機環境へ、原子的操作によって切り替えます。
新しいモデルのバージョンを、トラフィックから隔離した状態で、グリーン環境にデプロイしてください。
グリーン環境において、レイテンシテストや敵対的入力チェックを含む、包括的な検証を実施します。
制御されたトラフィックの切り替えを開始します。通常は、安定性を確認するために、リクエストの10%から段階的に移行します。
全パフォーマンス指標が確認された後、残りのトラフィックをすべてリダイレクトして、移行作業を完了してください。
バージョン管理されたモデル成果物は、メタデータタグとともに保存され、これらのタグは、それぞれの成果物がブルーまたはグリーンのデプロイメント環境に関連付けられていることを示します。
ルーティングロジックは、リアルタイムのステータス信号に基づいて、クライアントからのリクエストを現在アクティブなコンピューティングインスタンスへ動的に振り分けます。
リアルタイムのダッシュボードにより、両方の環境における遅延、スループット、およびエラー分布を監視し、スイッチの稼働準備状況を検証します。