この機能により、SREマネージャーは、重要なシステムに対するローテーション制のオンコール担当者を設定、スケジュール、および管理することができます。監視アラートとの連携により、インシデント発生時に適切なエンジニアに迅速に通知し、平均復旧時間(MTTR)を短縮します。また、このシステムはシフトの引き継ぎを自動化し、運用状況の空白を追跡することで、監視対象のすべてのサービスにおける運用体制の一元的な可視化を提供します。
システムは、監視システムからリアルタイムのアラートデータを収集し、定義された重要度レベルと担当者スケジュールに基づいて、緊急対応通知をトリガーします。
エンジニアは、ラウンドロビン方式のアルゴリズムによって自動的にシフトに割り当てられ、責任の公平な分担を確保するとともに、タイムゾーンの制約を考慮しています。
インシデント解決後、システムは対応状況に関するメトリクスを記録し、エンジニアの稼働状況を更新して、今後のローテーションサイクルに反映します。
ローテーションポリシーを定義し、構成リポジトリにシフト時間、頻度、および推奨されるチーム割り当てを記述します。
重要なサービスを、運用上の重要度と地理的な分布に基づいて、特定のオンコールチームに割り当てます。
インシデントの重大度に応じて適切なエスカレーションレベルと通知チャネルを設定し、アラートのルーティングロジックを構成します。
タスクの実行履歴、応答時間、およびインシデント発生後のレビューを記録するための自動ログ機能を実装します。
Prometheusや類似のツールと連携し、重要なアラート情報を受信することで、緊急時の対応フローを自動的に決定します。
担当者への割り当て時に、自動的にインシデントチケットを作成し、担当者のIDと影響を受ける具体的なサービスコンポーネントを紐付けます。
担当エンジニアに対して、SlackまたはTeamsを通じて、状況に応じた詳細情報とエスカレーション経路を含む通知を行います。