オ_MODULE
ソフトウェア開発 - 監視

オンコール管理

企業インフラ内で、システム監視の継続と迅速なインシデント対応を実現するため、オンコールエンジニアのスケジュールとローテーションを自動化します。

High
SREマネージャー
Team collaborating around a table with large, glowing holographic data interfaces in a modern office.

Priority

High

Execution Context

この機能により、SREマネージャーは、重要なシステムに対するローテーション制のオンコール担当者を設定、スケジュール、および管理することができます。監視アラートとの連携により、インシデント発生時に適切なエンジニアに迅速に通知し、平均復旧時間(MTTR)を短縮します。また、このシステムはシフトの引き継ぎを自動化し、運用状況の空白を追跡することで、監視対象のすべてのサービスにおける運用体制の一元的な可視化を提供します。

システムは、監視システムからリアルタイムのアラートデータを収集し、定義された重要度レベルと担当者スケジュールに基づいて、緊急対応通知をトリガーします。

エンジニアは、ラウンドロビン方式のアルゴリズムによって自動的にシフトに割り当てられ、責任の公平な分担を確保するとともに、タイムゾーンの制約を考慮しています。

インシデント解決後、システムは対応状況に関するメトリクスを記録し、エンジニアの稼働状況を更新して、今後のローテーションサイクルに反映します。

Operating Checklist

ローテーションポリシーを定義し、構成リポジトリにシフト時間、頻度、および推奨されるチーム割り当てを記述します。

重要なサービスを、運用上の重要度と地理的な分布に基づいて、特定のオンコールチームに割り当てます。

インシデントの重大度に応じて適切なエスカレーションレベルと通知チャネルを設定し、アラートのルーティングロジックを構成します。

タスクの実行履歴、応答時間、およびインシデント発生後のレビューを記録するための自動ログ機能を実装します。

Integration Surfaces

監視アラートシステム

Prometheusや類似のツールと連携し、重要なアラート情報を受信することで、緊急時の対応フローを自動的に決定します。

チケット販売プラットフォーム

担当者への割り当て時に、自動的にインシデントチケットを作成し、担当者のIDと影響を受ける具体的なサービスコンポーネントを紐付けます。

社内コミュニケーションチャネル

担当エンジニアに対して、SlackまたはTeamsを通じて、状況に応じた詳細情報とエスカレーション経路を含む通知を行います。

FAQ

Bring オンコール管理 Into Your Operating Model

Connect this capability to the rest of your workflow and design the right implementation path with the team.