オンコール管理

企業インフラ内で、システム監視の継続と迅速なインシデント対応を実現するため、オンコールエンジニアのスケジュールとローテーションを自動化します。

High

SREマネージャー

Team collaborating around a table with large, glowing holographic data interfaces in a modern office.

Priority

High

Execution Context

この機能により、SREマネージャーは、重要なシステムに対するローテーション制のオンコール担当者を設定、スケジュール、および管理することができます。監視アラートとの連携により、インシデント発生時に適切なエンジニアに迅速に通知し、平均復旧時間（MTTR）を短縮します。また、このシステムはシフトの引き継ぎを自動化し、運用状況の空白を追跡することで、監視対象のすべてのサービスにおける運用体制の一元的な可視化を提供します。

システムは、監視システムからリアルタイムのアラートデータを収集し、定義された重要度レベルと担当者スケジュールに基づいて、緊急対応通知をトリガーします。

エンジニアは、ラウンドロビン方式のアルゴリズムによって自動的にシフトに割り当てられ、責任の公平な分担を確保するとともに、タイムゾーンの制約を考慮しています。

インシデント解決後、システムは対応状況に関するメトリクスを記録し、エンジニアの稼働状況を更新して、今後のローテーションサイクルに反映します。

Operating Checklist

ローテーションポリシーを定義し、構成リポジトリにシフト時間、頻度、および推奨されるチーム割り当てを記述します。

重要なサービスを、運用上の重要度と地理的な分布に基づいて、特定のオンコールチームに割り当てます。

インシデントの重大度に応じて適切なエスカレーションレベルと通知チャネルを設定し、アラートのルーティングロジックを構成します。

タスクの実行履歴、応答時間、およびインシデント発生後のレビューを記録するための自動ログ機能を実装します。

Integration Surfaces

監視アラートシステム

Prometheusや類似のツールと連携し、重要なアラート情報を受信することで、緊急時の対応フローを自動的に決定します。

チケット販売プラットフォーム

担当者への割り当て時に、自動的にインシデントチケットを作成し、担当者のIDと影響を受ける具体的なサービスコンポーネントを紐付けます。

社内コミュニケーションチャネル

担当エンジニアに対して、SlackまたはTeamsを通じて、状況に応じた詳細情報とエスカレーション経路を含む通知を行います。

FAQ

Technical Specifications

Deliverables

現在の稼働状況と今後のシフトを反映した、自動オンコール担当者リストの生成。

担当エンジニアに対して、インシデントの状況を詳細に含めたリアルタイムの通知を提供します。

インシデント解決状況の追跡ダッシュボード。対応時間とチームのパフォーマンス指標を表示します。

問題解決後、監査およびナレッジ共有のために、自動でシフト交代時の要約が生成されます。

Bring オンコール管理 Into Your Operating Model

Connect this capability to the rest of your workflow and design the right implementation path with the team.

オンコール管理

Execution Context

Operating Checklist

Integration Surfaces

監視アラートシステム

チケット販売プラットフォーム

社内コミュニケーションチャネル

FAQ

グローバルなチーム間でのタイムゾーンの違いは、システムによってどのように処理されますか？

エンジニアは、特定の種類のインシデントについて、対応を免除する選択肢があるのでしょうか？

エンジニアが勤務時間中に不在になった場合、どのような対応が取られますか？

インシデント発生後のレビューは、ローテーションサイクルにどのように組み込まれていますか？

Bring オンコール管理 Into Your Operating Model