この機能により、SRE(Site Reliability Engineer)は、Observability & Logging フレームワーク内で、コンピューティングインスタンスの期待されるパフォーマンス指標を正式に定義できます。レイテンシ、スループット、エラー率などの具体的な閾値を設定することで、システム健全性モニタリングの基準を確立できます。この統合により、定義されたサービスレベル目標(SLO)が違反された場合に自動的にアラートが発行され、手動での介入なしに、迅速なインシデント対応とインフラストラクチャの信頼性向上を継続的に実現できます。
プロセスは、サービスレベル目標を適用する特定のコンピューティングリソースクラスタを選択することから開始され、これにより、正確なメトリクス計測が実現されます。
次に、エンジニアは、ロギング集約システム内で、リクエスト遅延や可用率などの主要なパフォーマンス指標について、定量的な目標値を設定します。
最後に、本システムは、定義されたサービスレベル目標に対してリアルタイムデータを継続的に監視する自動追跡メカニズムを確立し、逸脱を検出します。
パフォーマンスの基準値を設定する必要がある、具体的なコンピューティングクラスタを特定してください。
レイテンシの上限、可用性率、スループットの上限など、定量的な指標を定義する。
リアルタイムのパフォーマンスデータストリームを収集するために、自動ログ集約機能を設定します。
定義されたサービスレベル目標(Service Level Objectives)に対して、リアルタイムのメトリクスを継続的に比較する監視機能を有効にします。
現在のコンピューティングメトリクスと、定義されたサービスレベル目標(SLO)を並べて表示することで、パフォーマンス目標に対する即時の乖離を特定します。
計算リソースが設定されたサービスレベル目標(SLO)の閾値を超えた場合、即時に通知を受け取ります。
過去のデータにアクセスし、サービスレベル目標(Service Level Objective: SLO)の違反パターンを分析し、その結果に基づいてインフラストラクチャの改善策を実施します。