この機能により、シニアサイト信頼性エンジニアは、コンピューティングリソースに対して、詳細な閾値に基づいたアラートロジックを定義できます。 ログおよびメトリクスデータストリームと直接連携することで、ユーザーは、CPU使用率、メモリ負荷、またはインスタンス可用性における異常を検知する自動トリガーを確立できます。 この構成により、ログパターンとメトリクスの急増を関連付けることで、迅速な対応が可能になり、チームはサービスレベルに影響が出る前に、潜在的な障害を事前に対応できます。
エンジニアは、まず、集中型ログインフラストラクチャ内で監視対象とする具体的なコンピューティングノードまたはコンテナクラスタを特定する必要があります。
次に、レイテンシの閾値、エラー率、リソースの飽和度など、関連する指標を選択することで、詳細なアラート条件を定義します。
最後に、これらのルールを通知チャネルに適用し、重要なインシデント発生時に、オンコールチームへ迅速にアラートを配信できるようにします。
インベントリダッシュボードから、対象となるコンピューティングクラスターまたはノードグループを選択してください。
アラート発動のための具体的な閾値と期間を設定してください。
各ルールセットに対して、適切な通知チャネルと受信者ロールを選択してください。
設定を保存し、シミュレーションデータを使用してテストアラートが正しく動作することを確認してください。
エージェントは、コンピューティングインスタンスから高頻度のテレメトリデータを収集し、そのデータをリアルタイムのメトリクスとしてアラートエンジンに提供することで、条件評価を行います。
このサービスは、構造化されたログデータを収集し、エラーパターンを検出し、特定のアラートルールをトリガーする可能性のある根本的な問題を特定します。
設定された条件が数学的に満たされた場合、ゲートウェイはフォーマットされたアラートを、メール、Slack、またはPagerDutyを通じて送信します。