アプリケーションパフォーマンス監視(APM)は、SRE(Site Reliability Engineer)がシステムの健全性、レイテンシ、エラー率を継続的に監視することを可能にします。この設計段階では、実装前に、監視対象の指標、ダッシュボード、およびアラートの閾値を定義します。これにより、マイクロサービスの連携状況を、シナリオを捏造することなく可視化し、運用における卓越性を実現するために、企業レベルの技術基準を厳守します。
分散サービスからリアルタイムのテレメトリデータを収集するための、主要な監視アーキテクチャを設計してください。
具体的なパフォーマンスの閾値とエラーコードを定義し、それらがトリガーとなった場合に、SREアラートを即時に発するように設定します。
アプリケーションのイベントとインフラストラクチャの状態を関連付けるために、ロギングおよびトレースシステムを統合します。
パフォーマンス監視が必要な、重要なアプリケーションの実行パスを特定してください。
応答時間、スループット、エラー率など、適切な指標を選択してください。
過去の基準データに基づいて、アラートルールを設定します。
監視対象のすべてのサービスにおいて、計測の正確性を検証する。
サーバーにネイティブの監視エージェントを構成し、集約のための構造化されたメトリクスを送信します。
サービス定義を更新し、標準化されたパフォーマンス計測タグを含めます。
視覚的なインターフェースを構築し、レイテンシの傾向とエラー分布を分かりやすく表示することで、迅速な分析を可能にします。