ア_MODULE
ソフトウェア開発 - 監視

アプリケーションパフォーマンス監視

アプリケーションのパフォーマンス指標を追跡し、リアルタイムでエラーを検知するための包括的な監視を実装することで、重要インフラストラクチャを管理するSREチームがシステムの信頼性を確保できるようにします。

High
SRE
Team analyzes cloud-based data visualizations displayed on multiple screens in a technical setting.

Priority

High

Execution Context

アプリケーションパフォーマンス監視(APM)は、SRE(Site Reliability Engineer)がシステムの健全性、レイテンシ、エラー率を継続的に監視することを可能にします。この設計段階では、実装前に、監視対象の指標、ダッシュボード、およびアラートの閾値を定義します。これにより、マイクロサービスの連携状況を、シナリオを捏造することなく可視化し、運用における卓越性を実現するために、企業レベルの技術基準を厳守します。

分散サービスからリアルタイムのテレメトリデータを収集するための、主要な監視アーキテクチャを設計してください。

具体的なパフォーマンスの閾値とエラーコードを定義し、それらがトリガーとなった場合に、SREアラートを即時に発するように設定します。

アプリケーションのイベントとインフラストラクチャの状態を関連付けるために、ロギングおよびトレースシステムを統合します。

Operating Checklist

パフォーマンス監視が必要な、重要なアプリケーションの実行パスを特定してください。

応答時間、スループット、エラー率など、適切な指標を選択してください。

過去の基準データに基づいて、アラートルールを設定します。

監視対象のすべてのサービスにおいて、計測の正確性を検証する。

Integration Surfaces

クラウドインフラストラクチャ

サーバーにネイティブの監視エージェントを構成し、集約のための構造化されたメトリクスを送信します。

コードリポジトリ

サービス定義を更新し、標準化されたパフォーマンス計測タグを含めます。

ダッシュボードプラットフォーム

視覚的なインターフェースを構築し、レイテンシの傾向とエラー分布を分かりやすく表示することで、迅速な分析を可能にします。

FAQ

Bring アプリケーションパフォーマンス監視 Into Your Operating Model

Connect this capability to the rest of your workflow and design the right implementation path with the team.