この機能により、サイト信頼性エンジニアは、コンピューティングリソースの詳細なパフォーマンスプロファイリングを実行できます。 レイテンシ、スループット、およびCPU/GPUの使用状況パターンを分析することで、チームはアプリケーション実行における非効率性を特定できます。 このプロセスでは、分散システムからテレメトリデータを収集し、ログとメトリクスを関連付け、最適化のための具体的なインサイトを生成します。 これにより、外部シナリオを構築することなく、高い可用性とコスト効率を確保できます。
計算ノードからパフォーマンス指標を自動的に収集し、現在のシステムの状態に関する基準値を確立します。
アプリケーションのスタック内で、特定のパフォーマンス劣化箇所を特定するために、ログエントリとリアルタイムのテレメトリデータを関連付けます。
リソースの競合状況を詳細に分析したプロファイリングレポートを作成し、スループット向上のための具体的な設定変更を提案します。
コンピューティングインスタンスに、メトリクス収集エージェントを設定します。
ログデータとテレメトリデータ間の相関ルールを定義する。
プロファイリングを実行し、ベースラインデータとストレステストのデータを収集します。
結果を分析し、具体的なパフォーマンスのボトルネックを特定する。
集計されたパフォーマンス指標と過去の推移をリアルタイムで確認できます。
パフォーマンスイベントでフィルタリングされた構造化されたログにアクセスし、実行パスを追跡します。
パフォーマンスの閾値が超過された場合、または異常が検出された場合に、通知を受け取ります。