この機能により、管理者は、システム全体のコンピューティングインフラストラクチャの稼働状況を継続的に評価できます。ノード、コンテナ、およびサービスからのメトリクスを統合することで、システム全体の健全性を一元的に把握できます。異常の早期検出により、サービス劣化が発生する前に、積極的な対応が可能になり、重要なエンタープライズアプリケーションの可用性を高め、ダウンタイムを最小限に抑えることができます。
システムは、すべてのコンピューティングインスタンスに対して、リソースの使用状況とエラー率を検証するための自動ヘルスチェックを開始します。
リアルタイムのデータストリームを分析し、ベースラインのパフォーマンス閾値からの逸脱を即座に特定します。
重大な障害が検出されると、アラートが生成され、管理者がレビューするための通知プロトコルが開始されます。
すべての稼働中のコンピューティングインスタンスに対して、自動化されたヘルスチェックサイクルを開始します。
CPU使用率、メモリ負荷、およびレイテンシ測定値を含む集計指標。
収集したデータを、確立された基準値と比較し、異常を検出します。
パフォーマンスの低下や障害が発生した場合、重要なアラートを自動生成します。
集計された健康指標とシステムの状態を示す視覚的な表現。
分散されたコンピューティングノードから収集されるエラーログを、集中型の処理エンジンで処理します。
重要なアラートを、権限を持つ管理担当者に自動的に配信する仕組み。