この機能により、クラウドエンジニアは、分散されたクラウドインフラ全体で、仮想マシンの状態をリアルタイムで可視化できます。 さまざまなIaaSプロバイダーからのメトリクスを収集し、システムは、リソースの利用状況、レイテンシ、エラー率に関する具体的な情報を提供します。 このシステムは、サービス可用性に影響が出る前にボトルネックを特定することで、積極的なメンテナンスを支援し、SLA要件への準拠を確保するとともに、自動スケーリングの推奨事項を通じて運用コストを最適化します。
システムは、ハイパーバイザーおよびオーケストレーション層からテレメトリデータを収集し、仮想マシンの通常動作パターンを基準として確立します。
異常検知アルゴリズムは、リアルタイムのデータストリームを分析し、CPU、メモリ、またはネットワークスループットにおける逸脱を検出し、それらが将来的な障害を示唆する可能性があるかどうかを判断します。
自動化されたワークフローにより、事前に定義されたルールに基づいて修復スクリプトが実行され、重大なインシデントの解決までの平均時間を短縮します。
監視エージェントを対象のクラウドインスタンスに展開し、テレメトリー収集を開始します。
管理コンソール内で、アラートの閾値と相関ルールを設定します。
生成されたレポートを確認し、パフォーマンスの低下やリソースの競合を特定します。
深刻度に応じて、自動的に是正措置を実行するか、または手動で介入を行います。
監視対象のすべてのインスタンスについて、リアルタイムのメトリクスグラフと過去の推移を一覧で表示する集中管理ビュー。
エンジニアに対して、閾値超過が発生した場合に、インスタントメッセージまたはメールで通知が送信されます。
外部ツールが診断データを取得したり、リモートコマンドを実行したりするためのRESTful APIを提供します。