この機能により、システム管理者は、AIファクトリー環境内の物理サーバーにおけるリアルタイムのRAM使用状況を監視できます。ハードウェアセンサーからのデータを集約することで、メモリ使用状況の傾向に関する重要な情報を提供し、過熱やリソース枯渇を防止するのに役立ちます。このツールは、積極的なキャパシティプランニングをサポートし、異常を検知するためのアラート機能を提供することで、高性能コンピューティングタスクの継続的な稼働を保証します。
システムは、物理サーバーノードを継続的に監視し、内部のハードウェアセンサーから現在のRAM使用量に関する情報を収集します。
データは集計および正規化され、アプリケーションインスタンスごとの消費量またはサーバー全体の負荷を表示します。
閾値は、メモリ使用量が許容範囲の限界に近づいた際に、即座に通知が送信されるように設定されています。
マーケットプレイスのデプロイメントインターフェースを通じて、対象となる物理サーバーノードに監視エージェントを初期化します。
期待されるワークロードパターンと過去のメモリ消費データに基づいて、アラートの閾値を設定します。
RAMのメトリクスをリアルタイムで中央のダッシュボードにストリーミングし、ライブでの可視化を可能にします。
週次で生成されたレポートを確認し、必要に応じてキャパシティプランを調整するか、スケーリングを実行してください。
監視対象のすべての物理サーバーについて、リアルタイムのメモリ使用状況グラフと過去の推移を、一目で確認できる表示を提供します。
管理者権限を持つユーザーは、特定のRAM使用率の割合または絶対値に基づいて、カスタムの警告レベルを設定できます。
詳細なログを提供し、メモリの急増を特定のプロセスやハードウェアの障害と関連付けて、根本原因の分析を支援します。