この機能により、システム管理者は、AIファクトリー全体のインフラストラクチャにおけるメモリ容量を監視および管理できます。リアルタイムのメモリ使用状況を追跡することで、組織は、重要なモデル推論やトレーニングセッション中にリソースの枯渇を防ぐことができます。本システムは、GPUおよびCPUメモリの割り当てに関する詳細な情報を提供し、積極的なスケーリング判断を可能にします。これにより、デプロイされたすべてのAIエージェントおよびモデルにおいて、高い可用性とパフォーマンスの安定性を確保し、同時にハードウェアコストを最適化します。
この機能は、設定された間隔でコンピューティングノードからメモリメトリクスを収集するモニタリングエージェントを初期化し、現在の利用状況を把握します。
収集されたデータは集計され、アクティブなワークロード識別子と関連付けられることで、ベースラインの利用状況とピーク時の需要の急増を区別します。
アラートの閾値は、過去のデータに基づいて動的に調整され、メモリ容量が著しく制限される前に通知を発生させるように設計されています。
AIファクトリークラスタに接続されているすべてのコンピューティングノードで、メモリ監視エージェントを初期化します。
過去のパフォーマンスデータと予測されるワークロードパターンに基づいて、ベースラインの閾値を設定します。
アクティブなモデル推論およびトレーニングジョブにおいて、リアルタイムでのデータ収集と集計を有効にします。
リソースの枯渇が予測される事象が発生する前に、管理者に通知するアラート機能を有効にしてください。
管理者は、集中管理されたインターフェースを通じて、各ノードのリアルタイムのメモリグラフと使用率を表示できます。
メモリ使用量が設定された閾値を超えた場合、自動的にメールまたはSlackを通じてアラートが送信されます。
ユーザーは、システム設定内で直接、アラートの閾値とポーリング頻度を定義し、監視の動作をカスタマイズできます。