この機能は、ファクトリー環境内で実行されているすべての推論およびトレーニングジョブにおけるCPU使用状況に関する詳細な情報を提供します。システム管理者は、このツールを使用して、リソースの競合を特定し、キャパシティの限界を予測し、コンピューティングクラスタの適切なサイズ調整を行うことで、コスト効率を最適化します。このシステムは、基盤となるハードウェアから収集されたテレメトリデータを集約し、使用率の閾値を超えた場合に、サービス劣化が発生する前に、是正措置を講じるためのアラートを生成します。
システムは、生のハードウェアテレメトリデータを収集し、ノードおよびクラスタごとのCPU利用率の集計値を算出します。
異常検知アルゴリズムは、高いリソース使用率の急増と特定のジョブタイプとの相関関係を分析し、リソース競合のパターンを特定します。
現在の負荷に基づいて、自動的にスケーリングに関する推奨事項が生成され、コンピューティングリソースの拡張やワークロードの再配分戦略を提案します。
すべてのコンピューティングノードで、ハードウェアレベルのCPUメトリクスを収集するためのモニタリングエージェントを初期化します。
収集されたテレメトリデータを、統合的な分析のために、中央の時系列データベースに集約します。
閾値ルールを適用して、利用状況の異常を検出し、自動通知をトリガーします。
キャパシティに関するレポートを作成し、スケーリングまたは最適化のための具体的な改善提案を盛り込みます。
リアルタイムチャートにより、CPU使用率の推移を時間経過とともに表示し、色分けされた閾値によって管理者が直感的に状況を把握できます。
設定可能な通知機能により、重要なリソース使用量の上限に近づいたり、それを超過したりした場合に、即座にアラートが送信されます。
過去のデータのエクスポート機能は、コンプライアンス遵守とキャパシティプランニング分析のための詳細な監査ログを提供します。