此功能允许系统管理员监控和管理整个人工智能工厂基础设施的内存容量。通过跟踪实时内存使用情况,组织可以防止在关键模型推理或训练过程中出现资源耗尽的情况。该系统提供对GPU和CPU内存分配的细粒度可见性,从而支持主动的扩展决策。这确保了所有部署的人工智能代理和模型的可用性和性能稳定性,同时优化了硬件成本。
该函数初始化一个监控代理,该代理以可配置的间隔从计算节点轮询内存指标,以捕获当前的资源利用率状态。
收集到的数据会被汇总,并与正在执行的工作负载标识符进行关联,以区分基础使用情况和高峰需求峰值。
警报阈值会根据历史数据动态调整,以在内存容量达到临界状态之前触发通知。
在所有连接到 AI 工厂集群的计算节点上,初始化内存监控代理。
根据历史性能数据和预期的工作负载模式,配置基准阈值。
支持实时数据采集和汇总,用于活跃的模型推理和训练任务。
启用告警机制,以便在资源即将耗尽时通知管理员。
管理员可以通过一个集中式界面查看每个节点的实时内存图表和利用率百分比。
当内存使用量超过预定义的阈值时,系统将通过电子邮件或Slack自动发送警报。
用户可以在系统设置中直接定义告警阈值和轮询频率,以定制监控行为。