该功能提供数据中心内 GPU 利用率、功耗和温度状态的实时监控。它使机器学习工程师能够主动识别计算能力瓶颈,从而在影响模型训练流程之前进行干预。该系统通过汇总来自物理硬件和虚拟实例的指标,支持动态资源调整决策。这一功能对于维持高性能计算环境至关重要,因为 GPU 的可用性直接影响项目交付时间和成本效益。
该系统持续采集所有已注册的GPU节点的遥测数据,并据此计算每个集群的总体利用率。
警报阈值配置基于历史使用模式,旨在通知工程师,以便他们及时应对资源即将耗尽或硬件性能下降的情况。
仪表盘的可视化功能提供关于功率消耗和温度的详细信息,从而可以立即进行操作调整。
确定需要在特定数据中心区域进行监控的计算节点范围。
根据机器学习工作负载的特性,配置资源利用率和健康状态阈值。
启用与 GPU 集群连接的硬件代理的实时遥测数据采集功能。
审查仪表盘指标,并根据观察到的趋势调整资源分配策略。
实时图表,显示所有节点的GPU利用率百分比、活动进程以及可用容量。
当资源阈值超出或硬件健康指标下降时,系统将自动向机器学习工程师发送通知。
用于请求额外的 GPU 实例或根据当前需求重新平衡工作负载的 API 接口。