该功能允许网络架构师动态重新配置网络拓扑,特别适用于高性能分布式训练工作负载。系统通过持续监控节点间通信指标,识别数据传输路径中的瓶颈,并自动调整路由策略,以确保 GPU 之间的低延迟同步。这种优化对于在大型模型训练过程中维持吞吐量至关重要,因为网络拥塞会显著降低性能并增加训练时间。
该系统从所有计算节点采集实时遥测数据,用于映射当前网络负载,并识别影响梯度同步的特定延迟峰值。
利用预测算法,该引擎模拟不同的拓扑配置,以确定哪种配置能够实现最高的带宽利用率,同时最大限度地减少数据包丢失。
在验证最佳路径后,网络交换机将被重新配置,以实施新的路由规则,同时确保不会中断正在进行的训练过程。
收集所有参与分布式会话的计算节点的基线网络指标,包括丢包率和平均延迟。
分析流量矩阵,以检测可能表明路由不佳或带宽分配不足的模式,从而满足当前的训练需求。
利用仿真模型生成并评估多种拓扑方案,以预测其对梯度同步速度的影响。
通过更新交换机固件和路由表,部署最佳性能的配置,同时保持会话的连续性。
实时可视化节点间延迟和带宽利用率,可立即识别分布式集群中的拥塞点。
一个沙箱环境,允许架构师在将更改应用于生产集群之前,根据历史流量模式测试提出的拓扑结构变更。
用于直接从编排工具执行拓扑重新配置命令的接口,确保与训练作业生命周期的无缝集成。