この機能により、ネットワーク設計者は、特に高性能な分散トレーニングワークロードのために、ネットワーク構成を動的に再構成できます。システムは、ノード間の通信メトリクスを継続的に監視し、データ転送経路におけるボトルネックを特定し、自動的にルーティング戦略を調整することで、GPU間の低遅延同期を確保します。この最適化は、大規模なモデルトレーニングにおいて、ネットワークの輻輳がパフォーマンスを著しく低下させ、トレーニング時間を増加させる可能性があるため、非常に重要です。
システムは、すべてのコンピューティングノードからリアルタイムのテレメトリデータを収集し、現在のネットワーク負荷を把握するとともに、勾配同期に影響を与える特定の遅延の発生箇所を特定します。
予測アルゴリズムを用いて、エンジンは代替のトポロジー構成をシミュレーションし、パケット損失を最小限に抑えながら、最も高い帯域幅利用率を実現する構成を特定します。
最適な経路が検証された後、ネットワークスイッチの設定を再構成し、新しいルーティングルールを適用します。この際、現在進行中のトレーニングセッションへの影響は最小限に抑えます。
分散セッションに参加するすべてのコンピューティングノードについて、パケットロス率や平均遅延など、基準となるネットワークメトリクスを収集します。
トラフィックマトリックスを分析し、現在のトレーニング要件に対して、最適でないルーティングや十分でない帯域幅の割り当てを示唆するパターンを検出します。
シミュレーションモデルを用いて、複数のトポロジー構成を生成・評価し、それらが勾配同期速度に与える影響を予測します。
スイッチのファームウェアとルーティングテーブルを更新し、セッションの継続性を維持しながら、最高のパフォーマンスを発揮する構成を適用してください。
分散クラスタにおけるノード間の遅延と帯域幅の使用状況をリアルタイムで可視化し、輻輳ポイントを迅速に特定できます。
アーキテクトが、本番環境のクラスタに適用する前に、提案されたトポロジー変更を、過去のトラフィックパターンと比較して検証できるサンドボックス環境です。
オーケストレーションツールから直接、トポロジー再構成コマンドを実行するためのインターフェースを提供し、トレーニングジョブのライフサイクルとのシームレスな連携を実現します。