この機能により、インフラエンジニアは、複数のアクセラレータタイプを含む複雑な環境を統合的に管理できます。 組織は、異種コンピューティングリソースを管理することで、最適なリソース配分と省エネルギーを実現します。 本システムは、タスクを、高スループットCPU、並列GPU、または特殊なTPUなど、最も適切なプロセッサに動的に割り当てることで、レイテンシを最小限に抑えながら、高度なAIトレーニングおよび推論のシナリオにおいてスループットを最大化します。
インフラストラクチャ層は、ワークロードの特性を検出し、適切なハードウェアアクセラレータを自動的に選択します。
スケジューリングアルゴリズムは、CPU、GPU、およびTPUクラスタ間で、リアルタイムに負荷を最適に分散します。
パフォーマンス指標を統合し、異なるアーキテクチャの実行戦略による効率向上が検証されます。
アプリケーション要件に基づいて、対象となるアクセラレータの種類を特定します。
異種ハードウェアクラスタ向けのリソースアフィニティポリシーを設定します。
特定のハードウェア選択条件に基づいて、コンテナ化されたワークロードをデプロイします。
実行状況のメトリクスを監視し、スケジューリングパラメータを調整してください。
現在のハードウェア利用率を可視化し、異種リソースの割り当てにおけるボトルネックを特定します。
エンジニアが、コンピューティング基盤内の特定のアクセラレータタイプに対して、アフィニティルールを定義できるようにします。
デバイス間の動的なワークロード移行によって実現される、スループットとレイテンシの改善状況を追跡します。