スポットインスタンスを活用したトレーニング機能は、機械学習エンジニアが、時間制約のあるタスクや中断可能なモデルトレーニングパイプラインを実行する際に、計算コストを最大70%まで削減することを可能にします。この機能は、事前に確保されたリソースに対する追加料金が発生しない状態で、オンデマンドで利用可能な計算リソースを動的に割り当て、組織がトレーニング環境を迅速に拡張することを支援します。特に、データ整合性やモデルの性能に影響を与えない、重要度の低いワークロードに有効です。
システムは、指定されたコンピューティング領域内で、利用可能なプレエンプティブルインスタンスを特定し、即時でのトレーニング開始を可能にします。
トレーニングジョブは、許容されるエラー条件と復旧メカニズムを定義する、特定の割り込みポリシーと共に送信されます。
低価格なリソースを動的に割り当てることでコスト削減を実現し、同時に複数のノードで並列処理機能を維持します。
トレーニングジョブの仕様を定義します。これには、データセットのサイズ、モデルのアーキテクチャ、および予想される実行時間を記載します。
特定された計算要件と予算制約に合致する、利用可能なインスタンスタイプの中から、プリエンプティブルインスタンスを選択してください。
ノードの再利用イベントが発生する可能性を考慮し、適切な中断ポリシーを設定することで、システムが正常に動作し続けるように構成してください。
トレーニングの実行を開始し、同時にパフォーマンスの低下やジョブ完了状況の更新を監視します。
ユーザーは、トレーニングデータセットの具体的な要件に合わせて、インスタンスタイプと可用性ゾーンを設定します。
システムは、リアルタイムの需要に基づいてワーカーノードを自動的にスケールアップ/ダウンし、同時にリソース利用率の指標を監視します。
リアルタイムの財務レポートにより、標準インスタンス価格モデルと比較した際のコスト削減効果を可視化できます。