この機能は、Gitベースの自動化の原則を用いて、エンドツーエンドの機械学習処理を連携させます。DevOpsエンジニアが、バージョン管理システムを通じて、モデルのトレーニング、検証、およびデプロイメントのサイクルを管理できるようにします。インフラストラクチャとデータパイプラインをコードとして扱うことで、再現性、監査可能性を確保し、既存のCI/CDフレームワークとのシームレスな統合を実現します。このシステムは、計算リソースとストレージバックエンドに対する宣言的な構成をサポートしており、チームはモデルの成果物とトレーニング設定に対する厳格な管理を維持しながら、機械学習ワークロードを動的に拡張できます。
システムは、機械学習パイプライン、インフラストラクチャ・アズ・コードの定義、およびモデルレジストリのメタデータを格納するGitリポジトリの構造を初期化します。
コード変更を、トレーニングタスクのためにコンピューティングリソースをプロビジョニングする前に、あらかじめ定義されたスキーマに対して検証する、自動化されたワークフローをトリガーします。
処理が完了すると、この機能はトレーニング後の検証チェックを実行し、承認されたモデルを、完全なトレーサビリティ機能を持つ安全なストレージ領域に転送します。
機械学習パイプラインの定義とインフラストラクチャのテンプレートを用いて、Gitリポジトリを初期化します。
コード変更がスキーマの制約を満たしていることを検証した後、コンピューティングリソースのプロビジョニングを開始してください。
隔離された環境でトレーニングジョブを実行し、収束指標を監視します。
検証済みのモデルを、不変のバージョンタグを付与してレジストリに登録します。
ユーザーは、プルリクエストを通じて機械学習パイプラインの更新を提案し、これにより、インフラストラクチャ変更に対する自動レビュープロセスが開始されます。
システムは、Gitのワークフローの中で、依存関係の解決、リソースの割り当て、および実行監視を含む、一連の処理を実行します。
最終成果物は、バージョンタグとメタデータとともに登録され、Gitの履歴を通じてアクセス可能です。これにより、監査やロールバックといった操作が実現されます。