この機能は、企業インフラに保存されているデータセットのバージョンライフサイクルを管理します。データエンジニアが変更を追跡し、過去の記録を維持し、データ損失なしに以前の状態にロールバックできるようにします。この機能は、バージョン管理をストレージ操作に直接紐付けることで、モデル開発サイクル全体を通じてトレーニングに使用されるアセットの一貫性と監査可能性を確保し、規制遵守と実験の再現性をサポートします。
システムは、データセットの取り込み時に新しいバージョンタグを自動的に作成し、スキーマ定義、ファイルハッシュ、および変更日時などのメタデータを記録することで、改ざんを防止する監査証跡を確立します。
データエンジニアは、重要なモデル学習の前に、特定のデータセットの状態を自動的にスナップショットとして保存できます。これにより、モデル最適化に使用された正確な入力データが保持され、いつでも取得できるようになります。
ご要望に応じて、本インフラストラクチャは、バージョン間の詳細な差分分析をサポートしており、エンジニアは、完全な過去データへのアクセスを維持しながら、正確なスキーマ変更やデータドリフトを特定できます。
データセットをストレージインフラストラクチャにインポートし、スキーマとハッシュのメタデータを含む、初期の不変バージョンタグを生成します。
特定のデータセットのバージョンをロックし、同時変更を防ぐために、トレーニングジョブを実行します。
トレーニング後の変更を記録し、更新されたデータセットのバージョン管理されたスナップショットを作成します。
バージョン間の差分分析を行い、スキーマの変更やデータドリフトを記録し、監査目的で使用します。
データセットがストレージクラスタに到着すると、ETLワークフローと連携し、初期バージョンのタグとメタデータを自動的に生成します。
データセットのバージョンをトレーニングジョブに直接紐付けすることで、モデルがコミットされ、検証されたデータの状態でのみ学習されることを保証します。
企業環境内のすべてのデータセットについて、バージョン履歴、アクセスログ、およびコンプライアンス状況を視覚的に追跡します。