デ_MODULE
ストレージインフラストラクチャ

データセットのバージョン管理

ストレージインフラストラクチャ内で、機械学習パイプライン全体を通してデータ整合性と再現性を確保するため、トレーニングデータセットに対して堅牢なバージョン管理機能を備えています。

High
データエンジニア
Two men examine a large digital interface within a server room environment.

Priority

High

Execution Context

この機能は、企業インフラに保存されているデータセットのバージョンライフサイクルを管理します。データエンジニアが変更を追跡し、過去の記録を維持し、データ損失なしに以前の状態にロールバックできるようにします。この機能は、バージョン管理をストレージ操作に直接紐付けることで、モデル開発サイクル全体を通じてトレーニングに使用されるアセットの一貫性と監査可能性を確保し、規制遵守と実験の再現性をサポートします。

システムは、データセットの取り込み時に新しいバージョンタグを自動的に作成し、スキーマ定義、ファイルハッシュ、および変更日時などのメタデータを記録することで、改ざんを防止する監査証跡を確立します。

データエンジニアは、重要なモデル学習の前に、特定のデータセットの状態を自動的にスナップショットとして保存できます。これにより、モデル最適化に使用された正確な入力データが保持され、いつでも取得できるようになります。

ご要望に応じて、本インフラストラクチャは、バージョン間の詳細な差分分析をサポートしており、エンジニアは、完全な過去データへのアクセスを維持しながら、正確なスキーマ変更やデータドリフトを特定できます。

Operating Checklist

データセットをストレージインフラストラクチャにインポートし、スキーマとハッシュのメタデータを含む、初期の不変バージョンタグを生成します。

特定のデータセットのバージョンをロックし、同時変更を防ぐために、トレーニングジョブを実行します。

トレーニング後の変更を記録し、更新されたデータセットのバージョン管理されたスナップショットを作成します。

バージョン間の差分分析を行い、スキーマの変更やデータドリフトを記録し、監査目的で使用します。

Integration Surfaces

データ取り込みパイプライン

データセットがストレージクラスタに到着すると、ETLワークフローと連携し、初期バージョンのタグとメタデータを自動的に生成します。

トレーニングジョブオーケストレーター

データセットのバージョンをトレーニングジョブに直接紐付けすることで、モデルがコミットされ、検証されたデータの状態でのみ学習されることを保証します。

データガバナンスダッシュボード

企業環境内のすべてのデータセットについて、バージョン履歴、アクセスログ、およびコンプライアンス状況を視覚的に追跡します。

FAQ

Bring データセットのバージョン管理 Into Your Operating Model

Connect this capability to the rest of your workflow and design the right implementation path with the team.