数据版本控制

为数据集提供全面的版本控制功能，以确保机器学习运维 (MLOps) 流程中数据资产的可重复性和可追溯性。

High

数据工程师

Priority

High

Execution Context

该功能提供了一种强大的机制来管理数据集版本，这对于可复现的机器学习工作流程至关重要。它允许数据工程师跟踪原始数据和处理数据的随时间变化，确保模型训练可以使用特定的历史快照进行重复。通过将版本控制集成到存储层，它消除了关于特定实验使用了哪些数据的歧义，从而支持企业环境中的严格审计跟踪和合规性要求。

系统会在预定的时间点捕获数据集模式和内容的不可变快照，从而为每个版本创建独立的溯源记录。

工程师可以通过查询和比较历史版本，以识别数据漂移或模式演变，从而在这些问题影响模型性能之前进行干预。

自动化触发器将数据集更新与相应的模型产物关联起来，从而维护完整的端到端溯源链。

通过将更改提交到数据集存储库，并使用具有描述性的标签，来启动一个新的版本。

系统在最终化版本快照之前，会进行模式一致性和完整性校验。

将不可变副本存储在与当前溯源记录关联的版本化存储桶中。

更新数据目录的元数据，以反映新版本的可用性和访问权限。

与 ETL 工具集成，可在数据处理成功后，自动为传入的数据流添加版本标识。

为工程师提供一个可搜索的用户界面，用于浏览、筛选和检索特定数据集的版本，依据其元数据信息。

允许在训练作业配置中显式选择数据版本，以确保实验的可重复性。

Connect this capability to the rest of your workflow and design the right implementation path with the team.