该功能提供了一种强大的机制来管理数据集版本,这对于可复现的机器学习工作流程至关重要。它允许数据工程师跟踪原始数据和处理数据的随时间变化,确保模型训练可以使用特定的历史快照进行重复。通过将版本控制集成到存储层,它消除了关于特定实验使用了哪些数据的歧义,从而支持企业环境中的严格审计跟踪和合规性要求。
系统会在预定的时间点捕获数据集模式和内容的不可变快照,从而为每个版本创建独立的溯源记录。
工程师可以通过查询和比较历史版本,以识别数据漂移或模式演变,从而在这些问题影响模型性能之前进行干预。
自动化触发器将数据集更新与相应的模型产物关联起来,从而维护完整的端到端溯源链。
通过将更改提交到数据集存储库,并使用具有描述性的标签,来启动一个新的版本。
系统在最终化版本快照之前,会进行模式一致性和完整性校验。
将不可变副本存储在与当前溯源记录关联的版本化存储桶中。
更新数据目录的元数据,以反映新版本的可用性和访问权限。
与 ETL 工具集成,可在数据处理成功后,自动为传入的数据流添加版本标识。
为工程师提供一个可搜索的用户界面,用于浏览、筛选和检索特定数据集的版本,依据其元数据信息。
允许在训练作业配置中显式选择数据版本,以确保实验的可重复性。