该功能管理企业基础设施中存储的数据集版本的生命周期。它使数据工程师能够跟踪变更、维护历史记录,并在不丢失数据的情况下回滚到之前的状态。通过将版本控制直接与存储操作关联,该功能确保训练资源在整个模型开发周期中保持一致且可追溯,从而支持合规性要求和实验的可重复性。
系统在数据导入时自动创建新的版本标签,并自动记录元数据,包括模式定义、文件哈希值和修改时间戳,以建立不可篡改的审计跟踪。
数据工程师可以在关键模型训练前,触发特定数据集状态的自动快照,从而确保用于模型优化的精确输入数据被保存并可追溯。
如需,该基础设施支持对不同版本进行细粒度的差异分析,使工程师能够精确识别模式变更或数据漂移,同时保留对历史数据集的完整访问权限。
将数据集导入存储基础设施,并生成初始的不可变版本标签,其中包含模式和哈希元数据。
执行训练任务时,锁定特定数据集版本,以防止并发修改。
记录训练后的数据变化,并创建更新数据集的全新版本快照。
用于审计目的,对不同版本进行差异分析,以记录模式演变或数据漂移。
该系统可与 ETL 工作流程集成,在数据集到达存储集群时,自动生成初始版本标签和元数据。
链接数据集版本与训练任务,确保模型仅在已提交和验证的数据状态下进行训练。
为企业环境中的所有存储数据集,提供版本历史、访问日志和合规性状态的可视化跟踪功能。