Esta función proporciona un mecanismo robusto para la gestión de versiones de conjuntos de datos, lo cual es fundamental para flujos de trabajo de aprendizaje automático reproducibles. Permite a los ingenieros de datos realizar un seguimiento de los cambios en los datos sin procesar y procesados a lo largo del tiempo, garantizando que el entrenamiento de modelos pueda replicarse utilizando instantáneas históricas específicas. Al integrar el control de versiones en la capa de almacenamiento, se elimina la ambigüedad sobre qué datos se utilizaron para un experimento en particular, lo que facilita la creación de registros de auditoría rigurosos y el cumplimiento de los requisitos en entornos empresariales.
El sistema captura instantáneas inmutables de los esquemas y el contenido de los conjuntos de datos en puntos definidos, generando registros de trazabilidad distintos para cada versión.
Los ingenieros pueden consultar y comparar versiones históricas para identificar cambios en los datos o en el esquema antes de que afecten el rendimiento del modelo.
Los disparadores automatizados vinculan las actualizaciones del conjunto de datos con los artefactos del modelo correspondientes, manteniendo una cadena de trazabilidad completa de extremo a extremo.
Inicie una nueva versión confirmando los cambios en el repositorio del conjunto de datos, utilizando una etiqueta descriptiva.
El sistema valida la consistencia y la integridad del esquema antes de finalizar la instantánea de la versión.
Almacene una copia inmutable en un bucket de almacenamiento versionado, vinculado al registro de linaje actual.
Actualizar los metadatos del catálogo de datos para reflejar la disponibilidad de la nueva versión y los permisos de acceso.
Se integra con herramientas ETL para etiquetar automáticamente los flujos de datos entrantes con identificadores de versión tras su procesamiento exitoso.
Proporciona una interfaz de usuario con capacidad de búsqueda para que los ingenieros puedan explorar, filtrar y recuperar versiones específicas de conjuntos de datos, basándose en metadatos.
Permite la selección explícita de versiones de datos durante la configuración del trabajo de entrenamiento, garantizando experimentos reproducibles.