El Marketplace de Conjuntos de Datos ofrece un repositorio centralizado para datos de entrenamiento de alta calidad y previamente validados, esenciales para las iniciativas de inteligencia artificial empresarial. Esta función permite a los científicos de datos descubrir, previsualizar y descargar conjuntos de datos sin necesidad de curación manual ni retrasos en la adquisición externa. Al integrarse perfectamente con el flujo de trabajo de AI Factory, los usuarios pueden incorporar datos inmediatamente en los procesos de entrenamiento, garantizando el cumplimiento de las políticas de seguridad, al tiempo que mantienen acceso a diversas modalidades, incluyendo registros estructurados, documentos no estructurados y entradas multimodales necesarias para las arquitecturas de aprendizaje profundo modernas.
Los usuarios exploran un catálogo de conjuntos de datos verificados, etiquetados por dominio, formato y métricas de calidad, para identificar recursos que se ajusten a los requisitos específicos de entrenamiento de modelos.
Los conjuntos de datos seleccionados se configuran con políticas de control de acceso, historial de versiones e informes automatizados de análisis de datos antes de ser incorporados al proceso de entrenamiento.
Los científicos de datos inician descargas directas o transmiten datos a trabajos de entrenamiento activos, lo que desencadena el procesamiento posterior para la extracción de características y la evaluación del modelo.
Busque en el catálogo del mercado utilizando palabras clave o filtros de metadatos para localizar conjuntos de datos de entrenamiento relevantes.
Revise las vistas previas de las muestras y los informes de perfilado para validar la calidad y la relevancia de los datos para el caso de uso previsto.
Inicie una solicitud de descarga segura, especificando la ubicación de almacenamiento y la duración del acceso según los requisitos del proyecto.
Importe el conjunto de datos en la canalización de entrenamiento activa para iniciar los ciclos de desarrollo y validación del modelo.
Un panel de control con capacidad de búsqueda que muestra los conjuntos de datos disponibles, con filtros para el tipo de esquema, el volumen y la marca de tiempo de la última actualización.
Una herramienta de análisis interactiva que revela distribuciones estadísticas, valores faltantes e indicadores de sesgo dentro de muestras de conjuntos de datos.
Un punto de acceso protegido que requiere autenticación basada en roles para recuperar archivos grandes o transmitir datos a clústeres de computación locales.