Inferencia por Lotes
La inferencia por lotes se refiere al proceso de ejecutar un modelo de aprendizaje automático contra un gran conjunto de datos de entrada estático de una sola vez, en lugar de procesar puntos de datos individuales secuencialmente en tiempo real. En lugar de responder instantáneamente a una única solicitud de usuario, el sistema procesa un 'lote' —una colección de datos— y entrega los resultados juntos más tarde.
Para muchas aplicaciones empresariales, no son necesarias respuestas inmediatas en tiempo real. La inferencia por lotes es fundamental para optimizar los recursos computacionales y reducir los costos operativos cuando el objetivo principal es un alto rendimiento en grandes conjuntos de datos. Cambia el enfoque de la prestación de baja latencia al procesamiento de gran volumen.
El flujo de trabajo comienza con la agregación del conjunto de datos objetivo. Luego, estos datos se introducen en la infraestructura del modelo de ML implementado. El modelo procesa todas las entradas en paralelo o en fragmentos optimizados, aprovechando eficiencias de hardware como el paralelismo de GPU. Una vez que se completa el cálculo, se emiten las predicciones resultantes, que a menudo se almacenan en una base de datos o se entregan a través de un trabajo programado.
Varios escenarios empresariales se benefician significativamente de la inferencia por lotes. Estos incluyen barridos nocturnos de detección de fraude en millones de transacciones, la generación de puntuaciones de riesgo de abandono de clientes mensuales o la realización de etiquetado de imágenes y moderación de contenido a gran escala en medios cargados.
Las ventajas principales son la eficiencia de costos y el rendimiento. Al agrupar solicitudes, se maximiza la utilización de la infraestructura, lo que conduce a costos por predicción más bajos en comparación con el mantenimiento de puntos finales de servicio de baja latencia siempre activos para cada punto de datos individual.
La principal compensación es la latencia. Dado que los datos se procesan en fragmentos, los resultados no son instantáneos. Además, la gestión de la canalización de datos —asegurar que el lote de entrada esté preparado correctamente y que la salida se almacene de manera confiable— añade complejidad al ciclo de vida de MLOps.
La inferencia por lotes contrasta marcadamente con la inferencia en línea (o inferencia en tiempo real), donde las predicciones deben devolverse en milisegundos para una interacción inmediata del usuario. Está estrechamente relacionada con los procesos ETL (Extraer, Transformar, Cargar) cuando se utiliza para el enriquecimiento de datos.