Ajuste automáticamente la capacidad del servicio de inferencia para que coincida con la demanda en tiempo real, garantizando una utilización óptima de los recursos y un rendimiento constante para las cargas de trabajo de producción.

Priority
Esta función permite el ajuste dinámico de los recursos de cómputo dedicados a los servicios de inferencia de IA. Al monitorear los volúmenes de solicitudes entrantes, el sistema aprovisiona automáticamente instancias adicionales durante los períodos de mayor tráfico y libera la capacidad excedente cuando la demanda disminuye. Esto garantiza tiempos de respuesta de baja latencia, al tiempo que maximiza la eficiencia de costos mediante el ajuste adecuado de la infraestructura en función de métricas operativas reales, en lugar de modelos de aprovisionamiento estáticos.
El sistema monitorea continuamente las tasas de solicitudes de inferencia en tiempo real para detectar patrones que indiquen posibles picos de carga.
Al detectar el incumplimiento de los umbrales, el motor de orquestación activa políticas de escalamiento automático para aprovisionar nuevas instancias de GPU o CPU.
Una vez que el tráfico se estabiliza, el sistema libera de forma controlada los recursos excedentes para mantener la optimización de costos sin afectar la disponibilidad del servicio.
Configure los umbrales de recursos base en función de los patrones históricos de tráfico.
Habilite los disparadores de escalamiento automático para indicadores de carga específicos.
Implemente instancias actualizadas del servicio de inferencia durante los períodos de máxima demanda detectados.
Verificar las métricas de latencia y la eficiencia de costos después del evento de escalamiento.
Visualización en tiempo real de las métricas de carga actuales y las instancias de inferencia activas para una visibilidad operativa inmediata.
Interfaz para definir valores de umbral, disparadores de escalamiento y límites de recursos para comportamientos de ajuste automático.
Datos históricos sobre el rendimiento, los cambios en la latencia y los ahorros de costos logrados mediante la asignación dinámica de recursos.