Esta función dirige las solicitudes de inferencia entrantes al modelo implementado más adecuado, basándose en el esquema de entrada, los requisitos de latencia y la disponibilidad de recursos dentro del clúster de computación.

Priority
El enrutamiento de solicitudes (Request Routing) funciona como el mecanismo de despacho fundamental dentro del ciclo de vida de la implementación de modelos. Garantiza que cada llamada de inferencia se dirija a la instancia de modelo óptima, basándose en métricas en tiempo real como latencia, rendimiento y compatibilidad del modelo. Al analizar los encabezados y las características de la carga útil de las solicitudes, el sistema selecciona dinámicamente el servicio de destino, equilibrando la optimización del rendimiento con la eficiencia de costos. Este proceso evita desequilibrios de carga y garantiza una alta disponibilidad en toda la infraestructura de computación.
El motor de enrutamiento analiza las cargas útiles de las API entrantes para identificar la versión del modelo requerida y el formato de entrada.
Evalúa las métricas actuales de salud del clúster para determinar la capacidad disponible para familias de modelos específicas.
Un algoritmo de decisión selecciona el punto final de destino, aplicando reglas de balanceo de carga antes de redirigir el tráfico.
Validar el esquema de la solicitud entrante con las especificaciones del modelo registrado.
Consultar el registro de modelos para identificar las implementaciones activas que coincidan con las capacidades solicitadas.
Aplique el algoritmo de balanceo de carga para seleccionar la instancia de destino óptima.
Transmita las cabeceras de la solicitud y el cuerpo de la solicitud al punto final de inferencia designado.
El punto de entrada inicial donde se validan los metadatos de la solicitud y los tokens de autenticación antes de la ejecución de la lógica de enrutamiento.
Un almacén de datos que proporciona el estado en tiempo real de los modelos disponibles, incluyendo las etiquetas de versión, el estado de implementación y los límites de recursos.
El modelo de alojamiento de instancias en un entorno de computación distribuida, donde el modelo seleccionado ejecuta la tarea de inferencia real.