Enrutamiento de solicitudes.

Esta función dirige las solicitudes de inferencia entrantes al modelo implementado más adecuado, basándose en el esquema de entrada, los requisitos de latencia y la disponibilidad de recursos dentro del clúster de computación.

High

Ingeniero de Machine Learning.

Man views a holographic interface projected in front of rows of server racks.

Priority

High

Execution Context

El enrutamiento de solicitudes (Request Routing) funciona como el mecanismo de despacho fundamental dentro del ciclo de vida de la implementación de modelos. Garantiza que cada llamada de inferencia se dirija a la instancia de modelo óptima, basándose en métricas en tiempo real como latencia, rendimiento y compatibilidad del modelo. Al analizar los encabezados y las características de la carga útil de las solicitudes, el sistema selecciona dinámicamente el servicio de destino, equilibrando la optimización del rendimiento con la eficiencia de costos. Este proceso evita desequilibrios de carga y garantiza una alta disponibilidad en toda la infraestructura de computación.

El motor de enrutamiento analiza las cargas útiles de las API entrantes para identificar la versión del modelo requerida y el formato de entrada.

Evalúa las métricas actuales de salud del clúster para determinar la capacidad disponible para familias de modelos específicas.

Un algoritmo de decisión selecciona el punto final de destino, aplicando reglas de balanceo de carga antes de redirigir el tráfico.

Operating Checklist

Validar el esquema de la solicitud entrante con las especificaciones del modelo registrado.

Consultar el registro de modelos para identificar las implementaciones activas que coincidan con las capacidades solicitadas.

Aplique el algoritmo de balanceo de carga para seleccionar la instancia de destino óptima.

Transmita las cabeceras de la solicitud y el cuerpo de la solicitud al punto final de inferencia designado.

Integration Surfaces

API Gateway

El punto de entrada inicial donde se validan los metadatos de la solicitud y los tokens de autenticación antes de la ejecución de la lógica de enrutamiento.

Registro de modelos.

Un almacén de datos que proporciona el estado en tiempo real de los modelos disponibles, incluyendo las etiquetas de versión, el estado de implementación y los límites de recursos.

Clúster de inferencia.

El modelo de alojamiento de instancias en un entorno de computación distribuida, donde el modelo seleccionado ejecuta la tarea de inferencia real.

FAQ

Bring Enrutamiento de solicitudes. Into Your Operating Model

Connect this capability to the rest of your workflow and design the right implementation path with the team.

Enrutamiento de solicitudes.

Execution Context

Operating Checklist

Integration Surfaces

API Gateway

Registro de modelos.

Clúster de inferencia.

FAQ

¿Cómo gestiona el sistema múltiples modelos compatibles?

¿Qué ocurre si todos los modelos objetivo están sobrecargados?

¿Es posible modificar las reglas de enrutamiento de forma dinámica durante la ejecución?

¿Cómo se implementa el rastreo de solicitudes para la depuración?

Bring Enrutamiento de solicitudes. Into Your Operating Model