EDS_MODULE
Implementación de modelos.

Enrutamiento de solicitudes.

Esta función dirige las solicitudes de inferencia entrantes al modelo implementado más adecuado, basándose en el esquema de entrada, los requisitos de latencia y la disponibilidad de recursos dentro del clúster de computación.

High
Ingeniero de Machine Learning.
Man views a holographic interface projected in front of rows of server racks.

Priority

High

Execution Context

El enrutamiento de solicitudes (Request Routing) funciona como el mecanismo de despacho fundamental dentro del ciclo de vida de la implementación de modelos. Garantiza que cada llamada de inferencia se dirija a la instancia de modelo óptima, basándose en métricas en tiempo real como latencia, rendimiento y compatibilidad del modelo. Al analizar los encabezados y las características de la carga útil de las solicitudes, el sistema selecciona dinámicamente el servicio de destino, equilibrando la optimización del rendimiento con la eficiencia de costos. Este proceso evita desequilibrios de carga y garantiza una alta disponibilidad en toda la infraestructura de computación.

El motor de enrutamiento analiza las cargas útiles de las API entrantes para identificar la versión del modelo requerida y el formato de entrada.

Evalúa las métricas actuales de salud del clúster para determinar la capacidad disponible para familias de modelos específicas.

Un algoritmo de decisión selecciona el punto final de destino, aplicando reglas de balanceo de carga antes de redirigir el tráfico.

Operating Checklist

Validar el esquema de la solicitud entrante con las especificaciones del modelo registrado.

Consultar el registro de modelos para identificar las implementaciones activas que coincidan con las capacidades solicitadas.

Aplique el algoritmo de balanceo de carga para seleccionar la instancia de destino óptima.

Transmita las cabeceras de la solicitud y el cuerpo de la solicitud al punto final de inferencia designado.

Integration Surfaces

API Gateway

El punto de entrada inicial donde se validan los metadatos de la solicitud y los tokens de autenticación antes de la ejecución de la lógica de enrutamiento.

Registro de modelos.

Un almacén de datos que proporciona el estado en tiempo real de los modelos disponibles, incluyendo las etiquetas de versión, el estado de implementación y los límites de recursos.

Clúster de inferencia.

El modelo de alojamiento de instancias en un entorno de computación distribuida, donde el modelo seleccionado ejecuta la tarea de inferencia real.

FAQ

Bring Enrutamiento de solicitudes. Into Your Operating Model

Connect this capability to the rest of your workflow and design the right implementation path with the team.