Implementar el nuevo modelo de inferencia en el tráfico de producción sin afectar la experiencia del usuario, permitiendo la validación silenciosa del rendimiento y la precisión antes de su despliegue completo.

Priority
La implementación en sombra permite a los ingenieros de aprendizaje automático validar nuevos modelos con datos de producción reales sin interrumpir los servicios para los usuarios finales. Al dirigir un pequeño porcentaje del tráfico al nuevo modelo mientras se mantiene activo el modelo original, las organizaciones pueden evaluar en tiempo real la latencia, la precisión y las implicaciones de costos. Este enfoque minimiza el riesgo durante la transición de los entornos de prueba a la producción, garantizando que las métricas de rendimiento se ajusten a las expectativas empresariales antes de comprometerse con la adopción completa.
El nuevo modelo funciona en paralelo con el modelo de producción actual, pero no afecta las respuestas mostradas al usuario.
El tráfico se dirige a ambos modelos simultáneamente, lo que permite una comparación directa de los resultados de inferencia y las métricas de rendimiento.
Los datos provenientes de la ejecución en segundo plano se registran para su análisis, sin ser expuestos a la interfaz de usuario final.
Defina el porcentaje de distribución de tráfico (por ejemplo, 10%) para el nuevo modelo en la configuración de despliegue.
Habilite el modo sombra en la canalización de despliegue para garantizar la ejecución silenciosa de la inferencia.
Active el enrutamiento concurrente para que ambos modelos procesen las solicitudes simultáneamente.
Monitoree los indicadores clave de rendimiento y compare los resultados con las métricas de referencia.
Configura reglas de enrutamiento dual para distribuir el tráfico entre los puntos finales de la versión anterior y la nueva versión.
Muestra la latencia, el rendimiento y las tasas de error en tiempo real para los modelos activos y de respaldo.
Almacena registros de inferencia anonimizados provenientes de la ejecución en segundo plano para análisis posteriores al despliegue y detección de desviaciones.