La monitorización de rendimiento, dentro de la categoría de monitorización de modelos, se centra exclusivamente en la medición de métricas basadas en cálculos, como la latencia de inferencia y el rendimiento. Esta función permite a los ingenieros de confiabilidad del sitio (SRE) mantener la salud del sistema al detectar cuellos de botella en tiempo real. Proporciona una visibilidad detallada de los tiempos de procesamiento de las solicitudes y los volúmenes de transacciones, garantizando que los servicios de IA ofrezcan un rendimiento constante bajo diversas condiciones de carga, sin degradación.
El sistema captura continuamente mediciones de latencia para cada solicitud de inferencia, con el fin de identificar picos o degradaciones en el tiempo de respuesta.
Los datos de rendimiento se agregan para calcular las solicitudes por segundo, lo que ayuda a los ingenieros a comprender la utilización de la capacidad y las necesidades de escalamiento.
Los mecanismos de alerta se activan automáticamente cuando la latencia supera los umbrales definidos, lo que permite una intervención inmediata por parte del equipo de SRE.
Inicialice los agentes de monitorización para capturar métricas de rendimiento en el punto de inferencia.
Configure los umbrales de latencia según los requisitos del Acuerdo de Nivel de Servicio (SLA) para puntos finales de modelos específicos.
Agregue datos de rendimiento a lo largo de ventanas de tiempo para detectar la saturación de la capacidad.
Correlacione los picos de latencia con las caídas de rendimiento para identificar los cuellos de botella en los recursos de cómputo.
Visualización en tiempo real de tendencias de latencia y gráficos de rendimiento para una comprensión operativa inmediata.
Notificaciones instantáneas enviadas a los canales de SRE cuando las métricas de rendimiento superan los umbrales críticos.
Registros detallados que contienen valores de latencia y rendimiento con marcas de tiempo, para auditoría y depuración.