Esta función permite a los ingenieros de confiabilidad de sitios (SRE) supervisar el cumplimiento de los acuerdos de nivel de servicio (SLA) dentro del ámbito de la computación. Agrega métricas de latencia, rendimiento y tasa de error de los servicios de inferencia distribuidos, comparándolas con los umbrales de SLA predefinidos. Al proporcionar visibilidad en tiempo real del estado de cumplimiento, el sistema alerta inmediatamente a los equipos cuando se produce una degradación del servicio, facilitando una respuesta rápida a incidentes y manteniendo la excelencia operativa en todo el ecosistema de la infraestructura de IA.
El sistema ingiere continuamente datos de telemetría provenientes de los nodos de cómputo que alojan modelos de inteligencia artificial, con el fin de establecer una línea base del comportamiento operativo normal.
Los algoritmos de comparación en tiempo real evalúan las métricas de rendimiento actuales en comparación con los objetivos de SLA configurados, identificando las desviaciones que indican una posible degradación del servicio.
Los mecanismos de alerta automatizados notifican al equipo de SRE cuando se superan los umbrales, activando flujos de trabajo de remediación predefinidos para restablecer los niveles de servicio.
Defina parámetros específicos del Acuerdo de Nivel de Servicio (SLA), incluyendo límites de latencia, porcentajes de disponibilidad y tolerancias de tasa de error, para cada clúster de computación.
Configure las canalizaciones de ingestión de telemetría para recopilar métricas de alta frecuencia de los servicios de inferencia que se ejecutan en los nodos de cómputo.
Implemente una lógica de comparación que mapee las métricas entrantes con los umbrales de SLA definidos para calcular el estado de cumplimiento.
Active reglas de alertas automatizadas para generar notificaciones y ejecutar scripts de remediación cuando se incumple cualquier parámetro de SLA.
Una interfaz centralizada que muestra los porcentajes de cumplimiento de los acuerdos de nivel de servicio (SLA) en tiempo real, así como las tendencias históricas para todos los clústeres de computación monitorizados.
Un sistema de notificaciones integrado que identifica las infracciones críticas de los acuerdos de nivel de servicio (SLA), proporcionando detalles contextuales y acciones recomendadas.
Punto de acceso programático para obtener métricas detalladas de los acuerdos de nivel de servicio (SLA) a través de llamadas RESTful, diseñado para herramientas de monitoreo externas o sistemas de gestión de incidencias.