Esta función permite a los ingenieros de confiabilidad de sitios realizar análisis exhaustivos del rendimiento de los recursos de computación. Al analizar patrones de latencia, rendimiento y utilización de CPU/GPU, los equipos pueden identificar ineficiencias en la ejecución de las aplicaciones. El proceso implica la recopilación de datos de telemetría de sistemas distribuidos, la correlación de registros con métricas y la generación de información útil para la optimización. Esto garantiza una alta disponibilidad y eficiencia de costos sin necesidad de simular escenarios externos.
Iniciar la recopilación automatizada de métricas de rendimiento desde los nodos de cómputo para establecer una línea de base del estado actual del sistema.
Correlacione las entradas de registro con datos de telemetría en tiempo real para identificar puntos específicos de degradación del rendimiento dentro de la pila de la aplicación.
Generar informes de perfilado detallados que destaquen la contención de recursos y sugerir ajustes de configuración específicos para mejorar el rendimiento.
Configure los agentes de recopilación de métricas en las instancias de computación.
Defina reglas de correlación entre registros y datos de telemetría.
Ejecute una prueba de rendimiento para capturar datos de referencia y de prueba de estrés.
Analice los resultados para identificar cuellos de botella específicos en el rendimiento.
Visualice métricas de rendimiento agregadas y tendencias históricas en tiempo real.
Acceda a registros estructurados filtrados por eventos de rendimiento para rastrear las rutas de ejecución.
Reciba notificaciones cuando se superen los umbrales de rendimiento o se detecten anomalías.