此功能使站点可靠性工程师能够对计算资源进行深入的性能剖析。通过分析延迟、吞吐量以及 CPU/GPU 利用率模式,团队可以找出应用程序执行中的低效环节。该过程涉及从分布式系统收集遥测数据,将日志与指标关联,并生成可用于优化的实用见解。这确保了高可用性和成本效益,同时避免了构建外部测试场景。
启动对计算节点的性能指标的自动收集,以建立当前系统健康状况的基准。
将日志条目与实时遥测数据关联,以定位应用程序堆栈中导致性能下降的具体环节。
生成详细的性能分析报告,重点突出资源竞争情况,并提出针对性的配置调整建议,以提高吞吐量。
在计算实例上配置指标收集代理。
定义日志与遥测数据之间的关联规则。
执行性能分析测试,以收集基准数据和压力测试数据。
分析结果,以识别具体的性能瓶颈。
实时查看聚合的性能指标和历史趋势。
访问经过结构化的性能事件日志,以便追踪执行路径。
当性能指标超出预设阈值或检测到异常时,将收到通知。