性能分析

通过性能分析，识别计算实例中的瓶颈，并优化资源利用率。

High

站点可靠性工程 (Zhan Dian Ke Liang Xing Gong Cheng)

Priority

High

Execution Context

此功能使站点可靠性工程师能够对计算资源进行深入的性能剖析。通过分析延迟、吞吐量以及 CPU/GPU 利用率模式，团队可以找出应用程序执行中的低效环节。该过程涉及从分布式系统收集遥测数据，将日志与指标关联，并生成可用于优化的实用见解。这确保了高可用性和成本效益，同时避免了构建外部测试场景。

启动对计算节点的性能指标的自动收集，以建立当前系统健康状况的基准。

将日志条目与实时遥测数据关联，以定位应用程序堆栈中导致性能下降的具体环节。

生成详细的性能分析报告，重点突出资源竞争情况，并提出针对性的配置调整建议，以提高吞吐量。

在计算实例上配置指标收集代理。

定义日志与遥测数据之间的关联规则。

执行性能分析测试，以收集基准数据和压力测试数据。

分析结果，以识别具体的性能瓶颈。

实时查看聚合的性能指标和历史趋势。

访问经过结构化的性能事件日志，以便追踪执行路径。

当性能指标超出预设阈值或检测到异常时，将收到通知。

Connect this capability to the rest of your workflow and design the right implementation path with the team.