指标收集

将来自计算节点的超大量遥测数据聚合，转换为 Prometheus 时序数据格式，用于实时监控和 Grafana 可视化仪表盘。

High

站点可靠性工程 (Zhan Dian Ke Liang Xing Gong Cheng)

Group discusses data displayed on a large screen near server racks and technical equipment.

Priority

High

Execution Context

该功能负责协调计算实例生成的性能指标的采集、标准化和存储。它确保低延迟地将 CPU、内存和网络统计数据收集到集中的 Prometheus 后端。系统自动抓取部署在服务器上的代理，按照标准的时间序列协议格式化数据，并对其进行索引，以便通过 Grafana 面板立即检索。此过程对于检测资源瓶颈和维持服务可用性至关重要。

系统启动一个预定任务，针对所有已注册的计算节点，执行数据采集，以获取当前的指标快照。

收集到的数据在流式传输到 Prometheus 采集管道之前，会经过与模式约束的验证。

处理后的指标数据可立即在 Grafana 仪表盘中进行可视化，并可用于触发告警规则。

Operating Checklist

在目标基础设施节点上部署计算代理。

配置 Prometheus 的抓取 (scrape) 设置，以识别代理端点。

定期执行数据抓取任务，以收集原始的指标数据流。

将汇总数据渲染成交互式 Grafana 可视化图表。

Integration Surfaces

计算代理

本地代理软件安装在服务器上，用于暴露内部硬件计数器和应用程序性能数据。

Prometheus 服务器

集中式时序数据库，用于处理指标数据的采集、存储策略和查询执行。

Grafana仪表盘

可视化层，提供实时图表和告警功能，用于 SRE (Site Reliability Engineering) 运维监控。

FAQ

Bring 指标收集 Into Your Operating Model

Connect this capability to the rest of your workflow and design the right implementation path with the team.

指标收集

Execution Context

Operating Checklist

Integration Surfaces

计算代理

Prometheus 服务器

Grafana仪表盘

FAQ

系统多久从计算节点收集一次指标数据？

如果计算代理在数据采集过程中未能响应，会发生什么情况？

这些指标可以用于跨区域分析吗？

该集成方案是否与现有的 Grafana 仪表盘兼容？

Bring 指标收集 Into Your Operating Model