该功能协调一个集中的监控代理,该代理能够从多个云服务提供商处采集遥测数据。通过将特定于提供商的 API 抽象为通用数据模型,该系统使云架构师能够可视化资源利用率,检测异常,并在混合云或多云架构中关联事件,而无需管理不同的仪表盘。该解决方案消除了信息孤岛,从而实现主动的事件响应和统一的成本分析。
该系统将轻量级的监控代理部署到每个云环境中,并将各项指标标准化为统一的模式。
集中式编排层将这些规范化的数据流聚合起来,以识别跨供应商的依赖关系和潜在的级联故障。
实时告警触发自动化修复流程,当关键阈值在任何服务提供商边界被突破时,系统会自动采取相应的措施。
定义目标云环境,并选择用于监控的具体资源类型。
配置代理部署策略,以管理身份验证和数据收集权限。
将地图服务提供商特定的指标映射到企业标准模式,并在编排引擎中实现。
启用跨供应商的告警规则,以检测跨多云环境的相关异常。
代理程序通过原生 SDK 与 AWS、Azure、GCP 以及本地工具连接,以提取原始指标和日志数据。
架构师可以通过一个统一的界面,查看整合后的图表和热力图,从而了解整个分布式基础设施的整体情况。
自动化流程 playbook 基于关联警报执行,提供从检测到解决的可追溯性。