该功能使云工程师能够实现对分布式云基础设施中虚拟机健康状况的实时监控。该系统通过聚合来自不同IaaS提供商的指标,提供关于资源利用率、延迟和错误率的可操作洞察。它支持主动维护,通过在问题影响服务可用性之前识别瓶颈,确保符合SLA要求,同时通过自动化的扩展建议优化运营支出。
该系统从虚拟机监控程序和编排层获取遥测数据,以建立虚拟机正常行为模式的基线。
异常检测算法会分析实时数据流,以识别CPU、内存或网络吞吐量方面的异常,这些异常可能预示着即将发生的故障。
自动化工作流程会根据预定义的规则触发修复脚本,从而缩短关键事件的平均修复时间。
在目标云实例上部署监控代理,以开始收集遥测数据。
在管理控制台中配置告警阈值和关联规则。
审查生成的报告,以识别性能下降或资源竞争问题。
根据风险等级,执行自动化修复操作或进行手动干预。
集中式视图,实时展示所有监控实例的指标图表和历史趋势。
当达到预设阈值时,系统会通过即时消息或电子邮件向工程师发送警报。
提供 RESTful 接口,允许外部工具获取诊断数据或执行远程命令。