此功能允许管理员持续评估整个计算基础设施的运行状态。通过汇总来自节点、容器和服务的各项指标,它提供了一个统一的系统完整性视图。早期发现异常情况,可以采取积极干预措施,防止服务质量下降,从而确保关键企业应用程序的高可用性,并最大限度地减少停机时间。
系统会启动自动化健康检查,对所有计算实例进行全面检测,以验证资源利用率和错误率。
实时数据流被分析,以立即识别偏离基准性能阈值的异常情况。
当检测到关键故障时,系统会生成警报,并触发通知协议,以便进行管理层审核。
启动所有活动计算实例的自动化健康检查周期。
汇总指标,包括CPU利用率、内存压力以及延迟测量值。
将收集到的数据与已设定的基准阈值进行比较,以进行异常检测。
检测到性能下降或故障时,生成关键警报。
可视化呈现的综合健康指标和系统状态指示器。
集中式收集引擎用于处理来自分布式计算节点的错误日志。
针对关键警报,提供自动化的、面向授权管理人员的通知机制。