此功能提供对物理虚拟化基础设施运行状态的全面可见性。通过汇总来自多个主机的指标,它使管理员能够识别底层硬件层面上的 CPU、内存和存储资源瓶颈。尽早发现虚拟化主机的故障,可以防止依赖型虚拟环境出现连锁故障,从而确保关键企业工作负载的高可用性。
该系统持续采集所有受管虚拟化主机的遥测数据,以建立正常运行参数的基线。
先进的异常检测算法分析资源利用率的趋势,以预测潜在的硬件故障或软件不稳定情况。
当超出预设阈值时,系统将自动触发警报,为虚拟化管理员提供即时上下文信息,以便启动相应的修复流程。
为每个受监控的虚拟机管理程序实例,配置 CPU、内存和 I/O 的资源阈值。
部署监控代理,以可配置的间隔收集细粒度的性能指标。
请审查生成的健康报告,以识别可能表明资源耗尽或硬件性能下降的趋势。
根据检测到的异常,执行修复脚本或触发自动扩展策略。
一个集中控制台,用于显示集群中每个虚拟化主机(hypervisor host)的实时健康状况评分和资源利用率图表。
一个用于接收关键通知的界面,该通知涉及硬件故障、阈值超出或服务中断,并提供一键升级选项。
详细记录所有监控事件、已采取的诊断措施以及系统响应,以确保合规性和可追溯性。