高_MODULE
软件 - 虚拟化

高可用性

配置虚拟机故障转移,以确保在宿主机发生故障时业务的连续性,通过将虚拟机自动迁移到健康的宿主机,并在规定的恢复时间目标 (RTO) 范围内完成。

High
虚拟化架构师
Personnel observe a central holographic display above server racks with flowing data lines.

Priority

High

Execution Context

该功能定义了自动虚拟机故障转移机制的架构蓝图。它建立了一套协议,用于检测虚拟机宿主机故障,并在故障发生时,将正在运行的虚拟机实时迁移到可用资源,以确保服务不中断。设计阶段重点关注集群拓扑、资源分配策略以及网络路径冗余,以在发生灾难性硬件故障时,维持数据一致性和可用性。

该系统利用集成传感器,持续监控主机健康指标,以检测潜在或实际的硬件故障,从而在故障影响服务可用性之前及时发现并采取措施。

检测到故障时,故障转移协议将启动实时迁移过程,该过程会保留内存状态和网络连接,以确保虚拟机零停机恢复。

迁移完成后,系统会验证数据完整性,并更新集群元数据,以反映新的主节点配置,从而为后续操作提供支持。

Operating Checklist

在同一数据中心或多站点集群拓扑中部署冗余的虚拟机管理程序节点。

定义资源阈值和故障标准,以触发自动故障转移的激活。

配置实时迁移策略,为每个虚拟机组指定允许的源主机-目标主机对。

验证网络带宽和存储复制设置,以支持迁移过程中的高速状态传输。

Integration Surfaces

虚拟机监控器健康状况监控

实时传感器采集 CPU、内存和 I/O 错误信息,触发故障转移启动协议。

集群资源管理器

动态资源分配引擎,确保目标主机具备足够的容量以承载迁移的虚拟机工作负载。

网络 fabric 控制器

虚拟交换机配置,可在主机迁移过程中保持网络接口的持久性。

FAQ

Bring 高可用性 Into Your Operating Model

Connect this capability to the rest of your workflow and design the right implementation path with the team.