2021/02 作者:ihunter 0 次 0
主机高可用
oVirt主机高可用是指自动对处于异常状态的主机进行操作,尝试将其恢复正常。
主机的异常状态
主机可能出现的异常状态有:
Non Responsive,无响应,无法与engine通信;
Non Operational,不可操作,能够与engine通信,但是具有不正确的配置;
主机高可用的前提条件
要实现主机高可用,必须具备的条件如下:
必须两台及以上主机节点;
主机必须配置了电源管理;(不配的话只能软fence)
集群必须启动了“隔离”策略;
硬fence/软fence
硬fence:通过硬件电源管理(如IPMI)重启主机,在oVirt里因为engine无法连接到故障主机,所以利用集群/数据中心内的其它主机硬fence故障主机;
软fence:engine通过ssh连接到主机执行重启vdsm操作;
配置
计算->主机->编辑主机->电源管理->启用电源管理;
点“+”增加隔离代理;
根据使用的服务器填写电源管理配置信息;(需提前在物理服务器上先配好电源管理信息)
集群->编辑集群->隔离策略->启用隔离;
实现
engine与host网络通信中断后,host状态变为“connecting”。
————->
engine向vdsm发送三次请求获取状态或者等待一定的时间间隔响应。这个时间间隔的公式如下:
TimeoutToResetVdsInSeconds (the default is 60 seconds) + [DelayResetPerVmInSeconds (the default is 0.5 seconds)]*(the count of running virtual machines on host) + [DelayResetForSpmInSeconds (the default is 20 seconds)] * 1 (if host runs as SPM) or 0 (if the host does not run as SPM)
engine按“三次请求响应”和“时间间隔”中最长的值等待。
————->
如果主机没有响应,或“时间间隔”超时,通过ssh执行重启vdsm操作。
————->
如果vdsm重启失败,或重启后仍不能响应,则将主机状态置为“Non Responsive”。
————->
通过电源管理,执行硬件fence操作。
上篇:
oVirt日志文件位置
下篇:
oVirt集群迁移策略(Minimal downtime/Post-copy migration/Suspend workload if needed)