Si se produce un error en un host y es necesario reiniciar sus máquinas virtuales, puede controlar el orden en el cual se reinician mediante la configuración de prioridad de reinicio de máquinas virtuales. También puede configurar de qué forma responde vSphere HA si los hosts pierden conectividad de red de administración con otros hosts mediante el uso de la configuración de respuesta para el aislamiento del host. También se consideran otros factores cuando vSphere HA reinicia una máquina virtual después de un error.

La siguiente configuración se aplica a todas las máquinas virtuales en el clúster en caso de un error o aislamiento del host. También es posible configurar excepciones para máquinas virtuales específicas. Consulte Personalizar una máquina virtual individual.

VM Restart Priority (Prioridad de reinicio de máquina virtual)

La prioridad de reinicio de máquina virtual determina el orden relativo en el cual las máquinas virtuales reciben recursos después de un error del host. Dichas máquinas virtuales se asignan a hosts con capacidad sin reservar, donde las máquinas virtuales con la mayor prioridad se colocan primero y se continúa con aquellas con menor prioridad hasta que, bien se hayan colocado todas las máquinas virtuales, bien no haya más capacidad del clúster disponible para cumplir con las reservas o la sobrecarga de memoria de las máquinas virtuales. A continuación, un host reinicia las máquinas virtuales que tiene asignadas en orden de prioridad. Si no hay suficientes recursos, vSphere HA espera que haya disponible más capacidad sin reservar (por ejemplo, debido a que un host vuelve a estar en línea) y luego vuelve a intentar la colocación de estas máquinas virtuales. Para reducir la posibilidad de que se produzca esta situación, configure el control de admisión de vSphere HA para reservar más recursos para errores. El control de admisión permite controlar cuánta capacidad del clúster reservan la máquinas virtuales, que no está disponible para cumplir con las reservas y sobrecarga de memoria de las máquinas virtuales en caso de que haya un error.

Los valores para esta configuración son Disabled (Deshabilitada), Low (Baja), Medium (Media), que es el valor predeterminado, y High (Alta). La característica de supervisión de máquinas virtuales y aplicaciones de vSphere HA pasa por alto la configuración Disabled (Deshabilitada), ya que esta característica protege a las máquinas virtuales contra errores a nivel de sistema operativo y no errores de máquina virtual. Cuando se produce un error a nivel de sistema operativo, vSphere HA reinicia el sistema operativo y la máquina virtual queda funcionando en el mismo host. Puede cambiar esta configuración para máquinas virtuales individuales.

Nota:

El restablecimiento de una máquina virtual provoca un reinicio en frío del sistema operativo invitado, pero no realiza el ciclo de energía de la máquina virtual.

La configuración de prioridad de reinicio para máquinas virtuales varía según las necesidades del usuario. Asigne una prioridad de reinicio mayor a las máquinas virtuales que proporcionen los servicios más importantes.

Por ejemplo, en caso de una aplicación de varios niveles, puede que tenga que clasificar asignaciones de acuerdo con las funciones alojadas en las máquinas virtuales.

  • High (Alta). Servidores de base de datos que proporcionan datos para aplicaciones.

  • Medium (Mediana). Servidores de aplicaciones que consumen datos en la base de datos y proporcionan resultados en páginas web.

  • Low (Baja). Servidores web que reciben solicitudes de usuarios, transmiten las consultas a servidores de aplicaciones y devuelven los resultados a los usuarios.

Si se produce un error en un host, vSphere HA intenta registrar en un host activo las máquinas virtuales afectadas que estaban encendidas y que tienen una prioridad de reinicio de Disabled (Deshabilitada), o que estaban apagadas.

Host Isolation Response (Respuesta de aislamiento del host)

La respuesta para el aislamiento del host determina lo que ocurre cuando un host en un clúster de vSphere HA pierde sus conexiones de red de administración, pero sigue ejecutándose. Puede usar la respuesta para aislamiento para que vSphere HA apague máquinas virtuales que se ejecutan en un host aislado y las reinicie en un host que no está aislado. Las respuestas para aislamiento del host requiere que Host Monitoring Status (Estado de supervisión de hosts) esté habilitado. Si está deshabilitado, también se suspenden las respuestas para aislamiento del host. Un host determina que está aislado cuando no puede comunicarse con los agentes que se ejecutan en los otros, y no puede hacer ping a sus direcciones de aislamiento. Después, el host ejecuta su respuesta de aislamiento. Las respuestas son Power off and restart VMs (Apagar y reiniciar máquinas virtuales) o Shutdown and restart VMs (Desactivar y reiniciar máquinas virtuales). Puede personalizar esta propiedad para máquinas virtuales individuales.

Nota:

Si la configuración de prioridad de reinicio de una máquina virtual se establece en Disabled (Deshabilitada), no se realiza ninguna respuesta para aislamiento del host.

Para usar la configuración Shutdown and restart VMs (Desactivar y reiniciar máquina virtual), debe instalar VMware Tools en el sistema operativo invitado de la máquina virtual. La desconexión de la máquina virtual ofrece la ventaja de que mantiene su estado. Desconectar es mejor que apagar la máquina virtual, lo que no purga los cambios más recientes al disco ni confirma transacciones. Las máquinas virtuales que se encuentran en proceso de desconexión ya no pueden realizar conmutación por error mientras se lleva a cabo la desactivación. Las máquinas virtuales que no se han desactivado en 300 segundos o en el tiempo que se haya especificado en la opción avanzada das.isolationshutdowntimeout, se apagan.

Después de que crea un clúster de vSphere HA, puede anular la configuración predeterminada del clúster para Restart Priority (Prioridad de reinicio) y Isolation Response (Respuesta para aislamiento) para máquinas virtuales específicas. Dichas anulaciones son útiles para máquinas virtuales que se utilizan para tareas especiales. Por ejemplo, puede que las máquinas virtuales que proporcionan servicios de infraestructura como DNS o DHCP tengan que apagarse antes que otras máquinas virtuales en el clúster.

Cuando un host se aísla o se particiona desde un host maestro, y ese host maestro no puede comunicarse con él mediante almacenes de datos de latidos, se puede producir una condición de "cerebro dividido" de la máquina virtual. En esta situación, el host maestro no puede determinar que el host está activo y, por ello, lo declara inactivo. Luego, el host maestro intenta reiniciar las máquinas virtuales que están ejecutándose en el host aislado o particionado. Este intento se realiza correctamente si las máquinas virtuales siguen ejecutándose en el host aislado o particionado, y si ese host perdió acceso a los almacenes de datos de las máquinas virtuales cuando se aisló o particionó. Entonces, existe una condición de cerebro dividido, ya que hay dos instancias de la máquina virtual. Sin embargo, solo una instancia puede leer o escribir en los discos virtuales de la máquina virtual. Se puede usar máquina virtual Component Protection (Protección de componentes de la máquina virtual) para evitar esta condición de cerebro dividido. Cuando activa la VMCP con la configuración agresiva, supervisa la accesibilidad del almacén de datos de máquinas virtuales encendidas y desconecta aquellas que pierden acceso a sus almacenes de datos.

Para recuperarse de esta situación, ESXi genera una pregunta en la máquina virtual que ha perdido los bloqueos de discos para cuando el host salga del aislamiento y no pueda volver a adquirir dichos bloqueos. vSphere HA responde automáticamente a esta pregunta, lo que permite que la instancia de máquina virtual que perdió los bloqueos de discos se apague, con lo que queda solo la instancia que tiene los bloqueos de discos.

Factores que se consideran para reiniciar máquinas virtuales

Después de un error, el host maestro del clúster intenta reiniciar las máquinas virtuales afectadas mediante la identificación de un host que pueda encenderlas. Cuando se elige dicho host, el host maestro considera varios factores.

Accesibilidad de archivos

Antes de poder iniciar una máquina virtual, sus archivos deben estar accesibles desde uno de los hosts del clúster activo con el que el maestro puede comunicarse a través de la red

Compatibilidad de máquinas virtuales y hosts

Si hay hosts accesibles, la máquina virtual debe ser compatible con al menos uno de ellos. La compatibilidad establecida para una máquina virtual incluye el efecto de cualquier regla de afinidad Máquina virtual-Host requerida. Por ejemplo, si una regla solo permite que se ejecute una máquina virtual en dos hosts, se contempla su colocación en aquellos dos hosts.

Reservas de recursos

De los hosts en los que puede ejecutarse la máquina virtual, al menos uno debe tener suficiente capacidad sin reservar para cumplir con la sobrecarga de memoria de la máquina virtual y cualquier reserva de recursos. Se consideran cuatro tipos de reservas: CPU, memoria, vNIC y flash virtual. Igualmente, debe haber disponibles suficientes puertos de red para encender la máquina virtual.

Límites de hosts

Además de las reservas de recursos, una máquina virtual solo puede colocarse en un host si al hacerlo no se supera la cantidad máxima de máquinas virtuales permitidas o la cantidad de vCPU en uso.

Restricciones de características

Si se ha configurado la opción avanzada que requiere que vSphere HA aplique las reglas de antiafinidad entre máquinas virtuales, vSphere HA no infringe esta regla. También, vSphere HA no infringe ningún límite configurado por host para máquinas virtuales con Fault Tolerance.

Si ningún host satisface las consideraciones anteriores, el host maestro emite un evento que indica que no hay suficientes recursos para que vSphere HA inicie la máquina virtual y vuelve a intentarlo cuando las condiciones del clúster han cambiado. Por ejemplo, si no se puede acceder a la máquina virtual, el host maestro vuelve a intentarlo después de un cambio en la accesibilidad del archivo.

Límites para intentos de reinicio de la máquina virtual

Si el agente maestro de vSphere HA obtiene un error al intentar reiniciar una máquina virtual, lo que implica registrarla y encenderla, este reinicio se vuelve a intentar después de una demora. vSphere HA intenta estos reinicios durante una cantidad máxima de intentos (6 de forma predeterminada), pero no todos los errores en el reinicio se cuentan para este máximo.

Por ejemplo, el motivo más probable para que se produzca un error en un intento de reinicio se debe a que la máquina virtual sigue en ejecución en otro host o a que vSphere HA también intentó reiniciar la máquina virtual poco después de que falló. En esta situación, el agente maestro retrasa el intento de reinicio en dos veces la demora impuesta después del último intento, con una demora mínima de 1 minuto y una demora máxima de 30 minutos. De esta manera, si la demora se establece en 1 minuto, hay un intento inicial en T=0, luego, se realizan intentos adicionales en T=1 (1 minuto), T=3 (3 minutos), T=7 (7 minutos), T=15 (15 minutos) y T=30 (30 minutos). Cada intento de este tipo se cuenta para el límite y solo se hacen seis intentos de forma predeterminada.

Otros errores en el reinicio dan como resultado intentos contabilizables, pero con un diferente intervalo de demora. Un escenario de ejemplo es cuando el host escogido para reiniciar la máquina virtual pierde acceso a uno de los almacenes de datos de la máquina virtual después de que el agente maestro hizo la elección. En este caso, el reintento se hace después de una demora predeterminada de dos minutos. Este intento también se contabiliza para el límite.

Finalmente, algunos intentos no se cuentan. Por ejemplo, si el host en el cual se iba a reiniciar la máquina virtual genera errores antes de que el agente maestro emita la solicitud de reinicio, el reintento se hace después de dos minutos, pero este error no se contabiliza para la cantidad máxima de intentos.

Notificaciones de reinicio de máquina virtual

vSphere HA genera un evento del clúster cuando hay en curso una operación de conmutación por error para máquinas virtuales en el clúster. El evento también muestra un problema de configuración en la pestaña Cluster Summary (Resumen del clúster) que indica el número de máquinas virtuales que se van a reiniciar. Existen cuatro categorías diferentes de dichas máquinas virtuales.

  • Máquinas virtuales que se colocarán: vSphere HA se encuentra en proceso de intentar reiniciar estas máquinas virtuales.

  • Máquinas virtuales en espera de reinicio: se produjo un error en un intento de reinicio anterior y vSphere HA aguarda que caduque un tiempo de espera antes de volver a intentarlo.

  • Máquinas virtuales que requieren recursos adicionales: no hay recursos suficientes disponibles para reiniciar estas máquinas virtuales. vSphere HA reintenta cuando hay disponibles más recursos, por ejemplo, que un host vuelva a estar en línea.

  • Máquinas virtuales de Virtual SAN inaccesibles: vSphere HA no puede reiniciar estas máquinas virtuales de Virtual SAN, ya que no están accesibles. Lo reintenta cuando cambia la accesibilidad.

Estos conteos de máquinas virtuales se actualizan de forma dinámica cuando se observa un cambio en la cantidad de máquina virtual para las cuales hay en curso una operación de reinicio. El problema de configuración se borra cuando vSphere HA ha reiniciado todas las máquinas virtuales o ha dejado de intentarlo.

En vSphere 5.5 o versiones anteriores, se activa un evento por máquina virtual para un intento incorrecto de reiniciar la máquina virtual. Este evento se deshabilita de forma predeterminada en vSphere 6.x y puede habilitarse configurando la opción avanzada de vSphere HA das.config.fdm.reportfailoverfailevent en 1.