Tipos de error de host

El host principal de un clúster de VMware vSphere^® High Availability es el responsable de detectar el error de los hosts secundarios. Según el tipo de error detectado, es posible que las máquinas virtuales que se ejecutan en los hosts necesiten someterse a conmutación por error.

En un clúster de vSphere HA, se detectan tres tipos de errores de hosts:

Error. Un host deja de funcionar.
Aislamiento. Un host se aísla de la red.
Partición. Un host pierde conectividad de red con el host principal.

El host principal supervisa la ejecución de los hosts secundarios en el clúster. Esta comunicación ocurre a través del intercambio de latidos de la red cada segundo. Cuando el host principal deja de recibir estos latidos de un host secundario, comprueba la ejecución del host antes de declarar que este tiene errores. La comprobación de ejecución que realiza el host principal se hace para determinar si el host secundario está intercambiando latidos con uno de los almacenes de datos. Consulte Latidos del almacén de datos. Igualmente, el host principal comprueba si el host responde a los pings de ICMP enviados a sus direcciones IP de administración.

Si un host principal no puede comunicarse directamente con el agente en un host secundario, este no responde a los pings de ICMP. Si el agente no envía latidos, se considera que tiene un error. Las máquinas virtuales del host se reinician en hosts alternativos. Si ese host secundario está intercambiando latidos con un almacén de datos, el host principal supone que el host secundario está en una partición de red o está aislado de la red. Por lo tanto, el host principal sigue supervisando el host y sus máquinas virtuales. Consulte Particiones de red.

El aislamiento de la red del host se produce cuando un host sigue en ejecución, pero ya no puede observarse tráfico de los agentes de vSphere HA en la red de administración. Si un host deja de observar este tráfico, intenta hacer ping a las direcciones de aislamiento del clúster. Si también se produce un error al hacer ping, el host declara que está aislado de la red.

El host principal supervisa las máquinas virtuales que están ejecutándose en un host aislado. Si el host principal observa que las máquinas virtuales se desconectan y este es responsable por las máquinas virtuales, las reinicia.

Nota: Si se asegura de que la infraestructura de la red es lo suficientemente redundante y que hay al menos una ruta de acceso de red disponible todo el tiempo, es menos probable que se produzca un aislamiento de la red del host.

Errores de Proactive HA

Se produce un error de Proactive HA ante un error en un componente del host, lo que ocasiona una pérdida de redundancia o un error no grave. Sin embargo, esto no afecta el comportamiento funcional de las máquinas virtuales que residen en el host. Por ejemplo, si se produce un error en el suministro de energía del host, pero hay otros suministros de energía disponibles, se trata de un error de Proactive HA.

Si se produce un error de Proactive HA, puede automatizar la medida de corrección realizada en la sección Disponibilidad de vSphere de vSphere Client. Las máquinas virtuales del host afectado pueden ser evacuadas a otros hosts y el host se coloca en modo de cuarentena o en modo de mantenimiento.

Nota: El clúster debe usar vSphere DRS para que la supervisión de errores de Proactive HA funcione.