Identificar problemas de conectividad del almacenamiento ESXi

Cuando ESXi se conecta a un dispositivo de almacenamiento, es posible que experimente un problema de conectividad. Los problemas de conectividad del almacenamiento pueden deberse a varios motivos. Aunque ESXi no siempre puede detectar el motivo por el que un dispositivo o sus rutas de acceso no están disponibles, el host puede determinar si el problema es permanente o temporal. En otras palabras, el host puede diferenciar entre un estado de pérdida de dispositivo permanente (Permanent Device Loss, PDL) del dispositivo y un estado transitorio de todas las rutas desactivadas (All Paths Down, APD) del almacenamiento.

pérdida permanente del dispositivo (Permanent Device Loss, PDL): Una condición que se produce cuando un dispositivo de almacenamiento tiene errores permanentes o se elimina o excluye administrativamente. No se espera que vuelva a estar disponible. Cuando el dispositivo está permanentemente no disponible, ESXi recibe los códigos de detección apropiados o un rechazo de inicio de sesión por parte de las matrices de almacenamiento, y puede reconocer que el dispositivo se perdió de manera permanente.
Todas las rutas de acceso inactivas (All Paths Down, APD): Una condición que se produce cuando un dispositivo de almacenamiento es inaccesible para el host y ninguna de las rutas de acceso al dispositivo está disponible. ESXi trata esto como una condición transitoria, ya que generalmente los problemas del dispositivo son temporales, y se espera que vuelva a estar disponible.

Problemas de conectividad y vSphere High Availability

Cuando el dispositivo entra en el estado PDL o APD, vSphere High Availability (HA) puede detectar problemas de conectividad y proporcionar una recuperación automatizada de las máquinas virtuales afectadas en el host ESXi. vSphere HA utiliza Protección de componentes de la máquina virtual (VM Component Protection, VMCP) para proteger las máquinas virtuales que se ejecutan en el host en el clúster de vSphere HA de errores de accesibilidad. Para obtener más información sobre VMCP y cómo configurar respuestas para los almacenes de datos y las máquinas virtuales cuando ocurre la condición de APD o PDL, consulte la documentación de Disponibilidad de vSphere.

Detectar condiciones de PDL

Se considera que un dispositivo de almacenamiento está en estado de pérdida permanente de dispositivo (Permanent Device Loss, PDL) cuando se vuelve no disponible de manera permanente para el host ESXi.

Por lo general, la condición de PDL se produce cuando un dispositivo se elimina sin intención o su identificador único cambia, o cuando el dispositivo tiene un error de hardware irrecuperable.

Cuando la matriz de almacenamiento determina que un dispositivo no está disponible de manera permanente, envía códigos de detección de errores SCSI o códigos de error NVMe al host ESXi. Después de recibir estos errores, el host reconoce que se han producido errores en el dispositivo y registra el estado del dispositivo como PDL. Para que el dispositivo se considere perdido de manera permanente, los códigos de detección se deben recibir en todas sus rutas.

Después de registrar el estado PDL del dispositivo, el host interrumpe los intentos que realiza para restablecer la conectividad o para enviar comandos al dispositivo.

vSphere Client muestra la siguiente información acerca del dispositivo:

El estado operativo del dispositivo cambia a Lost Communication.
Todas las rutas de acceso se muestran como Dead.
Los almacenes de datos en el dispositivo no están disponibles.

Si no hay conexiones abiertas en el dispositivo o se cierran tras la última conexión, el host quita el dispositivo PDL y todas las rutas de acceso al dispositivo. Para desactivar la eliminación automática de rutas de acceso, establezca el parámetro avanzado Disk.AutoremoveOnPDL del host en 0.

Si el dispositivo regresa de la condición de PDL, el host puede detectarlo, pero lo trata como un dispositivo nuevo. No se garantiza la consistencia de los datos para las máquinas virtuales en el dispositivo recuperado.

Nota: Cuando un dispositivo falla sin enviar los códigos de detección SCSI o los códigos de error NVMe apropiados, o bien un rechazo de inicio de sesión de iSCSI, el host no puede detectar las condiciones de PDL. En este caso, el host sigue tratando los problemas de conectividad del dispositivo como APD, incluso cuando los errores se producen de forma permanente en el dispositivo.

Pérdida permanente de dispositivo y códigos de detección SCSI

El siguiente ejemplo de código de detección SCSI de un registro del VMkernel indica que el dispositivo está en estado PDL.

H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0 or Logical Unit Not Supported

Pérdida permanente de dispositivo y códigos de error NVMe

El siguiente ejemplo de registro del VMkernel de un código de error NVMe indica que el dispositivo está en estado PDL.

H:0x0 D:0xb P:0x0 or H:0x0 D:0x11a P:0x0

Pérdida permanente de dispositivo e iSCSI

En las matrices iSCSI con un solo LUN por destino, PDL se detecta a través de un error en el inicio de sesión iSCSI. Una matriz de almacenamiento iSCSI rechaza el intento del host de iniciar una sesión iSCSI con el motivo Target Unavailable (Destino no disponible). Como sucede con los códigos de detección, esta respuesta debe recibirse en todas las rutas de acceso para que el dispositivo se considere perdido de manera permanente.

Pérdida permanente de dispositivo y máquinas virtuales

Después de registrar el estado PDL del dispositivo, el host cierra todas las operaciones de E/S de las máquinas virtuales. vSphere HA puede detectar el estado PDL y reiniciar las máquinas virtuales que tengan errores.

Eliminar dispositivo de almacenamiento planificada

Cuando un dispositivo de almacenamiento funciona mal, puede evitar la condición de pérdida de dispositivo permanente (Permanent Device Loss, PDL) o todas las rutas de acceso inactivas (All Paths Down, APD). Quite y vuelva a conectar de forma planificada el dispositivo de almacenamiento.

La eliminación del dispositivo planificada es una desconexión intencional de un dispositivo de almacenamiento. También es posible que planifique quitar un dispositivo por motivos como la actualización de hardware o la reconfiguración de los dispositivos de almacenamiento. Cuando se realiza una eliminación y reconexión ordenada de un dispositivo de almacenamiento, se completan varias tareas.

Tarea	Descripción
Migre las máquinas virtuales del dispositivo que planifica separar.	Administrar vCenter Server y hosts
Desmonte el almacén de datos implementado en el dispositivo.	Consulte Desmontar almacenes de datos.
Separe el dispositivo de almacenamiento.	Consulte Separar dispositivos de almacenamiento.
En el caso de un dispositivo iSCSI con un solo LUN por destino, elimine la entrada de destino estático de cada HBA de iSCSI que tenga una ruta de acceso al dispositivo de almacenamiento.	Consulte Quitar destinos iSCSI dinámicos o estáticos.
Realice cualquier reconfiguración necesaria del dispositivo de almacenamiento con la consola matriz.	Consulte la documentación del proveedor.
Vuelva a conectar el dispositivo de almacenamiento.	Consulte Asociar dispositivos de almacenamiento.
Monte el almacén de datos y reinicie las máquinas virtuales.	Consulte Montar almacenes de datos.

Separar dispositivos de almacenamiento

Desconecte de forma segura un dispositivo de almacenamiento del host ESXi.

Es posible que se deba desconectar el dispositivo para que el host no pueda acceder cuando, por ejemplo, se realice una actualización de hardware del lado del almacenamiento.

Requisitos previos

El dispositivo no contiene ningún almacén de datos.
Ninguna máquina virtual usa el dispositivo como disco RDM.
El dispositivo no contiene una partición de diagnóstico o una partición desde cero.

Procedimiento

En vSphere Client, desplácese hasta el host ESXi.
Haga clic en la pestaña Configurar.
En Almacenamiento, haga clic en Dispositivos de almacenamiento.
Seleccione el dispositivo que desea desconectar y haga clic en el icono Desconectar.

Resultados

El dispositivo deja de ser accesible. El estado operativo del dispositivo cambia a Desmontado.

Qué hacer a continuación

Si varios hosts comparten el dispositivo, desconecte el dispositivo de cada host.

Asociar dispositivos de almacenamiento

Vuelva a asociar un dispositivo de almacenamiento que desasoció anteriormente del host ESXi.

Procedimiento

En vSphere Client, desplácese hasta el host ESXi.
Haga clic en la pestaña Configurar.
En Almacenamiento, haga clic en Dispositivos de almacenamiento.
Seleccione el dispositivo de almacenamiento desconectado y haga clic en el icono Conectar.

Resultados

El dispositivo vuelve a ser accesible.

Recuperación de condiciones de PDL

Una condición de pérdida permanente de dispositivo (Permanent Device Loss, PDL) no planificada ocurre cuando un dispositivo de almacenamiento deja de estar disponible permanentemente sin desconectarlo adecuadamente del host ESXi.

Los elementos siguientes en vSphere Client indican que el dispositivo está en estado de PDL:

El almacén de datos implementado en el dispositivo no está disponible.
El estado operativo del dispositivo cambia a Comunicación perdida.
Todas las rutas de acceso aparecen como Inactivas.
En el archivo de registro VMkernel aparece una advertencia acerca de que el dispositivo se encuentra inaccesible permanentemente.

Para recuperarse de la condición de PDL no planificada y quitar el dispositivo no disponible del host, realice las siguientes tareas.

Tarea	Descripción
Apague y cancele el registro de todas las máquinas virtuales que están en ejecución en los almacenes de datos afectados por la condición de PDL.	Consulte Administrar máquinas virtuales de vSphere.
Desmonte el almacén de datos.	Consulte Desmontar almacenes de datos.
Vuelva a examinar todos los hosts ESXi que tenían acceso al dispositivo. Nota: Si el proceso de volver a examinar no se completa correctamente y el host sigue mostrando el dispositivo, es posible que aún existan algunas operaciones de E/S pendientes o referencias activas al dispositivo. Busque elementos que aún puedan tener referencias activas al dispositivo o al almacén de datos. Los elementos incluyen las máquinas virtuales, las plantillas, las imágenes ISO, las asignaciones de dispositivos sin formato, etc.	Consulte Realizar la operación para volver a examinar el almacenamiento.

Manejar condiciones de APD transitorias

Se considera que un dispositivo de almacenamiento se encuentra en el estado con todas las rutas de acceso inactivas (All Paths Down, APD) cuando no está disponible para el host ESXi durante un período de tiempo indeterminado.

Los motivos de un estado APD pueden ser, por ejemplo, un conmutador con errores o un cable de almacenamiento desconectado.

A diferencia del estado de pérdida de dispositivo permanente (Permanent Device Loss, PDL), el host considera que el estado APD es transitorio y espera que el dispositivo esté nuevamente disponible.

El host vuelve a intentar los comandos emitidos con el fin de restablecer la conectividad con el dispositivo. Si los comandos del host siguen intentándolo sin éxito durante un período de tiempo prolongado, el host podría sufrir otros problemas de rendimiento. En ese caso el host y sus máquinas virtuales también podrían dejar de responder.

Para evitar estos problemas, el host utiliza la característica de manejo de APD predeterminada. Cuando un dispositivo entra en estado APD, el host se convierte en un temporizador. Con el temporizador activado, el host sigue reintentando los comandos que no son de máquina virtual solo durante un período de tiempo limitado.

De forma predeterminada, el tiempo de espera de APD se establece en 140 segundos. Este valor es, por lo general, superior al que necesita la mayoría de los dispositivos para recuperarse ante una pérdida de conexión. Si el dispositivo vuelve a estar disponible en este lapso, el host y su máquina virtual seguirán ejecutándose sin experimentar ningún problema.

Si el dispositivo no se recupera y se cumple el tiempo de espera, el host detiene sus intentos y todas las E/S de máquinas no virtuales. Las E/S de máquinas virtuales seguirán reintentándose. vSphere Client muestra la siguiente información del dispositivo con el tiempo de espera de APD cumplido:

El estado operativo del dispositivo cambia a Dead or Error.
Todas las rutas de acceso se muestran como Dead.
Los almacenes de datos en el dispositivo se atenúan.

Aunque el dispositivo y los almacenes de datos no están disponibles, las máquinas virtuales siguen respondiendo. Puede apagar las máquinas virtuales o migrarlas a otro almacén de datos o host.

Si las rutas del dispositivo vuelven a funcionar más adelante, el host puede reanudar las E/S hacia el dispositivo y terminar el tratamiento especial de APD.

Desactivar el manejo de APD de almacenamiento

El manejo de todas las rutas de acceso inactivas (All Paths Down, APD) de almacenamiento en el host ESXi está activado de manera predeterminada. Cuando se activa esta funcionalidad y un dispositivo de almacenamiento entra en estado APD, el host sigue reintentando los comandos de E/S de máquinas no virtuales solo durante un período de tiempo limitado. Cuando caduca este período, el host interrumpe los reintentos y finaliza todas las operaciones de E/S de las máquinas no virtuales. Es posible desactivar la característica de manejo de APD en el host.

Si se desactiva el manejo de APD, el host continúa reintentando la ejecución de los comandos emitidos indefinidamente, con la intención de volver a conectarse con el dispositivo APD. Esto puede causar que las máquinas virtuales en el host superen su tiempo de espera de E/S interno y dejen de responder o generen errores. El host podría desconectarse de vCenter Server.

Procedimiento

En vSphere Client, desplácese hasta el host ESXi.
Haga clic en la pestaña Configurar.
En Sistema, haga clic en Configuración avanzada del sistema.
En la tabla Configuración avanzada del sistema, seleccione el parámetro Misc.APDHandlingEnable y haga clic en el icono Edit.
Cambie el valor a 0.

Resultados

Si desactivó el manejo de APD, puede reactivarlo y establecer su valor en 1 cuando un dispositivo entre al estado APD. La característica de manejo de APD interna se activa inmediatamente, y el temporizador se inicia con el valor de tiempo de espera actual para cada dispositivo en APD.

Cambiar los límites de tiempo de espera para APD de almacenamiento

El parámetro de tiempo de espera controla durante cuántos segundos el host ESXi debe reintentar los comandos de E/S en un dispositivo de almacenamiento que se encuentra en el estado APD, con todas las rutas de acceso inactivas. Puede cambiar el valor de tiempo de espera predeterminado.

El período de tiempo de espera se inicia inmediatamente después de que el dispositivo entra en el estado APD. Una vez finalizado el tiempo de espera, el host marca el dispositivo en estado APD como inaccesible. El host deja de reintentar cualquier E/S que no provenga de las máquinas virtuales. El host sigue intentando la E/S de la máquina virtual.

De manera predeterminada, el parámetro de tiempo de espera en el host se establece en 140 segundos. Puede aumentar el valor del tiempo de espera si, por ejemplo, los dispositivos de almacenamiento conectados al host ESXi tardan más de 140 segundos en recuperarse de una pérdida de conexión.

Nota: Si cambia el parámetro de tiempo de espera después de que el dispositivo deja de estar disponible, el cambio no tiene efecto para ese incidente de APD en particular.

Procedimiento

En vSphere Client, desplácese hasta el host ESXi.
Haga clic en la pestaña Configurar.
En Sistema, haga clic en Configuración avanzada del sistema.
En la tabla Configuración avanzada del sistema, seleccione el parámetro Misc.APDTimeout y haga clic en el icono Edit.
Cambie el valor predeterminado.
Puede introducir un valor entre 20 y 99999 segundos.

Comprobar el estado de conexión de un dispositivo de almacenamiento en el host ESXi

Use el comando esxcli para comprobar el estado de conexión de un dispositivo de almacenamiento en particular.

Requisitos previos

Instale ESXCLI. Consulte Introducción a ESXCLI. Para solucionar problemas, ejecute comandos esxcli en ESXi Shell.

Procedimiento

Ejecute el comando esxcli storage core device list -d=device_ID.
Revise el estado de la conexión en el área Status:.
- on: el dispositivo está conectado.
- dead: el dispositivo entró al estado APD. Se inicia el temporizador de APD.
- dead timeout: caducó el tiempo de espera de APD.
- not connected: el dispositivo está en estado PDL.