Cuando ESXi se conecta a un dispositivo de almacenamiento, es posible que experimente un problema de conectividad. Los problemas de conectividad del almacenamiento pueden deberse a varios motivos. Aunque ESXi no siempre puede detectar el motivo por el que un dispositivo o sus rutas de acceso no están disponibles, el host puede determinar si el problema es permanente o temporal. En otras palabras, el host puede diferenciar entre un estado de pérdida de dispositivo permanente (Permanent Device Loss, PDL) del dispositivo y un estado transitorio de todas las rutas desactivadas (All Paths Down, APD) del almacenamiento.
- pérdida permanente del dispositivo (Permanent Device Loss, PDL)
- Una condición que se produce cuando un dispositivo de almacenamiento tiene errores permanentes o se elimina o excluye administrativamente. No se espera que vuelva a estar disponible. Cuando el dispositivo está permanentemente no disponible, ESXi recibe los códigos de detección apropiados o un rechazo de inicio de sesión por parte de las matrices de almacenamiento, y puede reconocer que el dispositivo se perdió de manera permanente.
- Todas las rutas de acceso inactivas (All Paths Down, APD)
- Una condición que se produce cuando un dispositivo de almacenamiento es inaccesible para el host y ninguna de las rutas de acceso al dispositivo está disponible. ESXi trata esto como una condición transitoria, ya que generalmente los problemas del dispositivo son temporales, y se espera que vuelva a estar disponible.
Problemas de conectividad y vSphere High Availability
Cuando el dispositivo entra en el estado PDL o APD, vSphere High Availability (HA) puede detectar problemas de conectividad y proporcionar una recuperación automatizada de las máquinas virtuales afectadas en el host ESXi. vSphere HA utiliza Protección de componentes de la máquina virtual (VM Component Protection, VMCP) para proteger las máquinas virtuales que se ejecutan en el host en el clúster de vSphere HA de errores de accesibilidad. Para obtener más información sobre VMCP y cómo configurar respuestas para los almacenes de datos y las máquinas virtuales cuando ocurre la condición de APD o PDL, consulte la documentación de Disponibilidad de vSphere.
Detectar condiciones de PDL
Se considera que un dispositivo de almacenamiento está en estado de pérdida permanente de dispositivo (Permanent Device Loss, PDL) cuando se vuelve no disponible de manera permanente para el host ESXi.
Por lo general, la condición de PDL se produce cuando un dispositivo se elimina sin intención o su identificador único cambia, o cuando el dispositivo tiene un error de hardware irrecuperable.
Cuando la matriz de almacenamiento determina que un dispositivo no está disponible de manera permanente, envía códigos de detección de errores SCSI o códigos de error NVMe al host ESXi. Después de recibir estos errores, el host reconoce que se han producido errores en el dispositivo y registra el estado del dispositivo como PDL. Para que el dispositivo se considere perdido de manera permanente, los códigos de detección se deben recibir en todas sus rutas.
Después de registrar el estado PDL del dispositivo, el host interrumpe los intentos que realiza para restablecer la conectividad o para enviar comandos al dispositivo.
- El estado operativo del dispositivo cambia a Lost Communication.
- Todas las rutas de acceso se muestran como Dead.
- Los almacenes de datos en el dispositivo no están disponibles.
Si no hay conexiones abiertas en el dispositivo o se cierran tras la última conexión, el host quita el dispositivo PDL y todas las rutas de acceso al dispositivo. Para desactivar la eliminación automática de rutas de acceso, establezca el parámetro avanzado Disk.AutoremoveOnPDL del host en 0.
Si el dispositivo regresa de la condición de PDL, el host puede detectarlo, pero lo trata como un dispositivo nuevo. No se garantiza la consistencia de los datos para las máquinas virtuales en el dispositivo recuperado.
Pérdida permanente de dispositivo y códigos de detección SCSI
H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0 or Logical Unit Not Supported
Pérdida permanente de dispositivo y códigos de error NVMe
H:0x0 D:0xb P:0x0 or H:0x0 D:0x11a P:0x0
Pérdida permanente de dispositivo e iSCSI
En las matrices iSCSI con un solo LUN por destino, PDL se detecta a través de un error en el inicio de sesión iSCSI. Una matriz de almacenamiento iSCSI rechaza el intento del host de iniciar una sesión iSCSI con el motivo Target Unavailable (Destino no disponible). Como sucede con los códigos de detección, esta respuesta debe recibirse en todas las rutas de acceso para que el dispositivo se considere perdido de manera permanente.
Pérdida permanente de dispositivo y máquinas virtuales
Después de registrar el estado PDL del dispositivo, el host cierra todas las operaciones de E/S de las máquinas virtuales. vSphere HA puede detectar el estado PDL y reiniciar las máquinas virtuales que tengan errores.
Eliminar dispositivo de almacenamiento planificada
Cuando un dispositivo de almacenamiento funciona mal, puede evitar la condición de pérdida de dispositivo permanente (Permanent Device Loss, PDL) o todas las rutas de acceso inactivas (All Paths Down, APD). Quite y vuelva a conectar de forma planificada el dispositivo de almacenamiento.
La eliminación del dispositivo planificada es una desconexión intencional de un dispositivo de almacenamiento. También es posible que planifique quitar un dispositivo por motivos como la actualización de hardware o la reconfiguración de los dispositivos de almacenamiento. Cuando se realiza una eliminación y reconexión ordenada de un dispositivo de almacenamiento, se completan varias tareas.
Tarea | Descripción |
---|---|
Migre las máquinas virtuales del dispositivo que planifica separar. | Administrar vCenter Server y hosts |
Desmonte el almacén de datos implementado en el dispositivo. | Consulte Desmontar almacenes de datos. |
Separe el dispositivo de almacenamiento. | Consulte Separar dispositivos de almacenamiento. |
En el caso de un dispositivo iSCSI con un solo LUN por destino, elimine la entrada de destino estático de cada HBA de iSCSI que tenga una ruta de acceso al dispositivo de almacenamiento. | Consulte Quitar destinos iSCSI dinámicos o estáticos. |
Realice cualquier reconfiguración necesaria del dispositivo de almacenamiento con la consola matriz. | Consulte la documentación del proveedor. |
Vuelva a conectar el dispositivo de almacenamiento. | Consulte Asociar dispositivos de almacenamiento. |
Monte el almacén de datos y reinicie las máquinas virtuales. | Consulte Montar almacenes de datos. |
Separar dispositivos de almacenamiento
Desconecte de forma segura un dispositivo de almacenamiento del host ESXi.
Es posible que se deba desconectar el dispositivo para que el host no pueda acceder cuando, por ejemplo, se realice una actualización de hardware del lado del almacenamiento.
Requisitos previos
- El dispositivo no contiene ningún almacén de datos.
- Ninguna máquina virtual usa el dispositivo como disco RDM.
- El dispositivo no contiene una partición de diagnóstico o una partición desde cero.
Procedimiento
- En vSphere Client, desplácese hasta el host ESXi.
- Haga clic en la pestaña Configurar.
- En Almacenamiento, haga clic en Dispositivos de almacenamiento.
- Seleccione el dispositivo que desea desconectar y haga clic en el icono Desconectar.
Resultados
El dispositivo deja de ser accesible. El estado operativo del dispositivo cambia a Desmontado.
Qué hacer a continuación
Si varios hosts comparten el dispositivo, desconecte el dispositivo de cada host.
Asociar dispositivos de almacenamiento
Vuelva a asociar un dispositivo de almacenamiento que desasoció anteriormente del host ESXi.
Procedimiento
- En vSphere Client, desplácese hasta el host ESXi.
- Haga clic en la pestaña Configurar.
- En Almacenamiento, haga clic en Dispositivos de almacenamiento.
- Seleccione el dispositivo de almacenamiento desconectado y haga clic en el icono Conectar.
Resultados
El dispositivo vuelve a ser accesible.
Recuperación de condiciones de PDL
Una condición de pérdida permanente de dispositivo (Permanent Device Loss, PDL) no planificada ocurre cuando un dispositivo de almacenamiento deja de estar disponible permanentemente sin desconectarlo adecuadamente del host ESXi.
- El almacén de datos implementado en el dispositivo no está disponible.
- El estado operativo del dispositivo cambia a Comunicación perdida.
- Todas las rutas de acceso aparecen como Inactivas.
- En el archivo de registro VMkernel aparece una advertencia acerca de que el dispositivo se encuentra inaccesible permanentemente.
Para recuperarse de la condición de PDL no planificada y quitar el dispositivo no disponible del host, realice las siguientes tareas.
Tarea | Descripción |
---|---|
Apague y cancele el registro de todas las máquinas virtuales que están en ejecución en los almacenes de datos afectados por la condición de PDL. | Consulte Administrar máquinas virtuales de vSphere. |
Desmonte el almacén de datos. | Consulte Desmontar almacenes de datos. |
Vuelva a examinar todos los hosts ESXi que tenían acceso al dispositivo.
Nota: Si el proceso de volver a examinar no se completa correctamente y el host sigue mostrando el dispositivo, es posible que aún existan algunas operaciones de E/S pendientes o referencias activas al dispositivo. Busque elementos que aún puedan tener referencias activas al dispositivo o al almacén de datos. Los elementos incluyen las máquinas virtuales, las plantillas, las imágenes ISO, las asignaciones de dispositivos sin formato, etc.
|
Consulte Realizar la operación para volver a examinar el almacenamiento. |
Manejar condiciones de APD transitorias
Se considera que un dispositivo de almacenamiento se encuentra en el estado con todas las rutas de acceso inactivas (All Paths Down, APD) cuando no está disponible para el host ESXi durante un período de tiempo indeterminado.
Los motivos de un estado APD pueden ser, por ejemplo, un conmutador con errores o un cable de almacenamiento desconectado.
A diferencia del estado de pérdida de dispositivo permanente (Permanent Device Loss, PDL), el host considera que el estado APD es transitorio y espera que el dispositivo esté nuevamente disponible.
El host vuelve a intentar los comandos emitidos con el fin de restablecer la conectividad con el dispositivo. Si los comandos del host siguen intentándolo sin éxito durante un período de tiempo prolongado, el host podría sufrir otros problemas de rendimiento. En ese caso el host y sus máquinas virtuales también podrían dejar de responder.
Para evitar estos problemas, el host utiliza la característica de manejo de APD predeterminada. Cuando un dispositivo entra en estado APD, el host se convierte en un temporizador. Con el temporizador activado, el host sigue reintentando los comandos que no son de máquina virtual solo durante un período de tiempo limitado.
De forma predeterminada, el tiempo de espera de APD se establece en 140 segundos. Este valor es, por lo general, superior al que necesita la mayoría de los dispositivos para recuperarse ante una pérdida de conexión. Si el dispositivo vuelve a estar disponible en este lapso, el host y su máquina virtual seguirán ejecutándose sin experimentar ningún problema.
- El estado operativo del dispositivo cambia a Dead or Error.
- Todas las rutas de acceso se muestran como Dead.
- Los almacenes de datos en el dispositivo se atenúan.
Aunque el dispositivo y los almacenes de datos no están disponibles, las máquinas virtuales siguen respondiendo. Puede apagar las máquinas virtuales o migrarlas a otro almacén de datos o host.
Si las rutas del dispositivo vuelven a funcionar más adelante, el host puede reanudar las E/S hacia el dispositivo y terminar el tratamiento especial de APD.
Desactivar el manejo de APD de almacenamiento
El manejo de todas las rutas de acceso inactivas (All Paths Down, APD) de almacenamiento en el host ESXi está activado de manera predeterminada. Cuando se activa esta funcionalidad y un dispositivo de almacenamiento entra en estado APD, el host sigue reintentando los comandos de E/S de máquinas no virtuales solo durante un período de tiempo limitado. Cuando caduca este período, el host interrumpe los reintentos y finaliza todas las operaciones de E/S de las máquinas no virtuales. Es posible desactivar la característica de manejo de APD en el host.
Procedimiento
- En vSphere Client, desplácese hasta el host ESXi.
- Haga clic en la pestaña Configurar.
- En Sistema, haga clic en Configuración avanzada del sistema.
- En la tabla Configuración avanzada del sistema, seleccione el parámetro Misc.APDHandlingEnable y haga clic en el icono Edit.
- Cambie el valor a 0.
Resultados
Cambiar los límites de tiempo de espera para APD de almacenamiento
El parámetro de tiempo de espera controla durante cuántos segundos el host ESXi debe reintentar los comandos de E/S en un dispositivo de almacenamiento que se encuentra en el estado APD, con todas las rutas de acceso inactivas. Puede cambiar el valor de tiempo de espera predeterminado.
De manera predeterminada, el parámetro de tiempo de espera en el host se establece en 140 segundos. Puede aumentar el valor del tiempo de espera si, por ejemplo, los dispositivos de almacenamiento conectados al host ESXi tardan más de 140 segundos en recuperarse de una pérdida de conexión.
Procedimiento
Comprobar el estado de conexión de un dispositivo de almacenamiento en el host ESXi
Use el comando esxcli para comprobar el estado de conexión de un dispositivo de almacenamiento en particular.
Requisitos previos
Instale ESXCLI. Consulte Introducción a ESXCLI. Para solucionar problemas, ejecute comandos esxcli en ESXi Shell.