Identificazione dei problemi di connettività dello storage di ESXi

Quando ESXi si connette a un dispositivo di storage, è possibile che si verifichi un problema di connettività. I problemi di connettività dello storage possono essere causati da vari motivi. Benché ESXi non sia sempre in grado di rilevare il motivo per cui un dispositivo o i suoi percorsi non sono disponibili, l'host può determinare se il problema è permanente o temporaneo. In altre parole, l'host può distinguere tra uno stato di Perdita permanente del dispositivo (PDL) e uno stato All Paths Down (APD) dello storage.

Perdita permanente del dispositivo (PDL): Una condizione che si verifica quando un dispositivo di storage si guasta definitivamente o viene rimosso o escluso dal punto di vista amministrativo. Non è previsto che diventi disponibile. Quando il dispositivo diventa definitivamente non disponibile, ESXi riceve i codici di rilevamento appropriati o un accesso rifiutato dagli array di storage ed è in grado di riconoscere che il dispositivo è perso in modo permanente.
All Paths Down (APD): Una condizione che si verifica quando un dispositivo di storage diventa inaccessibile per l'host e non è disponibile alcun percorso per il dispositivo. ESXi tratta questa condizione come una condizione temporanea perché in genere i problemi relativi al dispositivo sono temporanei e si prevede che il dispositivo torni disponibile.

Problemi di connettività e vSphere High Availability

Quando il dispositivo passa in stato PDL o APD, vSphere High Availability (HA) è in grado di rilevare i problemi di connettività e fornire il ripristino automatico per le macchine virtuali interessate nell'host ESXi. vSphere HA utilizza VM Component Protection (VMCP) per proteggere le macchine virtuali in esecuzione sull'host nel cluster vSphere HA dagli errori di accessibilità. Per ulteriori informazioni su VMCP e su come configurare le risposte per i datastore e le macchine virtuali quando si verifica la condizione APD o PDL, vedere la documentazione di Disponibilità di vSphere.

Rilevazione delle condizioni PDL

Un dispositivo di storage è considerato in stato PDL (Perdita permanente del dispositivo) quando diventa permanentemente non disponibile per l'host ESXi.

La condizione PDL si verifica in genere quando un dispositivo viene rimosso accidentalmente o il suo ID univoco cambia, oppure quando si verifica un errore hardware irreversibile.

Quando l'array di storage determina che il dispositivo non è disponibile in modo permanente, invia i codici di rilevamento errore SCSI o i codici di errore NVMe all'host ESXi. Dopo aver ricevuto questi errori, l'host riconosce il dispositivo come non riuscito e registra lo stato del dispositivo come PDL. Affinché il dispositivo venga considerato definitivamente perso, i codici di rilevamento devono essere ricevuti in tutti i percorsi.

Dopo la registrazione dello stato PDL del dispositivo, l'host interrompe i tentativi di ristabilire la connettività o di inviare comandi al dispositivo.

vSphere Client visualizza le seguenti informazioni per il dispositivo:

Lo stato operativo del dispositivo cambia in Lost Communication.
Tutti i percorsi vengono visualizzati come Dead.
I datastore sul dispositivo non sono disponibili.

Se non esistono connessioni aperte al dispositivo, o dopo la chiusura dell'ultima connessione, l'host rimuove il dispositivo PDL e tutti i percorsi al dispositivo. È possibile disattivare la rimozione automatica dei percorsi impostando il parametro host avanzato Disk.AutoremoveOnPDL su 0.

Se il dispositivo torna dalla condizione PDL, l'host la rileva, ma la gestisce come un nuovo dispositivo. La coerenza dei dati per le macchine virtuali sul dispositivo ripristinato non è garantita.

Nota: Quando un dispositivo va in stato di errore senza inviare codici di rilevamento SCSI o codici di errore NVMe appropriati oppure un rifiuto di accesso iSCSI, l'host non è in grado di rilevare le condizioni PDL. In questo caso, l'host continua a gestire i problemi di connettività del dispositivo come APD anche quando il dispositivo non riesce in modo permanente.

Perdita permanente del dispositivo e codici di rilevamento SCSI

Il seguente esempio di registro VMkernel di un codice di rilevamento SCSI indica che il dispositivo si trova in stato PDL.

H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0 or Logical Unit Not Supported

Perdita permanente del dispositivo e codici di errore NVMe

Il seguente esempio di codice di errore NVMe nel registro VMkernel indica che lo stato del dispositivo è PDL.

H:0x0 D:0xb P:0x0 or H:0x0 D:0x11a P:0x0

Perdita permanente del dispositivo e iSCSI

Su array iSCSI con un singolo LUN per destinazione, il PDL viene rilevato tramite un errore di accesso iSCSI. Un array di storage iSCSI rifiuta i tentativi dell'host di avviare una sessione iSCSI con un motivo Target Unavailable. Come con i codici di rilevamento, questa risposta deve essere ricevuta in tutti i percorsi affinché il dispositivo venga considerato definitivamente perso.

Perdita permanente di dispositivi e macchine virtuali

Dopo la registrazione dello stato PDL del dispositivo, l'host chiude tutti gli I/O dalle macchine virtuali. vSphere HA può rilevare il PDL e riavviare le macchine virtuali non riuscite.

Esecuzione della rimozione pianificata di un dispositivo di storage

Quando si verifica un malfunzionamento di un dispositivo di storage, è possibile evitare condizioni di perdita permanente del dispositivo (PDL) o di All Paths Down (APD). Eseguire una rimozione e una riconnessione pianificate di un dispositivo di storage.

La rimozione pianificata del dispositivo è una disconnessione intenzionale di un dispositivo di storage. È anche possibile pianificare la rimozione di un dispositivo per motivi quali l'aggiornamento dell'hardware o la riconfigurazione dei dispositivi di storage. Quando si esegue una rimozione e una riconnessione ordinata di un dispositivo di storage, è possibile completare diverse attività.

Attività	Descrizione
Migrare le macchine virtuali dal dispositivo che si intende scollegare.	vCenter Server e gestione degli host
Smontare il datastore distribuito sul dispositivo.	Vedere Smontaggio dei datastore.
Scollegare il dispositivo di storage.	Vedere Scollegamento dei dispositivi di storage.
Per un dispositivo iSCSI con un singolo LUN per destinazione, eliminare la voce di destinazione statica da ogni HBA iSCSI che ha un percorso verso il dispositivo di storage.	Vedere Rimozione di destinazioni iSCSI dinamiche o statiche.
Eseguire le operazioni di riconfigurazione necessarie del dispositivo di storage utilizzando la console dell'array.	Consultare la documentazione del fornitore.
Ricollegare il dispositivo di storage.	Vedere Collegamento dei dispositivi di storage.
Montare il datastore e riavviare le macchine virtuali.	Vedere Montaggio dei datastore.

Scollegamento dei dispositivi di storage

Scollegare in modo sicuro un dispositivo di storage dall'host ESXi.

Potrebbe essere necessario scollegare il dispositivo per renderlo inaccessibile all'host quando, ad esempio, si esegue un aggiornamento dell'hardware sul lato storage.

Prerequisiti

Il dispositivo non contiene alcun archivio dati.
Nessuna macchina virtuale utilizza il dispositivo come disco RDM.
Il dispositivo non contiene una partizione diagnostica o una partizione zero.

Procedura

In vSphere Client, passare all'host ESXi.
Fare clic sulla scheda Configura.
In Storage, fare clic su Dispositivi di storage.
Selezionare il dispositivo da scollegare e fare clic sull'icona Scollega.

risultati

Il dispositivo diventa inaccessibile. Lo stato operativo del dispositivo diventa Smontato.

Operazioni successive

Se più host condividono il dispositivo, scollegare il dispositivo da ciascun host.

Collegamento dei dispositivi di storage

Ricollegare un dispositivo di storage precedentemente scollegato dall'host ESXi.

Procedura

In vSphere Client, passare all'host ESXi.
Fare clic sulla scheda Configura.
In Storage, fare clic su Dispositivi di storage.
Selezionare il dispositivo di storage scollegato e fare clic sull'icona Collega.

risultati

Il dispositivo diventa accessibile.

Ripristino da condizioni PDL

Una condizione di perdita permanente del dispositivo (PDL) non pianificata si verifica quando un dispositivo di storage diventa non disponibile in modo permanente senza essere correttamente scollegato dall'host ESXi.

I seguenti elementi in vSphere Client indicano che il dispositivo si trova in stato PDL:

Il datastore distribuito sul dispositivo non è disponibile.
Lo stato operativo del dispositivo cambia in Comunicazione persa.
Tutti i percorsi vengono visualizzati come Inattivi.
Nel file di registro di VMkernel viene visualizzato un avviso relativo all'inaccessibilità permanente del dispositivo.

Per il ripristino dalla condizione PDL non pianificata e la rimozione del dispositivo non disponibile dall'host, procedere come segue.

Attività	Descrizione
Spegnere e annullare la registrazione di tutte le macchine virtuali in esecuzione nel datastore interessato dalla condizione PDL.	Vedere Amministrazione delle macchine virtuali vSphere.
Smontare il datastore.	Vedere Smontaggio dei datastore.
Ripetere la scansione di tutti gli host ESXi che avevano accesso al dispositivo. Nota: Se la nuova scansione non riesce e l'host continua a elencare il dispositivo, è possibile che siano ancora presenti alcuni riferimenti di I/O al dispositivo in sospeso o attivi. Verificare la presenza di tutti gli elementi che potrebbero avere ancora un riferimento attivo al dispositivo o al datastore. Gli elementi includono macchine virtuali, modelli, immagini ISO, mappature unità "raw" e così via.	Vedere Esecuzione di una nuova scansione dello storage.

Gestione delle condizioni APD temporanee

Un dispositivo di storage viene considerato in stato All Paths Down (APD) quando diventa non disponibile per l'host ESXi per un periodo di tempo non specificato.

I motivi di uno stato APD possono essere, ad esempio, un commutatore non riuscito o un cavo di storage disconnesso.

Al contrario dello stato PDL (Perdita permanente del dispositivo), l'host gestisce lo stato APD come temporaneo e prevede che il dispositivo sarà nuovamente disponibile.

L'host continua a ritentare i comandi emessi nel tentativo di ristabilire la connettività con il dispositivo. Se i comandi dell'host non riescono a eseguire i tentativi per un periodo prolungato, è possibile che l'host rischi di avere problemi di prestazioni. Potenzialmente, l'host e le relative macchine virtuali potrebbero non rispondere.

Per evitare questi problemi, l'host utilizza una funzionalità di gestione APD predefinita. Quando un dispositivo passa allo stato APD, l'host attiva un timer. Con il timer attivato, l'host continua a riprovare i comandi della macchina non virtuale solo per un periodo di tempo limitato.

Per impostazione predefinita, il timeout dell'APD è impostato su 140 secondi. Questo valore è in genere più lungo di quanto la maggior parte dei dispositivi richieda per il ripristino da una perdita di connessione. Se il dispositivo diventa disponibile entro questo periodo di tempo, l'host e la sua macchina virtuale continuano a funzionare senza problemi.

Se il dispositivo non viene ripristinato e il timeout termina, l'host interrompe i tentativi di esecuzione e interrompe tutti i tentativi di I/O di macchine non virtuali. L'I/O della macchina virtuale continua a riprovare. vSphere Client visualizza le seguenti informazioni per il dispositivo con il timeout dell'APD scaduto:

Lo stato operativo del dispositivo cambia in Dead or Error.
Tutti i percorsi vengono visualizzati come Dead.
I datastore sul dispositivo sono disattivati.

Anche se il dispositivo e i datastore non sono disponibili, le macchine virtuali restano in grado di rispondere. È possibile disattivare le macchine virtuali o migrarle in un datastore o un host diverso.

Se in seguito i percorsi del dispositivo diventano operativi, l'host può riprendere l'I/O nel dispositivo e terminare il trattamento APD speciale.

Disattivazione della gestione dello storage APD

La gestione dello storage All Paths Down (APD) nell'host ESXi è attivata per impostazione predefinita. Quando questa funzionalità è attivata e un dispositivo di storage passa allo stato APD, l'host continua a riprovare i comandi I/O della macchina non virtuale per un periodo di tempo limitato. Una volta scaduto il periodo di tempo, l'host interrompe i tentativi e termina tutti i tentativi di I/O di macchine non virtuali. È possibile disattivare la funzionalità di gestione di APD nell'host.

Se si disattiva la gestione di APD, l'host continuerà indefinitamente a riprovare i comandi emessi nel tentativo di riconnettersi al dispositivo APD. Questo comportamento può causare il superamento del timeout interno I/O delle macchine virtuali nell'host e l'operazione non risponde o non va a buon fine. L'host potrebbe disconnettersi da vCenter Server.

Procedura

In vSphere Client, passare all'host ESXi.
Fare clic sulla scheda Configura.
In Sistema, fare clic su Impostazioni di sistema avanzate.
Nella tabella Impostazioni di sistema avanzate, selezionare il parametro Misc.APDHandlingEnable e fare clic sull'icona Edit.
Modificare il valore in 0.

risultati

Se si disattiva la gestione di APD, è possibile riabilitarla e impostarne il valore su 1 quando un dispositivo passa in stato APD. La funzionalità di gestione di APD interna viene attivata immediatamente e il timer inizia con il valore di timeout corrente per ogni dispositivo in APD.

Modifica dei limiti di timeout per APD dello storage

Il parametro di timeout controlla il numero di secondi per cui l'host ESXi deve riprovare a eseguire i comandi I/O a un dispositivo di storage in uno stato All Paths Down (APD). È possibile modificare il valore di timeout predefinito.

Il periodo di timeout inizia immediatamente dopo che il dispositivo entra nello stato APD. Al termine del timeout, l'host contrassegna il dispositivo APD come irraggiungibile. L'host interrompe i tentativi di riprovare I/O non provenienti da macchine virtuali. L'host continua a riprovare l'I/O della macchina virtuale.

Per impostazione predefinita, il parametro di timeout nell'host è impostato su 140 secondi. È possibile aumentare il valore del timeout se, ad esempio, i dispositivi di storage connessi all'host ESXi richiedono più di 140 secondi per il ripristino da una perdita di connessione.

Nota: Se si modifica il parametro di timeout dopo che il dispositivo diventa non disponibile, la modifica non viene applicata a tale evento imprevisto APD specifico.

Procedura

In vSphere Client, passare all'host ESXi.
Fare clic sulla scheda Configura.
In Sistema, fare clic su Impostazioni di sistema avanzate.
Nella tabella Impostazioni di sistema avanzate, selezionare il parametro Misc.APDTimeout e fare clic sull'icona Edit.
Modificare il valore predefinito.
È possibile immettere un valore compreso tra 20 e 99999 secondi.

Verifica dello stato della connessione di un dispositivo di storage sull'host ESXi

Utilizzare il comando esxcli per verificare lo stato della connessione di un particolare dispositivo di storage.

Prerequisiti

Installare ESXCLI. Vedere Guida introduttiva a ESXCLI. Per la risoluzione dei problemi, eseguire i comandi esxcli in ESXi Shell.

Procedura

Eseguire il comando esxcli storage core device list -d=device_ID.
Rivedere lo stato della connessione nell'area Status:.
- on: il dispositivo è connesso.
- dead: il dispositivo è passato allo stato APD. Il timer APD si avvia.
- dead timeout: il timeout di APD è scaduto.
- not connected: il dispositivo è nello stato PDL.