Quando ESXi si connette a un dispositivo di storage, è possibile che si verifichi un problema di connettività. I problemi di connettività dello storage possono essere causati da vari motivi. Benché ESXi non sia sempre in grado di rilevare il motivo per cui un dispositivo o i suoi percorsi non sono disponibili, l'host può determinare se il problema è permanente o temporaneo. In altre parole, l'host può distinguere tra uno stato di Perdita permanente del dispositivo (PDL) e uno stato All Paths Down (APD) dello storage.
- Perdita permanente del dispositivo (PDL)
- Una condizione che si verifica quando un dispositivo di storage si guasta definitivamente o viene rimosso o escluso dal punto di vista amministrativo. Non è previsto che diventi disponibile. Quando il dispositivo diventa definitivamente non disponibile, ESXi riceve i codici di rilevamento appropriati o un accesso rifiutato dagli array di storage ed è in grado di riconoscere che il dispositivo è perso in modo permanente.
- All Paths Down (APD)
- Una condizione che si verifica quando un dispositivo di storage diventa inaccessibile per l'host e non è disponibile alcun percorso per il dispositivo. ESXi tratta questa condizione come una condizione temporanea perché in genere i problemi relativi al dispositivo sono temporanei e si prevede che il dispositivo torni disponibile.
Problemi di connettività e vSphere High Availability
Quando il dispositivo passa in stato PDL o APD, vSphere High Availability (HA) è in grado di rilevare i problemi di connettività e fornire il ripristino automatico per le macchine virtuali interessate nell'host ESXi. vSphere HA utilizza VM Component Protection (VMCP) per proteggere le macchine virtuali in esecuzione sull'host nel cluster vSphere HA dagli errori di accessibilità. Per ulteriori informazioni su VMCP e su come configurare le risposte per i datastore e le macchine virtuali quando si verifica la condizione APD o PDL, vedere la documentazione di Disponibilità di vSphere.
Rilevazione delle condizioni PDL
Un dispositivo di storage è considerato in stato PDL (Perdita permanente del dispositivo) quando diventa permanentemente non disponibile per l'host ESXi.
La condizione PDL si verifica in genere quando un dispositivo viene rimosso accidentalmente o il suo ID univoco cambia, oppure quando si verifica un errore hardware irreversibile.
Quando l'array di storage determina che il dispositivo non è disponibile in modo permanente, invia i codici di rilevamento errore SCSI o i codici di errore NVMe all'host ESXi. Dopo aver ricevuto questi errori, l'host riconosce il dispositivo come non riuscito e registra lo stato del dispositivo come PDL. Affinché il dispositivo venga considerato definitivamente perso, i codici di rilevamento devono essere ricevuti in tutti i percorsi.
Dopo la registrazione dello stato PDL del dispositivo, l'host interrompe i tentativi di ristabilire la connettività o di inviare comandi al dispositivo.
- Lo stato operativo del dispositivo cambia in Lost Communication.
- Tutti i percorsi vengono visualizzati come Dead.
- I datastore sul dispositivo non sono disponibili.
Se non esistono connessioni aperte al dispositivo, o dopo la chiusura dell'ultima connessione, l'host rimuove il dispositivo PDL e tutti i percorsi al dispositivo. È possibile disattivare la rimozione automatica dei percorsi impostando il parametro host avanzato Disk.AutoremoveOnPDL su 0.
Se il dispositivo torna dalla condizione PDL, l'host la rileva, ma la gestisce come un nuovo dispositivo. La coerenza dei dati per le macchine virtuali sul dispositivo ripristinato non è garantita.
Perdita permanente del dispositivo e codici di rilevamento SCSI
H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0 or Logical Unit Not Supported
Perdita permanente del dispositivo e codici di errore NVMe
H:0x0 D:0xb P:0x0 or H:0x0 D:0x11a P:0x0
Perdita permanente del dispositivo e iSCSI
Su array iSCSI con un singolo LUN per destinazione, il PDL viene rilevato tramite un errore di accesso iSCSI. Un array di storage iSCSI rifiuta i tentativi dell'host di avviare una sessione iSCSI con un motivo Target Unavailable. Come con i codici di rilevamento, questa risposta deve essere ricevuta in tutti i percorsi affinché il dispositivo venga considerato definitivamente perso.
Perdita permanente di dispositivi e macchine virtuali
Dopo la registrazione dello stato PDL del dispositivo, l'host chiude tutti gli I/O dalle macchine virtuali. vSphere HA può rilevare il PDL e riavviare le macchine virtuali non riuscite.
Esecuzione della rimozione pianificata di un dispositivo di storage
Quando si verifica un malfunzionamento di un dispositivo di storage, è possibile evitare condizioni di perdita permanente del dispositivo (PDL) o di All Paths Down (APD). Eseguire una rimozione e una riconnessione pianificate di un dispositivo di storage.
La rimozione pianificata del dispositivo è una disconnessione intenzionale di un dispositivo di storage. È anche possibile pianificare la rimozione di un dispositivo per motivi quali l'aggiornamento dell'hardware o la riconfigurazione dei dispositivi di storage. Quando si esegue una rimozione e una riconnessione ordinata di un dispositivo di storage, è possibile completare diverse attività.
Attività | Descrizione |
---|---|
Migrare le macchine virtuali dal dispositivo che si intende scollegare. | vCenter Server e gestione degli host |
Smontare il datastore distribuito sul dispositivo. | Vedere Smontaggio dei datastore. |
Scollegare il dispositivo di storage. | Vedere Scollegamento dei dispositivi di storage. |
Per un dispositivo iSCSI con un singolo LUN per destinazione, eliminare la voce di destinazione statica da ogni HBA iSCSI che ha un percorso verso il dispositivo di storage. | Vedere Rimozione di destinazioni iSCSI dinamiche o statiche. |
Eseguire le operazioni di riconfigurazione necessarie del dispositivo di storage utilizzando la console dell'array. | Consultare la documentazione del fornitore. |
Ricollegare il dispositivo di storage. | Vedere Collegamento dei dispositivi di storage. |
Montare il datastore e riavviare le macchine virtuali. | Vedere Montaggio dei datastore. |
Scollegamento dei dispositivi di storage
Scollegare in modo sicuro un dispositivo di storage dall'host ESXi.
Potrebbe essere necessario scollegare il dispositivo per renderlo inaccessibile all'host quando, ad esempio, si esegue un aggiornamento dell'hardware sul lato storage.
Prerequisiti
- Il dispositivo non contiene alcun archivio dati.
- Nessuna macchina virtuale utilizza il dispositivo come disco RDM.
- Il dispositivo non contiene una partizione diagnostica o una partizione zero.
Procedura
- In vSphere Client, passare all'host ESXi.
- Fare clic sulla scheda Configura.
- In Storage, fare clic su Dispositivi di storage.
- Selezionare il dispositivo da scollegare e fare clic sull'icona Scollega.
risultati
Il dispositivo diventa inaccessibile. Lo stato operativo del dispositivo diventa Smontato.
Operazioni successive
Se più host condividono il dispositivo, scollegare il dispositivo da ciascun host.
Collegamento dei dispositivi di storage
Ricollegare un dispositivo di storage precedentemente scollegato dall'host ESXi.
Procedura
- In vSphere Client, passare all'host ESXi.
- Fare clic sulla scheda Configura.
- In Storage, fare clic su Dispositivi di storage.
- Selezionare il dispositivo di storage scollegato e fare clic sull'icona Collega.
risultati
Il dispositivo diventa accessibile.
Ripristino da condizioni PDL
Una condizione di perdita permanente del dispositivo (PDL) non pianificata si verifica quando un dispositivo di storage diventa non disponibile in modo permanente senza essere correttamente scollegato dall'host ESXi.
- Il datastore distribuito sul dispositivo non è disponibile.
- Lo stato operativo del dispositivo cambia in Comunicazione persa.
- Tutti i percorsi vengono visualizzati come Inattivi.
- Nel file di registro di VMkernel viene visualizzato un avviso relativo all'inaccessibilità permanente del dispositivo.
Per il ripristino dalla condizione PDL non pianificata e la rimozione del dispositivo non disponibile dall'host, procedere come segue.
Attività | Descrizione |
---|---|
Spegnere e annullare la registrazione di tutte le macchine virtuali in esecuzione nel datastore interessato dalla condizione PDL. | Vedere Amministrazione delle macchine virtuali vSphere. |
Smontare il datastore. | Vedere Smontaggio dei datastore. |
Ripetere la scansione di tutti gli host ESXi che avevano accesso al dispositivo.
Nota: Se la nuova scansione non riesce e l'host continua a elencare il dispositivo, è possibile che siano ancora presenti alcuni riferimenti di I/O al dispositivo in sospeso o attivi. Verificare la presenza di tutti gli elementi che potrebbero avere ancora un riferimento attivo al dispositivo o al datastore. Gli elementi includono macchine virtuali, modelli, immagini ISO, mappature unità "raw" e così via.
|
Vedere Esecuzione di una nuova scansione dello storage. |
Gestione delle condizioni APD temporanee
Un dispositivo di storage viene considerato in stato All Paths Down (APD) quando diventa non disponibile per l'host ESXi per un periodo di tempo non specificato.
I motivi di uno stato APD possono essere, ad esempio, un commutatore non riuscito o un cavo di storage disconnesso.
Al contrario dello stato PDL (Perdita permanente del dispositivo), l'host gestisce lo stato APD come temporaneo e prevede che il dispositivo sarà nuovamente disponibile.
L'host continua a ritentare i comandi emessi nel tentativo di ristabilire la connettività con il dispositivo. Se i comandi dell'host non riescono a eseguire i tentativi per un periodo prolungato, è possibile che l'host rischi di avere problemi di prestazioni. Potenzialmente, l'host e le relative macchine virtuali potrebbero non rispondere.
Per evitare questi problemi, l'host utilizza una funzionalità di gestione APD predefinita. Quando un dispositivo passa allo stato APD, l'host attiva un timer. Con il timer attivato, l'host continua a riprovare i comandi della macchina non virtuale solo per un periodo di tempo limitato.
Per impostazione predefinita, il timeout dell'APD è impostato su 140 secondi. Questo valore è in genere più lungo di quanto la maggior parte dei dispositivi richieda per il ripristino da una perdita di connessione. Se il dispositivo diventa disponibile entro questo periodo di tempo, l'host e la sua macchina virtuale continuano a funzionare senza problemi.
- Lo stato operativo del dispositivo cambia in Dead or Error.
- Tutti i percorsi vengono visualizzati come Dead.
- I datastore sul dispositivo sono disattivati.
Anche se il dispositivo e i datastore non sono disponibili, le macchine virtuali restano in grado di rispondere. È possibile disattivare le macchine virtuali o migrarle in un datastore o un host diverso.
Se in seguito i percorsi del dispositivo diventano operativi, l'host può riprendere l'I/O nel dispositivo e terminare il trattamento APD speciale.
Disattivazione della gestione dello storage APD
La gestione dello storage All Paths Down (APD) nell'host ESXi è attivata per impostazione predefinita. Quando questa funzionalità è attivata e un dispositivo di storage passa allo stato APD, l'host continua a riprovare i comandi I/O della macchina non virtuale per un periodo di tempo limitato. Una volta scaduto il periodo di tempo, l'host interrompe i tentativi e termina tutti i tentativi di I/O di macchine non virtuali. È possibile disattivare la funzionalità di gestione di APD nell'host.
Procedura
- In vSphere Client, passare all'host ESXi.
- Fare clic sulla scheda Configura.
- In Sistema, fare clic su Impostazioni di sistema avanzate.
- Nella tabella Impostazioni di sistema avanzate, selezionare il parametro Misc.APDHandlingEnable e fare clic sull'icona Edit.
- Modificare il valore in 0.
risultati
Modifica dei limiti di timeout per APD dello storage
Il parametro di timeout controlla il numero di secondi per cui l'host ESXi deve riprovare a eseguire i comandi I/O a un dispositivo di storage in uno stato All Paths Down (APD). È possibile modificare il valore di timeout predefinito.
Per impostazione predefinita, il parametro di timeout nell'host è impostato su 140 secondi. È possibile aumentare il valore del timeout se, ad esempio, i dispositivi di storage connessi all'host ESXi richiedono più di 140 secondi per il ripristino da una perdita di connessione.
Procedura
Verifica dello stato della connessione di un dispositivo di storage sull'host ESXi
Utilizzare il comando esxcli per verificare lo stato della connessione di un particolare dispositivo di storage.
Prerequisiti
Installare ESXCLI. Vedere Guida introduttiva a ESXCLI. Per la risoluzione dei problemi, eseguire i comandi esxcli in ESXi Shell.