Identifizieren von Problemen hinsichtlich der ESXi-Speicherkonnektivität

Wenn Ihr ESXi eine Verbindung mit einem Speichergerät herstellt, tritt möglicherweise ein Konnektivitätsproblem auf. Probleme mit der Speicherkonnektivität können aus verschiedenen Gründen verursacht werden. Obwohl ESXi nicht immer erkennen kann, warum ein Gerät oder dessen Pfade nicht verfügbar sind, kann der Host feststellen, ob das Problem dauerhaft oder vorübergehend ist. Mit anderen Worten: Der Host kann zwischen dem Zustand des dauerhaften Geräteausfalls (Permanent Device Loss, PDL) des Geräts und dem vorübergehenden Status „Keine Pfade verfügbar“ (All Paths Down, APD) des Speichers unterscheiden.

Permanenter Geräteverlust (Permanent Device Loss, PDL): Dies ist ein Zustand, der eintritt, wenn ein Speichergerät dauerhaft ausfällt oder vom Administrator entfernt oder ausgeschlossen wird. Es wird nicht erwartet, dass es verfügbar wird. Wenn das Gerät dauerhaft nicht mehr verfügbar ist, erhält ESXi entsprechende Erkennungscodes oder eine Verweigerung der Anmeldung von Speicher-Arrays und erkennt einen permanenten Geräteverlust.
Keine Pfade verfügbar (All Paths Down, APD): Ein Zustand, der eintritt, wenn ein Speichergerät für den Host nicht mehr verfügbar ist und keine Pfade zu dem Gerät verfügbar sind. ESXi behandelt dies als flüchtigen Zustand, weil in der Regel die Probleme mit dem Gerät temporär sind und anzunehmen ist, dass das Gerät wieder verfügbar wird.

Konnektivitätsprobleme und vSphere High Availability

Wenn das Gerät in den PDL- oder APD-Zustand wechselt, kann vSphere High Availability (HA) Konnektivitätsprobleme erkennen und automatische Wiederherstellung für betroffene virtuelle Maschinen auf dem ESXi-Host bereitstellen. vSphere HA verwendet VM-Komponentenschutz, um auf dem Host im vSphere HA-Cluster ausgeführte virtuelle Maschinen vor Fehlern beim Datenzugriff zu schützen. Weitere Informationen zum VM-Komponentenschutz und zum Konfigurieren von Antworten für Datenspeicher und virtuelle Maschinen bei Auftreten der APD- oder PDL-Bedingung finden Sie in der Dokumentation zu Handbuch zur Verfügbarkeit in vSphere.

Erkennen von PDL-Bedingungen

Einem Speichergerät wird der Zustand PDL (Permanent Device Loss, dauerhafter Geräteverlust) zugeschrieben, wenn es für den ESXi-Host dauerhaft nicht verfügbar ist.

Die PDL-Bedingung tritt typischerweise ein, wenn ein Gerät versehentlich entfernt wird, wenn seine eindeutige ID sich ändert oder wenn ein nicht behebbarer Hardwarefehler auftritt.

Wenn das Speicher-Array bestimmt, dass das Gerät dauerhaft nicht verfügbar ist, sendet es SCSI-Fehlererkennungscodes oder NVMe-Fehlercodes an den ESXi-Host. Nach dem Empfang dieser Fehler erkennt Ihr Host das Gerät als fehlgeschlagen und registriert den Gerätezustand PDL. Damit das Gerät als dauerhaft verloren betrachtet wird, müssen die Erkennungs-Codes auf allen seinen Pfaden empfangen werden.

Wenn für das Gerät der Zustand PDL registriert wurde, versucht der Host nicht mehr, eine Verbindung mit dem Gerät herzustellen oder Befehle an das Gerät zu senden.

Der vSphere Client zeigt folgende Informationen für das Gerät an:

Der Betriebszustand des Geräts wird in Lost Communication geändert.
Alle Pfade werden als Dead angezeigt.
Die Datenspeicher auf dem Gerät sind nicht verfügbar.

Wenn keine offenen Verbindungen zu dem Gerät vorhanden sind, oder nachdem die letzte Verbindung getrennt wurde, entfernt der Host das PDL-Gerät und alle Pfade zu dem Gerät. Sie können das automatische Entfernen von Pfaden deaktivieren, indem Sie den erweiterten Hostparameter Disk.AutoremoveOnPDL auf 0 festlegen.

Wenn die PDL-Bedingung für das Gerät nicht mehr vorhanden ist, kann es vom Host erkannt werden, wird aber als neues Gerät behandelt. Die Datenkonsistenz für virtuelle Maschinen auf dem wiederhergestellten Gerät ist nicht garantiert.

Hinweis: Wenn ein Gerät ausfällt, ohne entsprechende SCSI-Erkennungscodes oder NVMe-Fehlercodes zu senden oder eine iSCSI-Anmeldung abzulehnen, kann der Host keine PDL-Bedingungen erkennen. In diesem Fall behandelt der Host, selbst wenn das Gerät dauerhaft ausfällt, die Geräteverbindungsprobleme weiterhin als APD.

Permanenter Geräteverlust (Permanent Device Loss, PDL) und SCSI-Erkennungscodes

Im folgenden Beispiel für ein VMkernel-Protokoll gibt ein SCSI-Erkennungscode an, dass das Gerät den Zustand PDL aufweist.

H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0 or Logical Unit Not Supported

Permanenter Geräteverlust (Permanent Device Loss, PDL) und NVMe-Fehlercodes

Im folgenden Beispiel für ein VMkernel-Protokoll gibt ein NVMe-Fehlercode an, dass das Gerät den Zustand PDL aufweist.

H:0x0 D:0xb P:0x0 or H:0x0 D:0x11a P:0x0

Permanenter Geräteverlust (Permanent Device Loss, PDL) und iSCSI

Bei iSCSI-Arrays mit einer einzelnen LUN pro Ziel wird der Zustand PDL daran erkannt, dass die iSCSI-Anmeldung fehlschlägt. Ein iSCSI-Speicher-Array lehnt die Versuche des Hosts zum Starten einer iSCSI-Sitzung mit dem Grund Target Unavailable ab. Wie bei den Erkennungs-Codes muss diese Antwort auf allen Pfaden empfangen werden, damit das Gerät als dauerhaft verloren betrachtet wird.

Permanenter Geräteverlust (Permanent Device Loss, PDL) und virtuelle Maschinen

Wenn für das Gerät der Zustand PDL registriert wurde, schließt der Host alle Eingaben/Ausgaben von virtuellen Maschinen. vSphere HA kann PDL erkennen und ausgefallene virtuelle Maschinen neu starten.

Durchführen des geplanten Entfernens von Speichergeräten

Falls ein Speichergerät nicht ordnungsgemäß funktioniert, können Sie PDL- (Permanent Device Loss, „dauerhafter Ausfall eines Geräts“) oder APD-Zustände (All Paths Down, „keine Pfade verfügbar“) vermeiden. Führen Sie eine geplante Entfernung und erneute Verbindung eines Speichergeräts durch.

Das geplante Entfernen eines Geräts ist eine beabsichtigte Trennung eines Speichergeräts. Sie können ein Gerät auch aus einem bestimmten Grund entfernen, zum Beispiel, weil Sie Ihre Hardware aktualisieren oder Ihre Speichergeräte neu konfigurieren möchten. Wenn Sie eine ordnungsgemäße Entfernung und erneute Verbindung eines Speichergeräts durchführen, führen Sie mehrere Aufgaben durch.

Aufgabe	Beschreibung
Migrieren Sie die virtuelle Maschinen von dem Gerät, das Sie trennen möchten.	vCenter Server und Hostverwaltung
Unmounten Sie den auf dem Gerät verwendeten Datenspeicher.	Weitere Informationen hierzu finden Sie unter Unmounten von Datenspeichern.
Trennen Sie das Speichergerät.	Weitere Informationen hierzu finden Sie unter Speichergeräte trennen.
Im Falle eines iSCSI-Geräts mit einer einzelnen LUN pro Ziel löschen Sie den Eintrag für das statische Ziel aus jedem iSCSI-HBA, der einen Pfad zum Speichergerät aufweist.	Weitere Informationen hierzu finden Sie unter Entfernen dynamischer oder statischer iSCSI-Ziele.
Über die Array-Konsole können Sie eine notwendige Neukonfiguration des Speichergeräts durchführen.	Informationen finden Sie in der Dokumentation des Anbieters.
Schließen Sie das Speichergerät erneut an.	Weitere Informationen hierzu finden Sie unter Speichergeräte anhängen.
Mounten Sie den Datenspeicher und starten Sie die virtuelle Maschinen neu.	Weitere Informationen hierzu finden Sie unter Mounten von Datenspeichern.

Speichergeräte trennen

Trennen Sie das Speichergerät sicher von Ihrem ESXi-Host.

Möglicherweise müssen Sie das Gerät trennen, um es für Ihren Host unzugänglich zu machen, wenn Sie beispielsweise ein Upgrade der Speicherhardware durchführen.

Voraussetzungen

Das Gerät enthält keine Datenspeicher.
Keine virtuelle Maschinen nutzen das Gerät als RDM-Festplatte.
Das Gerät enthält keine Diagnosepartition oder Scratch-Partition.

Prozedur

Navigieren Sie im vSphere Client zum ESXi-Host.
Klicken Sie auf die Registerkarte Konfigurieren.
Klicken Sie unter Speicher auf Speichergeräte.
Wählen Sie das zu trennende Gerät aus und klicken Sie auf das Symbol Trennen.

Ergebnisse

Auf das Gerät kann nicht mehr zugegriffen werden. Der Betriebszustand des Geräts wird in „Nicht gemountet“ geändert.

Nächste Maßnahme

Wenn mehrere Hosts das Gerät teilen, trennen Sie das Gerät von jedem Host.

Speichergeräte anhängen

Verbinden Sie ein Speichergerät erneut, das Sie zuvor vom ESXi-Host getrennt haben.

Prozedur

Navigieren Sie im vSphere Client zum ESXi-Host.
Klicken Sie auf die Registerkarte Konfigurieren.
Klicken Sie unter Speicher auf Speichergeräte.
Wählen Sie das getrennte Speichergerät aus und klicken Sie auf das Symbol Anhängen.

Ergebnisse

Das Gerät wird verfügbar.

Wiederherstellen nach PDL-Bedingungen

Ein ungeplanter permanenter Geräteverlust (Permanent Device Loss, PDL) tritt ein, wenn ein Speichergerät dauerhaft nicht mehr verfügbar ist, ohne vom ESXi-Host getrennt worden zu sein.

Die folgenden Elemente in vSphere Client zeigen an, dass sich das Gerät im PDL-Status befindet:

Der auf dem Gerät angezeigte Datenspeicher ist nicht verfügbar.
Der Betriebszustand des Geräts ändert sich auf „Verbindung unterbrochen".
Alle Pfade werden als „Ausgefallen“ angezeigt.
In der VMkernel-Protokolldatei wird in einer Warnung angezeigt, dass das Gerät dauerhaft unzugänglich ist.

Um eine Wiederherstellung nach einer ungeplanten PDL-Bedingung durchzuführen und das nicht verfügbare Gerät vom Host zu entfernen, führen Sie die folgenden Aufgaben aus.

Aufgabe	Beschreibung
Schalten Sie alle virtuellen Maschinen ab, die auf dem von der PDL-Bedingung betroffenen Datenspeicher laufen, und heben Sie ihre Registrierung auf.	Siehe vSphere-Administratorhandbuch für virtuelle Maschinen.
Unmounten Sie den Datenspeicher.	Weitere Informationen hierzu finden Sie unter Unmounten von Datenspeichern.
Führen Sie eine erneute Prüfung auf allen ESXi-Hosts durch, die Zugriff auf das Gerät hatten. Hinweis: Wenn die erneute Prüfung nicht erfolgreich ist und der Host das Gerät weiterhin auflistet, sind vielleicht noch ausstehende E/A-Vorgänge oder aktive Verweise auf das Gerät vorhanden. Suchen Sie alle Elemente, die möglicherweise immer noch einen aktiven Verweis auf das Gerät oder den Datenspeicher haben. Die Objekte umfassen virtuelle Maschinen, Vorlagen, ISO-Images, Zuordnungen für Raw-Geräte usw.	Weitere Informationen hierzu finden Sie unter Durchführen einer erneuten Speicherprüfung.

Handhabung vorübergehender APD-Bedingungen

Ein Speichergerät befindet sich im APD-Status (All Paths Down, Keine Pfade verfügbar), wenn es für den ESXi-Host über einen unbestimmten Zeitraum nicht verfügbar ist.

Die Ursache für einen APD-Status kann beispielsweise ein ausgefallener Switch oder ein nicht angeschlossenes Speicherkabel sein.

Im Gegensatz zum Status „permanenter Geräteverlust“ (Permanent Device Loss, PDL) verarbeitet der Host den APD-Status als vorübergehend und erwartet, dass das Gerät wieder verfügbar wird.

Der Host wiederholt fortwährend die ausgegebenen Befehle, um die Verbindung mit dem Gerät wiederherzustellen. Wenn die vom Host wiederholt ausgeführte Befehlsausgabe über einen längeren Zeitraum fehlschlägt, kann es auf dem Host unter Umständen zu Leistungseinbußen kommen. Der Host und seine virtuellen Maschinen reagieren unter Umständen nicht mehr.

Um diese Probleme zu vermeiden, verfügt Ihr Host über eine Standard-APD-Behandlungsfunktion. Wenn ein Gerät in den APD-Status wechselt, aktiviert der Host einen Timer. Bei aktiviertem Timer fährt der Host für einen beschränkten Zeitraum mit der Wiederholung von Befehlen nicht virtueller Maschinen fort.

Standardmäßig wird das APD-Timeout auf 140 Sekunden festgelegt. Die meisten Geräte benötigen zur Wiederherstellung nach einem Verbindungsausfall weniger als 140 Sekunden. Wenn das Gerät während dieser Zeitspanne wieder verfügbar wird, laufen der Host und seine virtuelle Maschine ohne Probleme weiter.

Wenn das Gerät nicht wiederhergestellt wird und der festgelegte Zeitraum endet, stoppt der Host seine Neuversuche und beendet alle nicht virtuellen Maschinen-E/A-Befehle. Die virtuellen Maschinen-E/A-Befehle werden weiterhin abgesetzt. Der vSphere Client zeigt die folgenden Informationen für das Gerät, bei dem die APD-Zeitüberschreitung aufgetreten ist:

Der Betriebszustand des Geräts wird in Dead or Error geändert.
Alle Pfade werden als Dead angezeigt.
Die Datenspeicher auf dem Gerät werden abgeblendet.

Obwohl das Gerät und die Datenspeicher nicht verfügbar sind, reagieren virtuelle Maschinen. Sie können die virtuellen Maschinen deaktivieren oder auf einen anderen Datenspeicher oder Host migrieren.

Wenn die Gerätepfade zu einem späteren Zeitpunkt betriebsbereit sind, kann der Host die E-/A-Ausgabe an das Gerät wiederaufnehmen und die spezielle APD-Verarbeitung beenden.

Deaktivieren der Speicher-APD-Behandlung

Die Speicher-APD-Behandlung (All Paths Down, keine Pfade verfügbar) auf dem ESXi-Host ist standardmäßig aktiviert. Wenn diese Funktion aktiviert ist und ein Speichergerät in den APD-Zustand wechselt, versucht der Host die E/A-Befehle nicht virtueller Maschinen nur für einen begrenzten Zeitraum erneut. Wenn diese Zeit abgelaufen ist, stellt der Host diese Versuche ein und beendet alle E/A-Aktivitäten nicht virtueller Maschinen. Sie können die Funktion zur APD-Behandlung auf dem Host deaktivieren.

Wenn Sie die APD-Behandlung deaktivieren, versucht der Host immer wieder erneut, Befehle zu senden, um die Verbindung mit dem APD-Gerät wiederherzustellen. Es kann dazu führen, dass für virtuelle Maschinen auf dem Host eine interne E/A-Zeitüberschreitung eintritt, sodass sie ausfallen bzw. nicht mehr reagieren. Der Host kann vom vCenter Server getrennt werden.

Prozedur

Navigieren Sie im vSphere Client zum ESXi-Host.
Klicken Sie auf die Registerkarte Konfigurieren.
Klicken Sie unter System auf Erweiterte Systemeinstellungen.
Wählen Sie in der Tabelle „Erweiterte Systemeinstellungen“ den Parameter Misc.APDHandlingEnable aus und klicken Sie auf das Symbol Edit.
Ändern Sie den Wert in 0.

Ergebnisse

Wenn Sie die APD-Behandlung deaktiviert haben, können Sie sie erneut aktivieren und den Wert der zugehörigen Einstellung auf 1 festlegen, wenn ein Gerät in den APD-Zustand wechselt. Die Funktion zur internen APD-Behandlung wird sofort aktiviert und der Timer startet mit dem aktuellen Zeitüberschreitungswert für jedes Gerät im APD-Zustand.

Ändern der Grenzwerte für die Zeitüberschreitung für Speicher-APD

Der Parameter für die Zeitüberschreitung steuert, wie viele Sekunden der ESXi-Host im Zustand „Keine Pfade verfügbar“ (APD) wiederholt versuchen muss, E/A-Befehle auf ein Speichergerät anzuwenden. Sie können den Standardwert für die Zeitüberschreitung ändern.

Die Zeitüberschreitung beginnt sofort, nachdem das Gerät in den APD-Zustand versetzt wurde. Nach Ablauf der Zeitüberschreitung markiert der Host das APD-Gerät als nicht erreichbar. Der Host beendet die Versuche, jegliche E/A-Befehle anzuwenden, die nicht von virtuellen Maschinen kommen. Der Host sendet weiterhin E/A-Befehle virtueller Maschinen.

Der Parameter für die Zeitüberschreitung ist auf Ihrem Host standardmäßig auf 140 Sekunden festgelegt. Sie können den Zeitüberschreitungswert erhöhen, wenn beispielsweise Speichergeräte, die mit Ihrem ESXi-Host verbunden sind, länger als 140 Sekunden benötigen, um nach einem Verbindungsverlust eine neue Verbindung herzustellen.

Hinweis: Falls Sie den Parameter der Zeitüberschreitung ändern, wenn das Gerät nicht mehr verfügbar ist, wird die Änderung für diesen speziellen APD-Vorfall nicht wirksam.

Prozedur

Navigieren Sie im vSphere Client zum ESXi-Host.
Klicken Sie auf die Registerkarte Konfigurieren.
Klicken Sie unter System auf Erweiterte Systemeinstellungen.
Wählen Sie in der Tabelle „Erweiterte Systemeinstellungen“ den Parameter Misc.APDTimeout aus und klicken Sie auf das Symbol Edit.
Ändern Sie den Standardwert.
Sie können einen Wert zwischen 20 und 99999 Sekunden eingeben.

Überprüfen des Verbindungsstatus eines Speichergeräts auf dem ESXi-Host

Verwenden Sie den esxcli-Befehl, um den Verbindungsstatus eines bestimmten Speichergeräts zu überprüfen.

Voraussetzungen

Installieren Sie ESXCLI. Siehe Erste Schritte mit ESXCLI. Zur Fehlerbehebung führen Sie esxcli-Befehle in der ESXi Shell aus.

Prozedur

Führen Sie den folgenden Befehl aus: esxcli storage core device list -d=device_ID.
Überprüfen Sie den Verbindungsstatus im Bereich Status:.
- on – Das Gerät ist verbunden.
- dead – Das Gerät hat den APD-Zustand. Der APD-Timer wird gestartet.
- dead timeout – Der APD-Timer ist abgelaufen.
- not connected – Das Gerät befindet sich im PDL-Zustand.