Vorgehensweise zum Verwenden von vSphere Bitfusion mit PVRDMA

Sie können einen PVRDMA-Adapter (Paravirtual Remote Direct Memory Access) mit Ihren vSphere Bitfusion-Servern und -Clients verwenden, um die Leistung des Clusters zu verbessern.

Einer der Vorteile beim Ausführen von ML- und KI-Arbeitslasten in vSphere Bitfusion besteht darin, dass die Befüllung der GPU-Pipeline beibehalten und die Netzwerklatenz somit ausgeblendet wird. Da die GPU-Pipeline nicht immer befüllt sein kann, wird eine Netzwerkverbindung mit niedriger Latenz von 50 Mikrosekunden oder weniger empfohlen.

RDMA (Remote Direct Memory Access) ermöglicht ohne Hinzuziehung des Betriebssystems oder der CPU direkten Zugriff auf den Speicher eines Computers über den Speicher eines anderen Computers. Die Übertragung von Arbeitsspeicher wird auf einen RDMA-fähigen Hostkanaladapter (HCA) ausgelagert. Große MTUs (Maximum Transmission Units) werden häufig in RDMA-Netzwerken verwendet, wie z. B. 9000 Byte pro Frame. Sowohl direkter Zugriff als auch große Frames verringern den Netzwerk-Overhead sowie die Latenz und verbessern die Leistung von vSphere Bitfusion.

PVRDMA (Paravirtual Remote Direct Memory Access) ermöglicht RDMA zwischen virtuellen Maschinen (VMs) über ein verteiltes Netzwerk, ohne dass einer VM der gesamte physische Adapter mithilfe von DirectPath I/O zugeteilt werden muss. PVRDMA-Netzwerkadapter bieten direkten Remotezugriff auf den Speicher in einer virtuellen Umgebung, wobei sich die VMs entweder auf demselben physischen Host oder anderen Hosts im selben Netzwerk befinden können. Wenn Sie DirectPath I/O nicht verwenden und physische RDMA-fähige Adapter und Switches verfügbar sind, wird die Verwendung von PVRDMA anstelle von VMXNET3 empfohlen.

Weitere Informationen finden Sie unter RDMA für virtuelle Maschinen in der Dokumentation vSphere-Netzwerk.