準仮想化リモート ダイレクト メモリ アクセス (PVRDMA) アダプタを vSphere Bitfusion サーバおよびクライアントと一緒に使用すると、クラスタのパフォーマンスを向上させることができます。
vSphere Bitfusion で ML ワークロードと AI ワークロードを実行するメリットの 1 つは、GPU 処理のパイプラインが満杯に保たれ、それによってネットワーク遅延が隠蔽されることです。GPU パイプラインを常に満杯に保つことはできないため、ネットワーク接続の遅延は、50 マイクロ秒以下に抑えることを推奨します。
リモート ダイレクト メモリ アクセス (RDMA) を使用すると、一方のコンピュータのメモリからもう一方のコンピュータのメモリに、オペレーティング システムや CPU を介さずに直接アクセスすることができます。メモリの転送は、RDMA 対応のホスト チャネル アダプタ (HCA) にオフロードされます。一般に RDMA ネットワークでは、フレームあたり 9,000 バイトなどの大きな最大転送ユニット (MTU) が使用されます。直接アクセスと大きなフレーム サイズを組み合わせると、ネットワークのオーバーヘッドと遅延が低減され、vSphere Bitfusion のパフォーマンスが向上します。
準仮想化リモート ダイレクト メモリ アクセス (PVRDMA) では、分散ネットワーク経由で仮想マシン (VM) 間の RDMA を行うことができます。DirectPath I/O を使用して物理アダプタ全体を仮想マシンに割り当てる必要はありません。PVRDMA ネットワーク アダプタでは、仮想環境でリモート ダイレクト メモリ アクセスを行うことができます。この場合、仮想マシンは同じ物理ホストに配置することも、同じネットワーク内の他のホストに配置することもできます。DirectPath I/O を使用しておらず、物理 RDMA 対応のアダプタとスイッチが使用可能な場合は、VMXNET3 ではなく PVRDMA を使用することをお勧めします。
詳細については、『vSphere のネットワーク』ドキュメントの「仮想マシンのリモート ダイレクト メモリ アクセス」を参照してください。