vSphere Bitfusion と PVRDMA を使用する方法

準仮想化リモートダイレクトメモリアクセス (PVRDMA) アダプタを vSphere Bitfusion サーバおよびクライアントと一緒に使用すると、クラスタのパフォーマンスを向上させることができます。

vSphere Bitfusion で ML ワークロードと AI ワークロードを実行するメリットの 1 つは、GPU 処理のパイプラインが満杯に保たれ、それによってネットワーク遅延が隠蔽されることです。GPU パイプラインを常に満杯に保つことはできないため、ネットワーク接続の遅延は、50 マイクロ秒以下に抑えることを推奨します。

リモートダイレクトメモリアクセス (RDMA) を使用すると、一方のコンピュータのメモリからもう一方のコンピュータのメモリに、オペレーティングシステムや CPU を介さずに直接アクセスすることができます。メモリの転送は、RDMA 対応のホストチャネルアダプタ (HCA) にオフロードされます。一般に RDMA ネットワークでは、フレームあたり 9,000 バイトなどの大きな最大転送ユニット (MTU) が使用されます。直接アクセスと大きなフレームサイズを組み合わせると、ネットワークのオーバーヘッドと遅延が低減され、vSphere Bitfusion のパフォーマンスが向上します。

準仮想化リモートダイレクトメモリアクセス (PVRDMA) では、分散ネットワーク経由で仮想マシン (VM) 間の RDMA を行うことができます。DirectPath I/O を使用して物理アダプタ全体を仮想マシンに割り当てる必要はありません。PVRDMA ネットワークアダプタでは、仮想環境でリモートダイレクトメモリアクセスを行うことができます。この場合、仮想マシンは同じ物理ホストに配置することも、同じネットワーク内の他のホストに配置することもできます。DirectPath I/O を使用しておらず、物理 RDMA 対応のアダプタとスイッチが使用可能な場合は、VMXNET3 ではなく PVRDMA を使用することをお勧めします。

詳細については、『vSphere のネットワーク』ドキュメントの「仮想マシンのリモートダイレクトメモリアクセス」を参照してください。

My library

vSphere Bitfusion と PVRDMA を使用する方法