vSphere Distributed Services Engine® は、vSphere と VMware Cloud Foundation で DPU を使用できるようにする vSphere の主要機能です。

vSphere 8.0 を使用すると、増え続けるスループットと遅延のニーズを満たすために、ワークロード パフォーマンスを飛躍的に向上させることができます。vSphere Distributed Services Engine を使用すると、インフラストラクチャ サービスは、ESXi ホストで使用可能なさまざまなコンピューティング リソースに分散され、ネットワーク機能は DPU にオフロードされます。そのような機能は、アプリケーションを複数の独立した共同サービスに分割することを模索する、マイクロサービス アーキテクチャ方式を使用して開発される、最新のアプリケーションで十分に機能します。複雑性が高まることにより、CPU が新たに必要になります。たとえば、これらのマイクロサービスに対しストレージ要求を処理したり、ネットワークトラフィックを往復すると、実際のワークロードの CPU サイクルが少なくなります。このコンテキストでは、DPU などの専用のアクセラレータが新しいコンピューティング負荷を引き受け、インフラストラクチャのパフォーマンスと効率を向上させることができます。

vSphere Distributed Services Engine で、DPU はネットワークのパフォーマンスを加速し、データスループットを増やすことができます。同時に、既存の Day-0、Day-1、および Day-2 の vSphere エクスペリエンスは変わらないため、DPU のライフサイクル管理の運用上の負荷はなくなります。vSphere Distributed Services Engine は、NVIDIA および AMD の DPU のほか、Dell、HPE、Lenovo、Fujitsu のサーバ設計によってサポートされています。vSphere Distributed Services Engine は、DPU が事前にインストールされているサーバで使用できます。

vSphere 8.0 以降では、コア CPU で実行されている機能を DPU にオフロードして、ネットワークとセキュリティのパフォーマンスを大幅に向上させることができます。「vSphere アーキテクチャの進化」図に示すように、DPU はストレージ オフロードやベアメタル管理などの追加機能も扱えますが、それらの追加機能は現在サポートされていません。

図 1. vSphere アーキテクチャの進化。
VMware は、コア CCX で実行される機能を DPU CCX に移動して、ネットワーク アクセラレーションを有効にします。

vSphere Distributed Services Engine は、VMware vSphere Distributed Switch を DPU、VMware NSX ネットワークおよび Observability に導入することで、DPU にインフラストラクチャ機能をオフロードし、高速化します。これにより、複雑なネットワーク タップがなくてもネットワーク インフラストラクチャのボトルネックをプロアクティブに監視して識別し、軽減できるようになります。DPU は、インフラストラクチャ機能を拡張するための新しい制御ポイントになり、エージェントレスでワークロード ドメインから分離されたセキュリティ制御を有効にします。

vSphere Distributed Services Engine を使用すると、次の操作を実行できます。

  • ESXi イメージを x86 サーバと接続したサポート対象の DPU に同時にインストールして更新し、統合された vSphere ワークフローによる DPU ライフサイクル管理の運用上のオーバーヘッドを軽減します。詳細については、「vSphere Lifecycle Manager と VMware vSphere Distributed Services Engine の使用」を参照してください。
  • DPU ハードウェア アラートのアラームを設定して、使いやすい vCenter Server のインターフェイスからコア、メモリ、およびネットワーク スループットのパフォーマンス メトリックを監視します。新しいツールは不要です。詳細については、CPU (DPU)メモリ (DPU) を参照してください。
  • DPU 上の vSphere Distributed Switch を高速化してネットワーク パフォーマンスを向上させ、使用可能な CPU サイクルを利用して、ESXi ホストあたりのワークロード統合を強化します。詳細については、ネットワーク オフロード機能についてvSphere Distributed Switch の作成 を参照してください。
  • DPU が接続されているホスト上で実行される仮想マシンに対する vSphere DRS および vSphere vMotion のサポートにより、仮想マシンの移植性を犠牲にせずにパススルーの恩恵が受けられます。詳細については、DPU の同種クラスタ を参照してください。
  • ゼロトラスト セキュリティにより、インフラストラクチャのセキュリティを強化します。詳細については、「vSphere Distributed Services Engine のセキュリティ ベスト プラクティス」を参照してください。

vSphere Distributed Services Engine では、個別の ESXi ライセンスは不要です。他のネットワークから隔離されている内部ネットワークは、DPU を ESXi ホストに接続します。ESXi 8.0 サーバ ビルドは、x86 と DPU の両方のコンテンツが含まれる統合イメージです。vSphere システムでは、インストールおよびアップグレード中、そしてネットワーク、ストレージ、およびホスト プロファイル ワークフローで、DPU が新しいオブジェクトとして表示されます。

VMware vSphere Distributed Services Engineを使用した高可用性

ESXi 8.0 Update 3 では、2 つのデータ処理ユニット (DPU) を使用するVMware vSphere Distributed Services Engineインストールを選択して、高可用性を実現できます。

単一の DPU を使用した vSphere システムでは、そのデバイスがネットワーク機能など DPU にオフロードされたワークロードの単一点障害となり、データと生産性に影響を与えることがあります。ESXi 8.0 Update 3 では、ハードウェアの冗長性と回復性を提供する DPU が事前にインストールされているサーバでも、vSphere Distributed Services Engineを使用できます。

2 つの DPU をアクティブ/スタンバイ モードで使用して、高可用性を実現できます。このような構成は、DPU の 1 つが失敗した場合に冗長性を提供します。高可用性構成では、両方の DPU が同じNSXバッキングされたvSphere Distributed Switchに割り当てられます。たとえば、DPU-1 はvSphere Distributed Switchの vmnic0 に接続され、DPU-2 は同じvSphere Distributed Switchの vmnic2 および vmnic3 に接続されます。

また、2 つの DPU を独立したデバイスとして使用して、ESXi ホストあたりのオフロード 容量を増やすこともできます。各 DPU は個別のvSphere Distributed Switchに接続されており、このような構成では DPU 間のフェイルオーバーはありません。

デュアル DPU システムでは、NVIDIA または Pensando デバイスを使用できます。ESXi 8.0 Update 3 では、デュアル DPU システムが Lenovo サーバ設計でサポートされています。デュアル DPU サーバ上の DPU デバイスは、同じベンダー、同じハードウェア バージョン、および同じファームウェアのすべての面で同一である必要があります。VMware vSphere Distributed Services Engine の現在のベンダーとサーバ設計のリストについては、VMware 互換性ガイドを参照してください。

2 DPU を使用したVMware vSphere Distributed Services Engineのインストール

vSphere Distributed Services Engine では、個別の ESXi ライセンスは不要です。ESXi 8.0 Update 3 サーバ ビルドは、x86 と DPU の両方のコンテンツを含む統合イメージであり、x86 と DPU コンテンツを個別にインストールすることはできません。対話型またはスクリプト化された両方の DPU のインストール手順も並行して実行され、単一の DPU システムと比較してパフォーマンスの低下が最小限に抑えられます。

vSphere 8.0 Update 3 では、Dell または Lenovo から 2 つの DPU を使用して事前にインストールされたサーバ構成を取得したり、Dell または Lenovo でサポートされているデュアル DPU サーバ上の単一の DPU システムに 2 つ目の DPU を追加したりできます。
注: いずれの場合も、新しく追加された DPU だけでなく、システムで完全な新規ESXi 8.0 Update 3 インストールを実行する必要があります。

インストールの詳細については、「対話形式での ESXi のインストール」および「ESXi のインストールに使用されるインストール スクリプトとアップグレード スクリプト」を参照してください。

VMware vSphere Distributed Services Engine のエラー処理、フェイルオーバー、ロールバック

VMware vSphere Distributed Services Engine をインストールする前に、エラー処理、フェイルオーバー、ロールバックの各オプションを確認します。

エラー処理

ESXi ホストで x86 と DPU のいずれかのコンテンツのインストールに失敗すると、インストール手順全体が失敗としてマークされます。

DPU は常に同一のソフトウェア状態を維持することが想定されていますが、コンポーネントのインストールやアップグレードなどのライフサイクル処理中に万一エラーが発生した場合、その処理が特定の DPU では成功し、他の DPU では失敗することがあります。各ライフサイクル処理は DPU ごとの境界内で発生するため、エラーは他の DPU の状態には影響しませんが、それでもインストール全体の結果は失敗としてマークされます。

対話型インストール時に、vSphere Lifecycle Manager ワークフローで ESXCLI を使用すると、処理に失敗した DPU に関する情報が表示されます。

DPU エラーが発生する場合は、インストールが正常に完了した後に、影響を受ける ESXi ホストを再起動することをお勧めします。ホストから DPU に引き続きアクセスできる場合は、一般的なログ バンドルの収集で十分にトラブルシューティングを行えます。ホストから DPU にアクセスできない場合は、BMC、iLO、または iDRAC インターフェイスから DPU にログインすると、トラブルシューティング ログが得られます。

フェイルオーバー

vSphere 8.0 Update 3 のフェイルオーバー サポート対象は、DPU 内のソフトウェア エラーや、ケーブルの切断などの DPU の物理的切断が原因で動作しなくなった 1 つの DPU に限られます。PCI (Peripheral Component Interconnect) レベルのエラーによるフェイルオーバーはサポートされていません。

ロールバック

ロールバックは、ESXi 起動時のジャンプスタート フェーズの前に障害が発生した場合に、システムを以前の動作状態にリストアするためのベスト エフォート型メカニズムです。起動中にエラーが発生した場合、x86 サーバと接続されているサポート対象 DPU の両方でロールバックが自動的に実行されます。また、手動ロールバックを選択することもできます。その場合は、ブートローダーが起動する前に Shift + R を押して、以前の良好な状態に戻します。

ジャンプスタート フェーズの開始後に障害が発生しても、ロールバックは実行されません。

表 1. VMware vSphere Distributed Services Engine のインストールに関するロールバック シナリオ
使用例 必要な再起動数
両方の DPU が正常に起動する。ESXi が正常に起動しない。 2
両方の DPU が正常に起動しない。ESXi が正常に起動する。 1
いずれかの DPU が他の DPU よりも前のバージョンで起動し、ESXi が正常に起動する。 2
いずれかの DPU が他の DPU よりも前のバージョンで起動し、ESXi が正常に起動しない。 2