vSphere Distributed Services Engine® è una delle funzionalità principali di vSphere che consente ai clienti di utilizzare DPU con vSphere e VMware Cloud Foundation.

vSphere 8.0 consente prestazioni dei carichi di lavoro senza precedenti per soddisfare le esigenze di velocità effettiva e latenza sempre crescenti. Grazie al vSphere Distributed Services Engine, i servizi dell'infrastruttura vengono distribuiti tra le diverse risorse di elaborazione disponibili nell'host ESXi, con l'offload delle funzionalità di rete nella DPU. Tale caratteristica funziona bene per le applicazioni moderne che vengono sviluppate utilizzando un approccio basato su un'architettura di microservizi che cerca di suddividere l'applicazione in più servizi indipendenti ma che collaborano tra loro. Questa maggiore complessità richiede ulteriore CPU. Ad esempio, l'elaborazione delle richieste di storage o il trasferimento del traffico di rete per questi microservizi lascia meno cicli di CPU per il carico di lavoro effettivo. In questo contesto, gli acceleratori creati appositamente, come le DPU, possono occuparsi del nuovo carico di elaborazione e contribuire a migliorare le prestazioni e l'efficienza dell'infrastruttura.

Grazie al vSphere Distributed Services Engine, le DPU possono accelerare le prestazioni della rete e aumentare la velocità effettiva dei dati, senza sovraccaricare la gestione del ciclo di vita delle DPU, perché l'esperienza del giorno 0, del giorno 1 e del giorno 2 di vSphere esistente non cambia. vSphere Distributed Services Engine è supportato dalle DPU di NVIDIA e AMD e dalle progettazioni dei server di Dell, HPE, Lenovo e Fujitsu. vSphere Distributed Services Engine è disponibile nei server con DPU preinstallate.

A partire da vSphere 8.0, è possibile eseguire l'offload nella DPU della funzionalità eseguita nella CPU core per migliorare significativamente le prestazioni di rete e sicurezza. Come illustrato nel diagramma Architettura di vSphere in evoluzione, le DPU possono anche gestire funzionalità aggiuntive come l'offload dello storage e la gestione bare-metal, ma queste funzionalità aggiuntive non sono attualmente supportate.

Figura 1. Architettura di vSphere in evoluzione.
VMware sposta le funzionalità eseguite nel complesso di CPU core al complesso di CPU DPU per abilitare l'accelerazione della rete.

vSphere Distributed Services Engine esegue l'offload e accelera le funzionalità dell'infrastruttura nella DPU introducendo un VMware vSphere Distributed Switch nella DPU e VMware NSX Networking and Observability, che consente di monitorare, identificare e ridurre in modo proattivo i colli di bottiglia dell'infrastruttura di rete senza modifiche complesse della rete. La DPU diventa un nuovo punto di controllo per ridimensionare le funzionalità dell'infrastruttura e consente controlli di sicurezza senza agenti che non sono associati al dominio del carico di lavoro.

Con il vSphere Distributed Services Engine, è possibile:

vSphere Distributed Services Engine non richiede una licenza di ESXi separata. Una rete interna isolata dalle altre reti connette le DPU agli host ESXi. Le build del server ESXi 8.0 sono immagini unificate, che includono contenuti x86 e DPU. Nel sistema vSphere, le DPU vengono visualizzate come nuovi oggetti durante l'installazione e l'aggiornamento e nei workflow di rete, storage e profilo host.

Alta disponibilità con VMware vSphere Distributed Services Engine

Con ESXi 8.0 Update 3, è possibile scegliere un'installazione di VMware vSphere Distributed Services Engine con 2 unità di elaborazione dati (DPU) per ottenere l'alta disponibilità.

Nei sistemi vSphere con una singola DPU, il dispositivo potrebbe diventare il singolo punto di errore per i carichi di lavoro di cui è stato eseguito l'offload nella DPU, ad esempio le funzioni di rete, e influire sui dati e sulla produttività. Con ESXi 8.0 Update 3, vSphere Distributed Services Engine è disponibile anche nei server con 2 DPU preinstallate, che forniscono resilienza e ridondanza dell'hardware.

È possibile utilizzare le due DPU in modalità Attiva/Standby per fornire alta disponibilità. Tale configurazione fornisce ridondanza nel caso in cui una delle DPU non venga eseguita correttamente. Nella configurazione dell'alta disponibilità, entrambe le DPU vengono assegnate allo stesso vSphere Distributed Switch con supporto di NSX. Ad esempio, DPU-1 è collegata a vmnic0 e vmnic1 di vSphere Distributed Switch e DPU-2 è collegata a vmnic2 e vmnic3 dello stesso vSphere Distributed Switch.

È inoltre possibile utilizzare le due DPU come dispositivi indipendenti per aumentare la capacità di offload per ogni host ESXi. Ogni DPU è collegata a un vSphere Distributed Switch separato e in tale configurazione non è presente alcun failover tra le DPU.

I sistemi con due DPU possono utilizzare dispositivi NVIDIA o Pensando. In ESXi 8.0 Update 3, i sistemi con due DPU sono supportati dalle progettazioni di server Lenovo. I dispositivi DPU in un server con due DPU devono essere identici in tutti gli aspetti: stesso fornitore, stessa versione dell'hardware e stesso firmware. Per un elenco dei fornitori e delle progettazioni di server correnti per VMware vSphere Distributed Services Engine, vedere la Guida alla compatibilità di VMware.

Installazione di VMware vSphere Distributed Services Engine con 2 DPU

vSphere Distributed Services Engine non richiede una licenza di ESXi separata. Le build del server ESXi 8.0 Update 3 sono immagini unificate, che includono contenuti x86 e DPU che non possono essere installati separatamente. Anche la procedura di installazione in entrambe le DPU, interattiva o mediante script, viene eseguita in parallelo e si verifica una perdita di prestazioni minima rispetto a un sistema con una singola DPU.

Con vSphere 8.0 Update 3, è possibile ottenere una configurazione del server preinstallata con 2 DPU Dell o Lenovo oppure aggiungere una seconda DPU a un singolo sistema DPU nei server con due DPU supportati da Dell o Lenovo.
Nota: In ogni caso, è necessario eseguire una nuova installazione completa di ESXi 8.0 Update 3 nel sistema, non solo nelle DPU appena aggiunte.

Per ulteriori informazioni sull'installazione, vedere Installazione interattiva di ESXi e Script di installazione e aggiornamento utilizzati per l'installazione di ESXi.

Gestione degli errori, failover e rollback per VMware vSphere Distributed Services Engine

Prima di installare VMware vSphere Distributed Services Engine, vedere le opzioni di gestione degli errori, failover e rollback.

Gestione degli errori

Se si verifica un errore di installazione dei contenuti x86 e DPU in un host ESXi, l'intera procedura di installazione viene contrassegnata come non riuscita.

Anche se si prevede che lo stato del software delle DPU rimanga sempre identico, nel caso improbabile che si verifichi un errore durante un'operazione del ciclo di vita, ad esempio l'installazione o l'aggiornamento di un componente, è possibile che l'operazione riesca in una DPU ma non in un'altra. Poiché ogni operazione del ciclo di vita si verifica entro i limiti di ciascuna DPU, gli errori non influiscono sullo stato dell'altra DPU, ma il risultato complessivo dell'installazione viene comunque contrassegnato come non riuscito.

Durante l'installazione interattiva, nei workflow di vSphere Lifecycle Manager e quando si utilizza ESXCLI, si ricevono informazioni sulla DPU in cui l'operazione non è riuscita.

Quando l'installazione viene completata correttamente, se si verificano errori della DPU, è consigliabile riavviare l'host ESXi interessato. Se la DPU è ancora accessibile dall'host, la raccolta del bundle di registri generale è sufficiente per la risoluzione dei problemi. Se la DPU non è accessibile dall'host, l'accesso alla DPU da un'interfaccia BMC, iLO o iDRAC può fornire registri per la risoluzione dei problemi.

Failover

Il supporto del failover in vSphere 8.0 Update 3 viene fornito solo quando una delle DPU smette di funzionare a causa di errori del software all'interno della DPU o quando si verifica una disconnessione fisica di una delle DPU, ad esempio se il cavo viene scollegato. Il failover dovuto a errori a livello di PCI (Peripheral Component Interconnect) non è supportato.

Rollback

Il rollback è un meccanismo di massimo sforzo per ripristinare il sistema a uno stato di funzionamento precedente se si verifica un errore prima della fase jumpstart dell'avvio di ESXi. Il rollback nei server x86 e nelle DPU collegate supportate è automatico in caso di errore durante l'avvio. È inoltre possibile decidere di eseguire un rollback manuale premendo Maiusc+R prima dell'avvio del bootloader, per tornare a uno stato valido precedente.

Qualsiasi errore dopo l'avvio della fase jumpstart non comporta un rollback.

Tabella 1. Scenari di rollback per l'installazione di VMware vSphere Distributed Services Engine
Scenario Numero di riavvii necessari
Entrambe le DPU vengono avviate correttamente. ESXi non viene avviato correttamente. 2
Entrambe le DPU non vengono avviate correttamente. ESXi viene avviato correttamente. 1
Una delle DPU viene avviata con una versione precedente rispetto alle altre DPU e a ESXi. 2
Una delle DPU viene avviata con una versione precedente rispetto all'altra DPU ed ESXi non viene avviato correttamente. 2