VMware monitora costantemente gli ambienti SDDC dei clienti attraverso l'automazione e un team di ingegneri dell'affidabilità del sito (Site Reliability Engineers, SRE). Di seguito vengono descritti i processi che VMware automatizza per garantire l'integrità degli SDDC.
Operazioni delle macchine virtuali
- Correzione automatica di macchine virtuali orfane
- Se si utilizza "No data redundancy/VMs w/ FTT=0" come criterio di archiviazione, è possibile che si verifichi una perdita di dati in caso di errore o nel caso in cui la macchina virtuale non risponda. Se si verifica un errore e una macchina virtuale diventa orfana, VMware esegue un'azione di pulizia. Quando si verifica questa situazione, si riceverà una notifica tramite e-mail.
Operazioni di vCenter
- Numero massimo di sessioni vCenter (connessioni) superate
- Se vengono create e non cancellate numerose sessioni, vCenter Server potrebbe diventare inaccessibile. In genere, questo si verifica a causa di un processo di automazione che crea un gran numero di sessioni. Viene generato un avviso automatico e VMware riavvierà vCenter Server. Quando si verifica questa situazione, si riceverà una notifica tramite e-mail.
- Riavvio di vCenter Server
- Problemi di natura diversa potrebbero richiedere il riavvio di vCenter Server. Alcuni problemi potrebbero richiedere un riavvio immediato per la correzione, mentre altri potrebbero consentire un utilizzo continuo con un riavvio necessario in un secondo momento. Nel secondo caso, si riceverà un'e-mail di notifica indicante che verrà effettuato un riavvio nelle successive 24 ore. Dopo il riavvio, potrebbe essere necessario riavviare le attività in corso e le connessioni alle applicazioni.
- Rimozione del certificato CA di vCenter scaduto
- Alcune integrazioni di prodotto installano i certificati CA su vCenter. Se un certificato CA è scaduto, l'aggiunta dell'host potrebbe non riuscire. I certificati CA scaduti verranno rimossi.
Operazioni NSX
- Riavvio del piano di gestione (NSX Manager)
- Problemi di natura diversa potrebbero richiedere il riavvio di NSX Manager. Alcuni problemi potrebbero richiedere un riavvio immediato per la correzione, mentre altri potrebbero consentire un utilizzo continuo con un riavvio necessario in un secondo momento. Durante il breve periodo di riavvio di NSX Manager non sarà possibile accedere all'interfaccia utente del servizio di rete e sicurezza dell'SDDC. Non verrà inviata alcuna notifica tramite e-mail per gli eventi di riavvio di NSX Manager.
- Failover di NSX Edge
- Se il sistema di monitoraggio rileva che un NSX Edge (attivo) sta per diventare non integro, il failover di NSX Edge verrà pianificato durante le ore non di punta. Questo failover pianificato viene eseguito come misura proattiva per evitare possibili interruzioni del servizio causate da failover nelle ore di punta. Se si verifica un problema con NSX Edge (attivo) prima del failover pianificato, verrà eseguito il failover automatico. Si riceverà una notifica tramite e-mail nel caso in cui venga pianificato un failover di NSX Edge.
Operazioni SDDC
- Errore SDDC con host singolo
- La configurazione iniziale dell'SDDC con host singolo non dispone di SLA ed è appropriata per i casi di utilizzo di modello di verifica, test e sviluppo. VMware non esegue alcuna correzione nel caso di errore dell'SDDC a host singolo. Si riceverà una notifica tramite e-mail nel caso in cui si verifichi un errore di un SDDC a host singolo.
- Backup SDDC
-
È possibile eseguire il backup giornaliero di ogni SDDC alle 0900Z e prima di qualsiasi attività di manutenzione pianificata.
- Di cosa si effettua il backup: vCenter Server, configurazione vSAN e NSX. Non è stato eseguito il backup dei dati dei clienti e delle macchine virtuali del carico di lavoro.
- Conservazione del backup: periodo massimo di 28 giorni e massimo 56 backup. Backup archiviati: crittografati in S3 all'interno della regione dell'SDDC ed eliminati quando l'SDDC viene eliminato. Non è possibile ripristinare un SDDC eliminato dal backup.
- Il ripristino dei componenti di gestione è regolato dall'SLA. VMware decide se eseguire il ripristino da un backup o da una riparazione.
Datastore NFS
- Disponibilità datastore
- Se gli host vSphere perdono l'accesso a un datastore NFS (tutti i percorsi inattivi) per più di 320 secondi, vSphere HA spegnerà tutte le macchine virtuali in tale host con dati archiviati nel datastore interessato. HA tenterà di riavviare la macchina virtuale in un host che dispone di una connessione integra al datastore.
- Integrità SDDC
- Se a un host viene impedita l'attivazione della modalità di manutenzione perché non è possibile trasferire una macchina virtuale in esecuzione a causa della disponibilità parziale del datastore NFS, le operazioni VMware spegneranno la macchina virtuale non conforme. VMware tenterà di ripristinare eventuali carichi di lavoro interessati ma le macchine virtuali rimangono spente finché l'accesso all'archivio non viene ripristinato e non vengono riaccese.