Acciones llevadas a cabo por VMware para garantizar el estado del SDDC

VMware supervisa constantemente los entornos de SDDC de los clientes mediante la automatización y un equipo de ingenieros de confiabilidad de sitios (Site Reliability Engineer, SRE). A continuación, se describen los procesos que VMware automatiza para garantizar el estado de SDDC.

Operaciones de máquina virtual

Corrección automática de máquinas virtuales huérfanas: Si utiliza "No hay redundancia de datos ni máquinas virtuales con FTT=0" como directiva de almacenamiento, es posible que se pierdan datos si se produce un error o si la máquina virtual deja de responder. Si se produce un error y una o varias máquinas virtuales quedan huérfanas, VMware realizará una acción de limpieza. En ese caso, recibirá una notificación por correo electrónico.

Operaciones de vCenter

Sesiones de vCenter (conexiones) al límite: Si se crean muchas sesiones y no se borran, es posible que no se pueda acceder a vCenter Server. Por lo general, esta situación se produce porque se crea un gran número de sesiones de forma automatizada. Esto genera una alerta automatizada y VMware reiniciará vCenter Server. En ese caso, recibirá una notificación por correo electrónico.
Reinicio de vCenter Server: Es posible que una serie de problemas diferentes requiera el reinicio de vCenter Server. Algunos problemas pueden requerir un reinicio inmediato para que se corrijan, mientras que otros pueden permitir que se siga usando y se reinicien más adelante. En este último caso, recibirá una notificación por correo electrónico en la que se informará de que el reinicio se producirá en las siguientes 24 horas. Después de un reinicio, es posible que las tareas en curso y las conexiones de la aplicación deban reiniciarse.
Eliminación de un certificado de CA de vCenter caducado: Algunas integraciones de productos instalan certificados de CA en vCenter. Cuando un certificado de CA está caducado, se pueden producir errores al agregar un host. Los certificados de CA caducados se eliminarán.

Operaciones de NSX

Reinicio del plano de administración (NSX Manager): Es posible que una serie de problemas diferentes requiera reiniciar NSX Manager. Algunos problemas pueden requerir un reinicio inmediato para que se corrijan, mientras que otros pueden permitir que se siga usando y se reinicien más adelante. Durante el breve periodo que demora NSX Manager en reiniciarse, no podrá acceder a la interfaz de usuario de redes y seguridad de SDDC. No recibirá una notificación por correo electrónico para los eventos de reinicio de NSX Manager.
Conmutación por error de NSX Edge: Si el sistema de supervisión detecta que una instancia de NSX Edge (activa) está por entrar en un estado incorrecto, se programará la conmutación por error de NSX Edge para las horas de inactividad. Esta conmutación por error programada se realiza como una medida proactiva para evitar posibles interrupciones de una conmutación por error en horas pico. Si hay un problema con la instancia de NSX Edge (activa) antes de la conmutación por error programada, la conmutación por error se realizará automáticamente. Recibirá una notificación por correo electrónico si se programó una conmutación por error de NSX Edge.

Operaciones de SDDC

Error del SDDC de host único

La configuración de inicio de SDDC de host único no tiene SLA y es adecuada para los casos prácticos de prueba de concepto o de prueba y desarrollo. VMware no realiza ninguna corrección en el caso de un error en un SDDC de host único. Recibirá una notificación por correo electrónico si se produce un error en un SDDC de host único.

Copias de seguridad de SDDC

Se realiza una copia de seguridad de cada SDDC diariamente a las 0900Z, así como antes de cualquier actividad de mantenimiento planificado.

Hacemos una copia de seguridad de: vCenter Server, la configuración de vSAN y NSX. No se hace una copia de seguridad de los datos de los clientes ni de las máquinas virtuales de carga de trabajo.
Retención de las copias de seguridad: antigüedad máxima de 28 días y máximo de 56 copias de seguridad. Almacenamiento de las copias de seguridad: se cifran con S3 dentro de la región del SDDC y se eliminan cuando se elimina el SDDC. No se puede recuperar un SDDC eliminado de una copia de seguridad.
La recuperación de los componentes de administración se rige por el SLA. VMware decidirá si la recuperación se realiza a partir de una copia de seguridad o una reparación.

Almacenes de datos NFS

Disponibilidad del almacén de datos: Si los hosts de vSphere pierden el acceso a un almacén de datos NFS (todas las rutas de acceso están inactivas) durante más de 320 segundos, vSphere HA apagará todas las máquinas virtuales de ese host que tuvieran datos almacenados en el almacén de datos afectado. HA intentará reiniciar la máquina virtual en un host que tenga una conexión correcta con el almacén de datos.
Estado del SDDC: Si un host está bloqueado para entrar en modo de mantenimiento porque una máquina virtual en ejecución no se puede reubicar debido a la disponibilidad parcial del almacén de datos NFS, las operaciones de VMware apagarán la máquina virtual infractora. VMware intentará recuperar cualquier carga de trabajo afectada, pero las máquinas virtuales permanecerán apagadas hasta que se restaure el acceso al almacenamiento y vuelva a encenderlas.