La corrección automática en un nivel alto supervisa los errores de hardware y software, e intenta corregir automáticamente el problema buscando una solución o reemplazando el hardware. Cuando todo lo demás falla, el proceso de corrección automática solicita la intervención manual de un SRE.

Funciones que realiza el escalado automático en secuencia cuando se produce un evento:

  1. Supervisión: la plataforma de VMC supervisa continuamente el estado del sistema de cada SDDC y de cada host de la flota. Cuando se detecta un error, se envía un evento a la corrección automática.
    • Supervisa los errores de hardware y software.
    • Aprovisiona el hardware automáticamente cuando se detecta un error.
    • Corrige los errores automáticamente cuando es posible.
    • Un SRE interviene manualmente cuando no hay una resolución automática disponible.
  2. Esperar eventos transitorios: algunos de los errores detectados pueden ser temporales. Por ejemplo, el sistema de supervisión no puede acceder a un host debido a un problema temporal de conectividad. La corrección automática espera 5 minutos para determinar si el problema es temporal. Si el problema desaparece, la corrección automática se devuelve sin realizar ninguna acción.
  3. Agregar un host: si el error no se resuelve después de 5 minutos, la corrección automática comienza a agregar un host al SDDC aunque aún no sepa si es necesario o no un host. Agregar un host ahora garantiza que esté disponible cuando sea necesario. Tenga en cuenta que no se le facturará este host hasta que reemplace un host defectuoso en el SDDC.
  4. Determinar un tipo de error y realizar una acción: los hosts pueden fallar por distintos motivos y requerir una acción diferente. Por ejemplo, un error de disco vSAN en un host que aún está conectado a un vCenter Server puede corregirse mediante un reinicio flexible, mientras que un host PSOD requiere un reinicio completo. La lógica de corrección automática para esto es compleja y está en constante evolución, pero puede revisar el error y realizar la acción menos intrusiva. La corrección automática es un proceso interno y los clientes no tienen acceso a la lógica. Si tiene algún problema, puede ponerse en contacto con el soporte técnico de VMware.
  5. Comprobar el estado del host: el siguiente paso consiste en comprobar si la acción de corrección ha corregido el host. Si el host con errores se encuentra en buen estado después de un reinicio flexible o completo, la corrección automática evita otras interrupciones en el SDDC. Recopila y realiza cualquier otra acción necesaria y elimina el nuevo host que se agregó previamente en el paso 2.
  6. Reemplazar el host: si no se puede reactivar el host con errores, el escalado automático quita el host con errores y lo reemplaza por el host que se agregó en el paso 2. En esta etapa, el escalado automático quita el host con errores y lo reemplaza por el host que se agregó en el paso 2. vSphere HA y vSAN se activan y se asocian etiquetas de directiva de cálculo al nuevo host.