SDDC の健全性を確保するための VMware の対処法

VMware のサイト信頼性エンジニア (SRE) チームは、自動化を通して、ユーザーの SDDC 環境を継続的に監視しています。以下で、VMware が SDDC の健全性確保を自動化するプロセスについて説明します。

仮想マシン操作

実体のない仮想マシンの自動修正: ストレージポリシーとして「データ冗長性なし/仮想マシンの FTT = 0」を使用すると、障害が発生した場合、または仮想マシンが応答不能になった場合に、データが失われることがあります。障害が発生し、1 台または複数の仮想マシンが実体をなくした場合、VMware はクリーンアップアクションを実行します。このアクションが行われると、E メール通知が送信されます。

vCenter Server のセッション数（接続数）の上限到達: 多数のセッションが作成された後に、これらがクリアされなかった場合、 vCenter Server にアクセスできなくなることがあります。この問題は通常、自動化によって多数のセッションが作成された場合に発生します。この状態になると、自動アラートが生成され、VMware は vCenter Server を再起動します。このアクションが行われると、E メール通知が送信されます。
vCenter Server の再起動: さまざまな問題で、 vCenter Server の再起動が必要になることがあります。問題によって、直ちに再起動による修正が必要になる場合や、使用の継続は可能で後で再起動することにより解決する場合もあります。後で再起動する場合は、24 時間後に再起動されることを知らせる E メール通知が送信されます。再起動後、進行中のタスクおよびアプリケーション接続の再起動が必要になる場合があります。
有効期限切れの vCenter Server CA 証明書の削除: 一部の製品統合では、vCenter Server に CA 証明書がインストールされます。CA 証明書の有効期限が切れている場合、ホストの追加に失敗する場合があります。期限切れの CA 証明書は削除されます。

管理プレーン (NSX Manager) の再起動: さまざまな問題で、NSX Manager の再起動が必要になることがあります。問題によって、直ちに再起動による修正が必要になる場合や、使用の継続は可能で後で再起動することにより解決する場合もあります。NSX Manager が再起動している間、短時間、SDDC のネットワークとセキュリティのユーザーインターフェイスにアクセスできなくなります。NSX Manager 再起動イベントの E メール通知は送信されません。
NSX Edge フェイルオーバー: 監視システムによって NSX Edge（アクティブ）が健全でない状態に移行することが検出された場合は、ピーク時以外の時間帯に NSX Edge フェイルオーバーをスケジューリングします。このフェイルオーバーは、ピーク時にフェイルオーバーが発生する可能性を回避するためのプロアクティブな措置として実行されます。スケジュール設定されたフェイルオーバーよりも前に NSX（アクティブ）Edge に問題があった場合は、自動的にフェイルオーバーされます。NSX Edge フェイルオーバーのスケジュールを設定すると、E メール通知が送信されます。

単一ホスト SDDC の障害

単一ホスト SDDC のスタータ構成には SLA が設定されておらず、POC（事前検証）やテストおよび開発の使用事例に適しています。単一ホスト SDDC で障害が発生した場合、VMware は修正を実行しません。単一ホスト SDDC で障害が発生した場合は、E メール通知が送信されます。

SDDC のバックアップ

毎日 0900Z (9:00 UTC) および計画メンテナンスアクティビティの前にすべての SDDC をバックアップします。

バックアップ対象：vCenter Server、vSAN 構成、NSX。お客様のデータとワークロード仮想マシンはバックアップしません。
保持されるバックアップ：最長 28 日間、最大 56 個のバックアップ。保存されるバックアップの状態：SDDC のリージョン内の S3 で暗号化され、SDDC が削除されると削除されます。削除された SDDC をバックアップからリカバリすることはできません。
管理コンポーネントのリカバリは SLA によって管理されます。VMware は、バックアップからリカバリするか修復するかを決定します。

データストアの可用性: vSphere ホストが 320 秒を超えて NFS データストアにアクセスできなくなった（APD (All Path Down) 状態）場合、vSphere HA は、影響を受けるデータストアにデータが保存されていた、そのホスト上のすべての仮想マシンをパワーオフします。HA は、データストアに正常に接続されているホスト上の仮想マシンの再起動を試行します。
SDDC の健全性: NFS データストアの一部の可用性が原因で実行中の仮想マシンを再配置できないために、ホストがメンテナンスモードに切り替わらない場合は、問題のある仮想マシンがパワーオフされます。VMware は影響を受けるワークロードのリカバリを試行しますが、ストレージアクセスがリストアされて仮想マシンが再度パワーオンされるまで、仮想マシンはパワーオフ状態のままです。