NSX イベント カタログ
次の表では、アラーム メッセージやイベントを解決するための推奨アクションなど、VMware NSX® でアラームをトリガするイベントについて説明します。重要度が「低」より大きいイベントでアラームがトリガされます。アラーム情報は、NSX Manager インターフェイスの複数の場所に表示されます。アラームとイベントの情報は、タイトル バーの [通知] ドロップダウン メニューに他の通知と一緒に表示されます。アラームを表示するには、ホーム ページに移動して、[アラーム] タブをクリックします。アラームとイベントの詳細については、『NSX 管理ガイド』の「イベントとアラームの操作」を参照してください。
アラーム管理イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
アラーム サービスの過負荷状態 | 重大 | global-manager、manager、aas | アラーム サービスが過負荷状態になっています。 |
NSX ユーザー インターフェイスの [アラーム] ページまたは GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED NSX API を使用して、すべてのアクティブ アラームを確認します。それぞれのアクティブ アラームに対して、アラームの推奨アクションに従い、根本原因を調査します。十分なアラームが解決されると、アラーム サービスが新しいアラームの報告を再開します。 |
3.0.0 |
大量のアラーム | 重大 | global-manager、manager、aas | 特定のタイプのアラームが大量に検出されました。 |
NSX UI の [アラーム] 画面を使用するか、NSX API GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED を使用して、{event_id} タイプのアクティブ アラームをすべて確認してください。それぞれのアクティブ アラームに対して、アラームの推奨アクションに従い、根本原因を調査します。十分なアラームが解決されると、アラーム サービスが新しい {event_id} アラームの報告を再開します。 |
3.0.0 |
監査ログの健全性イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
監査ログ ファイルの更新エラー | 重大 | global-manager、manager、edge、public-cloud-gateway、esx、kvm、bms | 1 つ以上のモニタリング対象ログ ファイルに書き込むことができません。 |
1.マネージャ ノードとグローバル マネージャ ノード、Edge ノードと Public Cloud Gateway ノード、Ubuntu KVM ホスト ノードで、/var/log ディレクトリの権限が 775、所有権が root:syslog であることを確認します。Rhel KVM ノードと BMS ホスト ノードで、/var/log ディレクトリの権限が 755、所有権が root:root であることを確認します。 |
3.1.0 |
リモート ログ サーバ エラー | 重大 | global-manager、manager、edge、public-cloud-gateway | リモート ログ サーバの構成が正しくないため、ログ メッセージを配信できません。 |
1.{hostname_or_ip_address_with_port} が正しいホスト名か、正しい IP アドレスとポートの組み合わせであることを確認します。 |
3.1.0 |
容量イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
最小キャパシティのしきい値 | Medium | manager | 最小キャパシティのしきい値に違反しています。 |
NSX ユーザー インターフェイスの [キャパシティ] ページに移動し、現在の使用量としきい値の制限を確認します。現在の使用量が予期されるものである場合は、最小しきい値を増やすことを検討してください。現在の使用量が予期しないものである場合は、構成されたネットワーク ポリシーを確認して、使用量を最小しきい値以下に減らすようにしてください。 |
3.1.0 |
最大キャパシティのしきい値 | 高 | manager | 最大キャパシティのしきい値に違反しています。 |
NSX ユーザー インターフェイスの [キャパシティ] ページに移動し、現在の使用量としきい値の制限を確認します。現在の使用量が予期されるものである場合は、最大しきい値を増やすことを検討してください。現在の使用量が予期しないものである場合は、構成されたネットワーク ポリシーを確認して、使用量を最大しきい値以下に減らします。 |
3.1.0 |
最大キャパシティ | 重大 | manager | 最大キャパシティに違反しています。 |
作成される NSX オブジェクトの数が、NSX でサポートされている制限内であることを確認します。未使用のオブジェクトがある場合は、それぞれの NSX ユーザー インターフェイスまたは API を使用してシステムから削除します。すべてのマネージャ ノードまたは Edge ノードのフォーム ファクタを拡大することも検討してください。ただし、各ノード タイプのフォーム ファクタは同じにする必要があります。同じでない場合、展開された最小フォーム ファクタの容量制限が使用されます。 |
3.1.0 |
証明書イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
期限切れの証明書 | 重大 | global-manager、manager | 証明書が期限切れです。 |
現在、証明書を使用しているサービスが、期限切れでない新しい証明書を使用するように更新されていることを確認します。期限切れの証明書が使用されなくなったら、DELETE {api_collection_path}{entity_id} NSX API を呼び出して、これらの証明書を削除する必要があります。期限切れの証明書が NAPP プラットフォームで使用されていると、NSX と NAPP プラットフォーム間の接続が切断されます。接続を復旧するには、NAPP プラットフォームのトラブルシューティング ドキュメントを参照して、自己署名の NAPP CA 証明書を使用してください。 |
3.0.0 |
証明書がまもなく期限切れ | 高 | global-manager、manager | 証明書がまもなく期限切れになります。 |
現在、証明書を使用しているサービスが、有効期限が近くない新しい証明書を使用するように更新されていることを確認します。期限切れの近い証明書が使用されなくなったら、DELETE {api_collection_path}{entity_id} NSX API を呼び出して、これらの証明書を削除する必要があります。 |
3.0.0 |
証明書がまもなく期限切れ | Medium | global-manager、manager | 証明書の期限切れが近づいています。 |
現在、証明書を使用しているサービスが、有効期限が近くない新しい証明書を使用するように更新されていることを確認します。期限切れの近い証明書が使用されなくなったら、DELETE {api_collection_path}{entity_id} NSX API を呼び出して、これらの証明書を削除する必要があります。 |
3.0.0 |
CA バンドルの更新を推奨 | 高 | global-manager、manager | 信頼された CA バンドルの更新を推奨します。 |
信頼された CA バンドルを現在使用しているサービスが、最近更新された信頼された CA バンドルを使用するように更新されていることを確認します。システム提供のバンドルでない限り、バンドルは PUT /policy/api/v1/infra/cabundles/{entity_id} NSX API で更新できます。システム提供のバンドルを除き、期限切れで未使用のバンドルは、DELETE /policy/api/v1/infra/cabundles/{entity_id} NSX API を呼び出して削除する必要があります。 |
3.2.0 |
CA バンドルの更新を提案 | Medium | global-manager、manager | 信頼された CA バンドルの更新を提案します。 |
信頼された CA バンドルを現在使用しているサービスが、最近更新された信頼された CA バンドルを使用するように更新されていることを確認します。システム提供のバンドルでない限り、バンドルは PUT /policy/api/v1/infra/cabundles/{entity_id} NSX API で更新できます。システム提供のバンドルを除き、期限切れで未使用のバンドルは、DELETE /policy/api/v1/infra/cabundles/{entity_id} NSX API を呼び出して削除する必要があります。 |
3.2.0 |
トランスポート ノード証明書が期限切れです | 重大 | bms、edge、esx、kvm、public-cloud-gateway | 証明書が期限切れです。 |
トランスポート ノード {entity_id}の証明書を期限切れでない証明書に置き換えます。期限切れの証明書は、POST /api/v1/trust-management/certificates/action/replace-host-certificate/{entity_id} NSX API を呼び出して置き換える必要があります。期限切れの証明書がトランスポート ノードによって使用されている場合、トランスポート ノードとマネージャ ノード間の接続が切断されます。 |
4.1.0 |
トランスポート ノード証明書がまもなく期限切れです | 高 | bms、edge、esx、kvm、public-cloud-gateway | 証明書がまもなく期限切れになります。 |
トランスポート ノード {entity_id}の証明書を期限切れでない証明書に置き換えます。期限切れの証明書は、POST /api/v1/trust-management/certificates/action/replace-host-certificate/{entity_id} NSX API を呼び出して置き換える必要があります。証明書が置き換えられていない場合、証明書の有効期限が切れると、トランスポート ノードとマネージャ ノード間の接続が切断されます。 |
4.1.0 |
トランスポート ノード証明書の有効期限が近づいています | Medium | bms、edge、esx、kvm、public-cloud-gateway | 証明書の期限切れが近づいています。 |
トランスポート ノード {entity_id}の証明書を期限切れでない証明書に置き換えます。期限切れの証明書は、POST /api/v1/trust-management/certificates/action/replace-host-certificate/{entity_id} NSX API を呼び出して置き換える必要があります。証明書が置き換えられていない場合、証明書の有効期限が切れると、トランスポート ノードとマネージャ ノード間の接続が切断されます。 |
4.1.0 |
クラスタリング イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
クラスタ劣化 | Medium | global-manager、manager | グループ メンバーが停止しています。 |
1.NSX CLI コマンド 'get cluster status' を呼び出して、クラスタのグループ メンバーの状態を確認します。 |
3.2.0 |
クラスタ使用不能 | 高 | global-manager、manager | サービスのすべてのグループ メンバーが停止しています。 |
1.{group_type} のサービスがノードで実行されていることを確認します。GET /api/v1/node/services/<service_name>/status NSX API または NSX CLI コマンド get service <service_name> を呼び出して、サービスが実行されているかどうか確認します。実行されていない場合は、POST /api/v1/node/services/<service_name>?action=restart NSX API または restart service <service_name> NSX CLI を呼び出し、サービスを再起動します。 |
3.2.0 |
CNI 健全性イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
DPU での Hyperbus マネージャの切断 | Medium | dpu | DPU で Hyperbus はマネージャ ノードと通信不能です。 |
DPU {dpu_id} の Hyperbus vmkernel インターフェイス (vmk50) が存在しない可能性があります。ナレッジベースの記事 https://kb.vmware.com/s/article/67432 を参照してください。 |
4.0.0 |
Hyperbus マネージャの切断 | Medium | esx、kvm | Hyperbus がマネージャ ノードと通信できません。 |
Hyperbus vmkernel インターフェイス (vmk50) が存在しない可能性があります。ナレッジベースの記事 https://kb.vmware.com/s/article/67432 を参照してください。 |
3.0.0 |
通信イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
DPU の制限された到達可能性 | Medium | dpu | DPU 上の指定された VDS の vmknic 経由で、指定されたコレクタは到達不能です。 |
警告がオンになっていても、コレクタに到達不能とは限りません。VDS {dvs_alias} に基づいて垂直方向に生成されたエクスポート フローは、VDS {dvs_alias} 以外にも、VDS 上の vmknic 経由でコレクタ {collector_ip} に到達可能です。これが許容できない場合は、VDS {dvs_alias} 上のスタック {stack_alias} を使用して vmknic を作成し、これを適切な IPv4(6) アドレスで構成します。その後、ESXi 経由で DPU への SSH を有効にして、vmkping {collector_ip} -S {stack_alias} -I vmkX を呼び出し、DPU {dpu_id} に新しく作成した vmknic 経由で {vertical_name} コレクタ {collector_ip} に到達可能かどうか確認します。 |
4.0.1 |
DPU 上のコレクタに到達できません | 重大 | dpu | DPU 上の既存の vmknic 経由で、指定されたコレクタは完全に到達不能です。 |
VDS 上の指定された垂直方向でコレクタに到達できるようにするには、想定されるスタック {stack_alias} を使用する vmknic が作成され、IPv4(6) アドレスが構成されていることと、{vertical_name} コレクタ {collector_ip} へのネットワーク接続が正常であることを確認する必要があります。この条件を満たすには、DPU {dpu_id} で確認を行い、必要な構成を実行する必要があります。最後に、ESXi 経由で DPU への SSH を有効にした状態で vmkping {collector_ip} -S {stack_alias} が成功した場合は、問題が解決されています。 |
4.0.1 |
マネージャー クラスタの遅延が大きい | Medium | manager | マネージャ ノード間のネットワークの平均遅延が大きくなっています。 |
マネージャ ノード間の ping トラフィックをブロックするファイアウォール ルールがないことを確認します。ローカル ネットワークを共有している他の高帯域幅のサーバとアプリケーションがある場合は、これらを別のネットワークに移行することを検討してください。 |
3.1.0 |
制御チャネルからマネージャ ノードへの接続が長時間停止 | 重大 | bms、edge、esx、kvm、public-cloud-gateway | トランスポート ノードの制御プレーンからマネージャ ノードへの接続が長時間停止しています。 |
1.ping を実行して、トランスポート ノード {entity_id} からマネージャ ノード {appliance_address} インターフェイスへの接続を確認します。ping に失敗した場合は、ネットワーク接続が不安定かどうか確認します。 |
3.1.0 |
制御チャネルからマネージャ ノードへの接続が停止 | Medium | bms、edge、esx、kvm、public-cloud-gateway | トランスポート ノードの制御プレーンからマネージャ ノードへの接続が停止しています。 |
1.ping を実行して、トランスポート ノード {entity_id} からマネージャ ノード {appliance_address} インターフェイスへの接続を確認します。ping に失敗した場合は、ネットワーク接続が不安定かどうか確認します。 |
3.1.0 |
制御チャネルからトランスポート ノードへの接続が停止 | Medium | manager | コントローラ サービスからトランスポート ノードへの接続が停止しています。 |
1.ping と traceroute を使用して、コントローラ サービス {central_control_plane_id} からトランスポート ノード {entity_id} インターフェイスへの接続を確認します。この操作は、NSX Manager ノードの admin CLI で実行できます。ping のテストで損失と一定の遅延値がなければ問題ありません。150ms 以下の遅延値が推奨値です。 |
3.1.0 |
制御チャネルからトランスポート ノードへの接続が長時間停止 | 重大 | manager | コントローラ サービスからトランスポート ノードへの接続が長時間停止しています。 |
1.ping と traceroute を使用して、コントローラ サービス {central_control_plane_id} からトランスポート ノード {entity_id} インターフェイスへの接続を確認します。この操作は、NSX Manager ノードの admin CLI で実行できます。ping のテストで損失と一定の遅延値がなければ問題ありません。150ms 以下の遅延値が推奨値です。 |
3.1.0 |
マネージャの制御チャネルが停止 | 重大 | manager | マネージャからコントローラ チャネルへの接続が停止しています。 |
1.マネージャ ノード {manager_node_name} ({appliance_address}) で、NSX CLI コマンド get service applianceproxy を呼び出し、サービスの状態を 60 分間隔で確認します。 |
3.0.2 |
管理チャネルからトランスポート ノードへの接続が停止 | Medium | manager | 管理チャネルからトランスポート ノードへの接続が停止しています。 |
マネージャ ノードとトランスポート ノード {transport_node_name} ({transport_node_address}) 間でネットワーク接続が確立していることと、これらのノード間のトラフィックがファイアウォールでブロックされていないことを確認します。Windows トランスポート ノードで、Windows PowerShell から C:\NSX\nsx-proxy\nsx-proxy.ps1 status コマンドを実行し、トランスポート ノードで nsx-proxy サービスが実行されていることを確認します。実行されていない場合は、C:\NSX\nsx-proxy\nsx-proxy.ps1 restart コマンドを呼び出して再起動します。他のすべてのトランスポート ノードで、/etc/init.d/nsx-proxy status コマンドを呼び出し、トランスポート ノードで nsx-proxy サービスが実行されていることを確認します。実行されていない場合は、/etc/init.d/nsx-proxy restart コマンドを呼び出して再起動します。 |
3.0.2 |
管理チャネルからトランスポート ノードへの接続が長時間停止 | 重大 | manager | 管理チャネルからトランスポート ノードへの接続が長時間停止しています。 |
マネージャ ノードとトランスポート ノード {transport_node_name} ({transport_node_address}) 間でネットワーク接続が確立していることと、これらのノード間のトラフィックがファイアウォールでブロックされていないことを確認します。Windows トランスポート ノードで、Windows PowerShell から C:\NSX\nsx-proxy\nsx-proxy.ps1 status コマンドを呼び出して、トランスポート ノードで nsx-proxy サービスが実行されていることを確認します。実行されていない場合は、C:\NSX\nsx-proxy\nsx-proxy.ps1 restart コマンドを呼び出して再起動します。他のすべてのトランスポート ノードで、/etc/init.d/nsx-proxy status コマンドを呼び出し、トランスポート ノードで nsx-proxy サービスが実行されていることを確認します。実行されていない場合は、/etc/init.d/nsx-proxy restart コマンドを呼び出して再起動します。 |
3.0.2 |
マネージャの FQDN 参照の失敗 | 重大 | global-manager、bms、edge、esx、kvm、manager、public-cloud-gateway | マネージャ ノードの FQDN の DNS 参照に失敗しました。 |
1.すべてのマネージャ ノードに正しい FQDN を割り当てます。DNS 構成をチェックし、すべてのマネージャ ノードの FQDN の参照が正常に行われることを確認します。 |
3.1.0 |
マネージャの FQDN 逆引きの失敗 | 重大 | global-manager、manager | マネージャ ノードの IP アドレスの DNS 逆引き参照に失敗しました。 |
1.すべてのマネージャ ノードに正しい FQDN を割り当てます。DNS 構成をチェックし、マネージャ ノードの IP アドレスの逆引き参照が正常に行われることを確認します。 |
3.1.0 |
管理チャネルからマネージャ ノードへの接続が停止 | Medium | bms、edge、esx、kvm、public-cloud-gateway | 管理チャネルからマネージャ ノードへの接続が停止しています。 |
トランスポート ノード {transport_node_id} とマスター マネージャ ノードの間にネットワーク接続があることを確認します。また、これらのノード間のトラフィックがファイアウォールでブロックされていないことを確認します。/etc/init.d/messaging-manager status コマンドを呼び出して、マネージャ ノードでメッセージング マネージャ サービスが実行されていることを確認します。実行されていない場合は、/etc/init.d/messaging-manager restart コマンドを呼び出してサービスを再起動します。 |
3.2.0 |
管理チャネルからマネージャ ノードへの接続が長時間停止 | 重大 | bms、edge、esx、kvm、public-cloud-gateway | 管理チャネルからマネージャ ノードへの接続が長時間停止しています。 |
トランスポート ノード {transport_node_id} とマスター マネージャ ノードの間にネットワーク接続があることを確認します。また、これらのノード間のトラフィックがファイアウォールでブロックされていないことを確認します。/etc/init.d/messaging-manager status コマンドを呼び出して、マネージャ ノードでメッセージング マネージャ サービスが実行されていることを確認します。実行されていない場合は、/etc/init.d/messaging-manager restart コマンドを呼び出してサービスを再起動します。 |
3.2.0 |
ネットワーク遅延が大きい | Medium | manager | 管理ノードからトランスポート ノードへのネットワーク遅延が大きくなっています。 |
1.5 分待って、アラームが自動的に解決されるかどうかを確認します。 |
4.0.0 |
DHCP イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
プール リースの割り当て失敗 | 高 | edge、autonomous-edge、public-cloud-gateway | IP プール内の IP アドレスが不足しています。 |
NSX ユーザー インターフェイスで、あるいは DHCP サーバが実行されている Edge ノードで NSX CLI コマンド get dhcp ip-pool を呼び出して、DHCP プールの構成を確認します。さらに、NSX CLI コマンド get dhcp lease を呼び出して、Edge ノードで現在アクティブなリースを確認します。リースとアクティブな仮想マシンの数を比較します。アクティブなリースの数と比較して、仮想マシンの数が少ない場合は、DHCP サーバ構成でリース時間を短縮することを検討します。また、NSX UI で [ネットワーク] | [セグメント] | [セグメント] 画面の順にアクセスして、DHCP サーバのプール範囲を拡張することを検討します。 |
3.0.0 |
プールの状態: 過負荷 | Medium | edge、autonomous-edge、public-cloud-gateway | IP プールが過負荷状態になっています。 |
NSX ユーザー インターフェイスで、あるいは DHCP サーバが実行されている Edge ノードで NSX CLI コマンド get dhcp ip-pool を呼び出して、DHCP プールの構成を確認します。さらに、NSX CLI コマンド get dhcp lease を呼び出して、Edge ノードで現在アクティブなリースを確認します。リースとアクティブな仮想マシンの数を比較します。アクティブなリースの数と比較して、仮想マシンの数が少ない場合は、DHCP サーバ構成でリース時間を短縮することを検討します。また、NSX UI で [ネットワーク] | [セグメント] | [セグメント] 画面の順にアクセスして、DHCP サーバのプール範囲を拡張することを検討します。 |
3.0.0 |
分散ファイアウォール イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
DFW の CPU 使用率が非常に高い | 重大 | esx | DFW の CPU 使用率が非常に高くなっています。 |
このホストと他のホストの間で仮想マシン ワークロードのリバランシングを行うことを検討してください。最適化でのセキュリティ設計を確認してください。たとえば、ルールがデータセンター全体に適用されない場合は、適用先の構成を使用します。 |
3.0.0 |
DPU で DFW の CPU 使用率が非常に高い | 重大 | dpu | DPU で DFW の CPU 使用率が非常に高くなっています。 |
このホストと他のホストの間で仮想マシン ワークロードのリバランシングを行うことを検討してください。最適化でのセキュリティ設計を確認してください。たとえば、ルールがデータセンター全体に適用されない場合は、適用先の構成を使用します。 |
4.0.0 |
DFW のメモリ使用率が非常に高い | 重大 | esx | DFW のメモリ使用率が非常に高くなっています。 |
ホストで NSX CLI コマンド get firewall thresholds を呼び出して、現在の DFW のメモリ使用率を確認します。このホストと他のホストの間でワークロードのリバランシングを行うことを検討してください。 |
3.0.0 |
DPU で DFW のメモリ使用率が非常に高い | 重大 | dpu | DPU で DFW のメモリ使用率が非常に高くなっています。 |
DPU で NSX CLI コマンド get firewall thresholds を呼び出して、現在の DFW のメモリ使用率を確認します。このホストと他のホストの間でワークロードのリバランシングを行うことを検討してください。 |
4.0.0 |
DFW vMotion の障害 | 重大 | esx | DFW vMotion に失敗し、ポートが切断されました。 |
NSX Manager でホスト上の仮想マシンを確認します。NSX Manager ユーザー インターフェイスで、DFW 構成を手動で再度プッシュします。再プッシュされる DFW ポリシーは、DFW フィルタ {entity_id} で追跡できます。また、DFW フィルタが接続している仮想マシンを特定して再起動することも検討してください。 |
3.2.0 |
DFW フラッド制限: 警告 | Medium | esx | DFW フラッド制限が警告レベルに達しました。 |
NSX Manager でホスト上の仮想マシンを確認し、DFW フィルタ {entity_id} でプロトコル {protocol_name} に構成されている警告フラッド レベルを確認します。 |
4.1.0 |
DFW フラッド制限: 重大 | 重大 | esx | DFW フラッド制限が重大レベルに達しました。 |
NSX Manager でホスト上の仮想マシンを確認し、DFW フィルタ {entity_id} でプロトコル {protocol_name} に構成されている重大フラッド レベルを確認します。 |
4.1.0 |
DFW セッション数が多い | 重大 | esx | DFW セッション数が多くなっています。 |
ホスト上で、ワークロードのネットワーク トラフィックの負荷レベルを確認します。このホストと他のホストの間でワークロードのリバランシングを行うことを検討してください。 |
3.2.0 |
vNIC あたりの DFW ルール数が上限を超過 | 重大 | esx | vNIC あたりの DFW ルール数の制限がまもなく上限を超えます。 |
ESX ホスト {transport_node_name} にログインし、NSX CLI コマンド get firewall <VIF_UUID> ruleset rules を呼び出して、対応する VIF に構成されたルールの統計情報を取得します。VIF {entity_id} に構成されたルールの数を減らします。 |
4.0.0 |
vNIC あたりの DFW ルール数が上限に近い | Medium | esx | vNIC あたりの DFW ルール数が上限に近づいています。 |
ESX ホスト {transport_node_name} にログインし、NSX CLI コマンド get firewall <VIF_UUID> ruleset rules を呼び出して、対応する VIF に構成されたルールの統計情報を取得します。VIF {entity_id} に構成されたルールの数を減らします。 |
4.0.0 |
ホスト 1 台あたりの DFW ルール数が上限を超過 | 重大 | esx | ホスト 1 台あたりの DFW ルール数の制限がまもなく上限を超えます。 |
ESX ホスト {transport_node_name} にログインし、NSX CLI コマンド get firewall rule-stats total を呼び出して、ESX ホスト {transport_node_name} で構成されたルールのルール統計情報を取得します。ホスト {transport_node_name} に構成されたルールの数を減らします。NSX CLI コマンドget firewall <VIF_UUID> ruleset rules を使用して、さまざまな VIF に構成されているルールの数を確認します。さまざまな VIF に構成されているルールの数を減らします。 |
4.0.0 |
ホスト 1 台あたりの DFW ルール数が上限に近い | Medium | esx | ホスト 1 台あたりの DFW ルール数が上限に近づいています。 |
ESX ホスト {transport_node_name} にログインし、NSX CLI コマンド get firewall rule-stats total を呼び出して、ESX ホスト {transport_node_name} で構成されたルールのルール統計情報を取得します。ホスト {transport_node_name} に構成されたルールの数を減らします。NSX CLI コマンドget firewall <VIF_UUID> ruleset rules を使用して、さまざまな VIF に構成されているルールの数を確認します。さまざまな VIF に構成されているルールの数を減らします。 |
4.0.0 |
分散 IDS/IPS イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
イベントの最大数に到達 | Medium | manager | 侵入イベントの最大数に達しました。 |
手動での操作は必要ありません。パージ ジョブは 3 分ごとに自動的に開始し、古いレコードの 10% が削除されます。これにより、システム内のすべての侵入イベントの合計数がイベントのしきい値(150 万)を下回ります。 |
3.1.0 |
NSX IDPS エンジンのメモリ使用率が高い | Medium | esx | NSX-IDPS エンジンのメモリ使用量が 75% 以上に達しています。 |
このホストと他のホストの間で仮想マシン ワークロードのリバランシングを行うことを検討してください。 |
3.1.0 |
DPU での NSX IDPS エンジンのメモリ使用率が高い | Medium | dpu | DPU で NSX-IDPS エンジンのメモリ使用量が 75% 以上に達します。 |
このホストと他のホストの間で仮想マシン ワークロードのリバランシングを行うことを検討してください。 |
4.0.0 |
NSX IDPS エンジンのメモリ使用率がやや高い | 高 | esx | NSX-IDPS エンジンのメモリ使用量が 85% 以上に達します。 |
このホストと他のホストの間で仮想マシン ワークロードのリバランシングを行うことを検討してください。 |
3.1.0 |
DPU での NSX IDPS エンジンのメモリ使用率がやや高い | 高 | dpu | DPU で NSX-IDPS エンジンのメモリ使用量が 85% 以上に達します。 |
このホストと他のホストの間で仮想マシン ワークロードのリバランシングを行うことを検討してください。 |
4.0.0 |
NSX IDPS エンジンのメモリ使用率が非常に高い | 重大 | esx | NSX-IDPS エンジンのメモリ使用量が 95% 以上に達しています。 |
このホストと他のホストの間で仮想マシン ワークロードのリバランシングを行うことを検討してください。 |
3.1.0 |
DPU での NSX IDPS エンジンのメモリ使用率が非常に高い | 重大 | dpu | DPU で NSX-IDPS エンジンのメモリ使用量が 95% 以上に達します。 |
このホストと他のホストの間で仮想マシン ワークロードのリバランシングを行うことを検討してください。 |
4.0.0 |
NSX IDPS エンジンの CPU 使用率が高い | Medium | esx | NSX-IDPS エンジンの CPU 使用率が 75% 以上に達しています。 |
このホストと他のホストの間で仮想マシン ワークロードのリバランシングを行うことを検討してください。 |
3.1.0 |
NSX IDPS エンジンの CPU 使用率がやや高い | 高 | esx | NSX-IDPS エンジンの CPU 使用率が 85% 以上に達しています。 |
このホストと他のホストの間で仮想マシン ワークロードのリバランシングを行うことを検討してください。 |
3.1.0 |
NSX IDPS エンジンの CPU 使用率が非常に高い | 重大 | esx | NSX-IDPS エンジンの CPU 使用率が 95% を超えています。 |
このホストと他のホストの間で仮想マシン ワークロードのリバランシングを行うことを検討してください。 |
3.1.0 |
NSX IDPS エンジン停止 | 重大 | esx | NSX ポリシーで NSX IDPS が有効になり、IDPS ルールが構成されていますが、NSX-IDPS エンジンが停止しています。 |
1./var/log/nsx-syslog.log で、エラーが報告されているかどうか確認します。 |
3.1.0 |
DPU で NSX IDPS エンジン停止 | 重大 | dpu | NSX ポリシーで NSX IDPS が有効になり、IDPS ルールが構成されていますが、DPU で NSX-IDPS エンジンが停止しています。 |
1./var/log/nsx-idps/nsx-idps.log と /var/log/nsx-syslog.log を調べて、エラーが報告されているかどうかを確認します。 |
4.0.0 |
IDPS エンジンの CPU オーバーサブスクリプションが高い | Medium | esx | 分散 IDPS エンジンの CPU 使用率が高くなっています。 |
オーバーサブスクリプションの理由を確認します。特定のアプリケーションを別のホストに移動します。 |
4.0.0 |
IDPS エンジンの CPU オーバーサブスクリプションが非常に高い | 高 | esx | 分散 IDPS エンジンの CPU 使用率が非常に高くなっています。 |
オーバーサブスクリプションの理由を確認します。特定のアプリケーションを別のホストに移動します。 |
4.0.0 |
IDPS エンジンのネットワーク オーバーサブスクリプションが高い | Medium | esx | 分散 IDPS エンジンのネットワーク使用率が高くなっています。 |
オーバーサブスクリプションの理由を確認します。IDPS ルールを確認して、IDPS サービスの対象となるトラフィックの量を減らします。 |
4.0.0 |
IDPS エンジンのネットワーク オーバーサブスクリプションが非常に高い | 高 | esx | 分散 IDPS エンジンのネットワーク使用率が非常に高くなっています。 |
オーバーサブスクリプションの理由を確認します。IDPS ルールを確認して、IDPS サービスの対象となるトラフィックの量を減らします。 |
4.0.0 |
IDPS エンジンが CPU でオーバーサブスクライブされたトラフィックをドロップしました | 重大 | esx | CPU オーバーサブスクリプションが原因で、分散 IDPS エンジンがトラフィックをドロップしました。 |
オーバーサブスクリプションの理由を確認します。特定のアプリケーションを別のホストに移動します。 |
4.0.0 |
IDPS エンジンがネットワークでオーバーサブスクライブされたトラフィックをドロップしました | 重大 | esx | ネットワーク オーバーサブスクリプションが原因で、分散 IDPS エンジンがトラフィックをドロップしました。 |
オーバーサブスクリプションの理由を確認します。IDPS ルールを確認して、IDPS サービスの対象となるトラフィックの量を減らします。 |
4.0.0 |
IDPS エンジンが CPU でオーバーサブスクライブされたトラフィックをバイパスしました | 重大 | esx | CPU オーバーサブスクリプションが原因で、分散 IDPS エンジンがトラフィックをバイパスしました。 |
オーバーサブスクリプションの理由を確認します。特定のアプリケーションを別のホストに移動します。 |
4.0.0 |
IDPS エンジンがネットワークでオーバーサブスクライブされたトラフィックをバイパスしました | 重大 | esx | ネットワーク オーバーサブスクリプションが原因で、分散 IDPS エンジンがトラフィックをバイパスしました。 |
オーバーサブスクリプションの理由を確認します。IDPS ルールを確認して、IDPS サービスの対象となるトラフィックの量を減らします。 |
4.0.0 |
DNS イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
フォワーダ: 停止 | 高 | edge、autonomous-edge、public-cloud-gateway | DNS フォワーダが停止しています。 |
1.NSX CLI コマンド get dns-forwarders status を呼び出し、DNS フォワーダが停止状態かどうかを確認します。 |
3.0.0 |
フォワーダ: 無効 | 情報 | edge、autonomous-edge、public-cloud-gateway | DNS フォワーダが無効になっています。 |
1.NSX CLI コマンド get dns-forwarders status を呼び出し、DNS フォワーダが無効になっているかどうかを確認します。 |
3.0.0 |
フォワーダ アップストリーム サーバ タイムアウト | 高 | edge、autonomous-edge、public-cloud-gateway | 1 台の DNS フォワーダ アップストリーム サーバがタイムアウトになりました。 |
1.NSX API GET /api/v1/dns/forwarders/{dns_id}/nslookup? address=<address>&server_ip={dns_upstream_ip}&source_ip=<source_ip> を呼び出します。この API 要求は、DNS フォワーダのネットワーク ネームスペース内のアップストリーム サーバに DNS ルックアップをトリガします。<address> は、アップストリーム サーバと同じドメイン内の IP アドレスまたは FQDN です。<source_ip> は、アップストリーム サーバのゾーン内の IP アドレスです。API から接続タイムアウト応答が返された場合、ネットワーク エラーが発生しているか、アップストリーム サーバに問題がある可能性があります。DNS ルックアップがアップストリーム サーバに到達しない理由またはアップストリーム サーバから応答がない理由を確認してください。API の応答で、アップストリーム サーバからの応答が示されている場合は、手順 2 に進みます。 |
3.1.3 |
Edge イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
Edge ノードの設定の不一致 | 重大 | manager | Edge ノードの設定が一致しません。 |
この Edge トランスポート ノード {entity_id} のノード設定を確認してください。アラームを解決するには、以下のいずれかのアクションを実行してください。- |
3.2.0 |
Edge 仮想マシンの vSphere の設定の不一致 | 重大 | manager | Edge 仮想マシンの vSphere の設定が一致しません。 |
この Edge トランスポート ノード {entity_id} の vSphere 構成を確認してください。アラームを解決するには、以下のいずれかのアクションを実行してください。- |
3.2.0 |
Edge ノードと vSphere の設定変更 | 重大 | manager | Edge ノードの設定と vSphere の設定が変更されています。 |
この Edge トランスポート ノード {entity_id} のノード設定と vSphere の構成を確認します。アラームを解決するには、以下のいずれかのアクションを実行してください。- |
3.2.0 |
Edge の vSphere の場所の不一致 | 高 | manager | Edge の vSphere の場所が一致しません。 |
この Edge トランスポート ノード {entity_id} の vSphere 構成を確認してください。アラームを解決するには、以下のいずれかのアクションを実行してください。- |
3.2.0 |
NSX インベントリに存在する Edge 仮想マシンが vCenter Server に存在しない | 重大 | manager | NSX インベントリに存在する自動 Edge 仮想マシンが vCenter Server に存在しません。 |
仮想マシンの管理対象オブジェクト参照の MoRef ID の形式は vm-number で、vCenter Server ユーザー インターフェイスで Edge 仮想マシンを選択すると URL に表示されます。たとえば、https://<vc-url>/ui/app/vm;nav=h/urn:vmomi:VirtualMachine:vm-12011:164ff798-c4f1-495b-a0be-adfba337e5d2/summary では vm-12011 が ID です。vCenter Server で、この Edge トランスポート ノード {entity_id} の MoRef ID {vm_moref_id} の仮想マシン {policy_edge_vm_name} を見つけます。Edge 仮想マシンが別の MoRef ID で vCenter Server に存在する場合は、次のアクションを行ってください。JSON 要求ペイロード プロパティ vm_id と vm_deployment_config を指定して、NSX の追加または更新置換 API(POST https://<manager-ip>/api/v1/transport-nodes/<tn-id>?action=addOrUpdatePlacementReferences) を使用し、新しい仮想マシンの MoRef ID と vSphere 展開パラメータを更新します。vCenter Server に名前が {policy_edge_vm_name} の Edge 仮想マシンが存在しない場合は、NSX の再展開 API(POST https://<manager-ip>/api/v1/transport-nodes/<tn-id>?action=redeploy) を使用して、Edge ノードに新しい仮想マシンを展開します。 |
3.2.1 |
NSX インベントリと vCenter Server の両方に Edge 仮想マシンが存在しない | 重大 | manager | NSX インベントリと vCenter Server の両方に自動 Edge 仮想マシンが存在しません。 |
仮想マシンの管理対象オブジェクト参照の MoRef ID の形式は vm-number で、vCenter Server ユーザー インターフェイスで Edge 仮想マシンを選択すると URL に表示されます。たとえば、https://<vc-url>/ui/app/vm;nav=h/urn:vmomi:VirtualMachine:vm-12011:164ff798-c4f1-495b-a0be-adfba337e5d2/summary では vm-12011 が ID です。vCenter Server で、この Edge トランスポート ノード {entity_id} の MoRef ID {vm_moref_id} の仮想マシン {policy_edge_vm_name} を見つけます。次のアクションを行って、アラームを解決してください。- vSphere で仮想マシンが削除されているかどうか、別の MoRef ID で存在しているかどうか確認します。 |
3.2.1 |
再展開中に vCenter Server で古い仮想マシンを削除できない | 重大 | manager | 再展開中に、vCenter Server で古い Edge 仮想マシンのパワーオフと削除操作に失敗しました。 |
仮想マシンの管理対象オブジェクト参照の MoRef ID の形式は vm-number で、vCenter Server ユーザー インターフェイスで Edge 仮想マシンを選択すると URL に表示されます。たとえば、https://<vc-url>/ui/app/vm;nav=h/urn:vmomi:VirtualMachine:vm-12011:164ff798-c4f1-495b-a0be-adfba337e5d2/summary では vm-12011 が ID です。vCenter Server で、この Edge トランスポート ノード {entity_id} の MoRef ID {vm_moref_id} の仮想マシン {policy_edge_vm_name} を見つけます。vCenter Server で、MoRef ID {vm_moref_id} の古い Edge 仮想マシン {policy_edge_vm_name} をパワーオフして削除します。 |
3.2.1 |
Edge ハードウェア バージョンの不一致 | Medium | manager | Edge ノードのハードウェア バージョンが一致しません。 |
ナレッジベースの記事に従って、Edge ノード {transport_node_name} のハードウェア バージョン不一致アラームを解決してください。 |
4.0.1 |
Edge クラスタ イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
Edge クラスタ メンバーの再配置エラー | 重大 | manager | Edge クラスタ メンバーの再配置エラー アラーム |
Edge クラスタで使用可能なキャパシティを確認します。さらにキャパシティが必要な場合は、Edge クラスタを拡張します。Edge クラスタ メンバーの再配置操作を再試行してください。 |
4.0.0 |
Edge 健全性イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
Edge の CPU 使用率が非常に高い | 重大 | edge、public-cloud-gateway | Edge ノードの CPU 使用率が非常に高くなっています。 |
この Edge ノードの構成、実行中のサービス、サイズを確認します。ワークロードに合わせて Edge アプライアンスのフォーム ファクタのサイズを調整するか、他の Edge ノードの間でサービスのリバランシングを行うことを検討してください。 |
3.0.0 |
Edge の CPU 使用率が高い | Medium | edge、public-cloud-gateway | Edge ノードの CPU 使用率が高くなっています。 |
この Edge ノードの構成、実行中のサービス、サイズを確認します。ワークロードに合わせて Edge アプライアンスのフォーム ファクタのサイズを調整するか、他の Edge ノードの間でサービスのリバランシングを行うことを検討してください。 |
3.0.0 |
Edge のメモリ使用率が非常に高い | 重大 | edge、public-cloud-gateway | Edge ノードのメモリ使用率が非常に高くなっています。 |
この Edge ノードの構成、実行中のサービス、サイズを確認します。ワークロードに合わせて Edge アプライアンスのフォーム ファクタのサイズを調整するか、他の Edge ノードの間でサービスのリバランシングを行うことを検討してください。 |
3.0.0 |
Edge のメモリ使用率が高い | Medium | edge、public-cloud-gateway | Edge ノードのメモリ使用率が高くなっています。 |
この Edge ノードの構成、実行中のサービス、サイズを確認します。ワークロードに合わせて Edge アプライアンスのフォーム ファクタのサイズを調整するか、他の Edge ノードの間でサービスのリバランシングを行うことを検討してください。 |
3.0.0 |
Edge のディスク使用率が非常に高い | 重大 | edge、public-cloud-gateway | Edge ノードのディスク使用率が非常に高くなっています。 |
使用率の高いパーティションを調べ、削除可能なサイズの大きいファイルがあるか確認します。 |
3.0.0 |
Edge のディスク使用率が高い | Medium | edge、public-cloud-gateway | Edge ノードのディスク使用率が高くなっています。 |
使用率の高いパーティションを調べ、削除可能なサイズの大きいファイルがあるか確認します。 |
3.0.0 |
Edge データパスの CPU 使用率が非常に高い | 重大 | edge、autonomous-edge、public-cloud-gateway | Edge ノードのデータパスの CPU 使用率が非常に高くなっています。 |
NSX CLI コマンド get dataplane cpu stats を呼び出して CPU コアあたりのパケット レートを表示し、Edge ノードの CPU 統計情報を確認します。パケット レートが高いと CPU 使用率が高い可能性があります。Edge アプライアンスのフォーム ファクタのサイズを大きくし、同じクラスタの他の Edge ノードまたは別の Edge クラスタとの間でこの Edge ノードのサービスをリバランシングすることを検討してください。 |
3.0.0 |
Edge データパスの CPU 使用率が高い | Medium | edge、autonomous-edge、public-cloud-gateway | Edge ノードのデータパスの CPU 使用率が高くなっています。 |
NSX CLI コマンド get dataplane cpu stats を呼び出して CPU コアあたりのパケット レートを表示し、Edge ノードの CPU 統計情報を確認します。パケット レートが高いと CPU 使用率が高い可能性があります。Edge アプライアンスのフォーム ファクタのサイズを大きくし、同じクラスタの他の Edge ノードまたは別の Edge クラスタとの間でこの Edge ノードのサービスをリバランシングすることを検討してください。 |
3.0.0 |
Edge データパスの構成エラー | 高 | edge、autonomous-edge、public-cloud-gateway | Edge ノードのデータパスの構成に失敗しました。 |
マネージャ ノードと Edge ノードの接続が良好であることを確認します。サービスの健全性を確認するには、Edge ノードの NSX CLI から get services を呼び出します。データプレーン サービスが停止している場合は、start service dataplane コマンドを呼び出してサービスを起動します。 |
3.0.0 |
Edge データパスの Cryptodrv: 停止 | 重大 | edge、autonomous-edge、public-cloud-gateway | Edge ノードの暗号ドライバが停止しています。 |
必要に応じて、Edge ノードをアップグレードします。 |
3.0.0 |
Edge データパスのメモリ プールの使用率が高い | Medium | edge、autonomous-edge、public-cloud-gateway | Edge ノードのデータパス メモリプールの使用率が高くなっています。 |
root ユーザーとしてログインし、edge-appctl -t /var/run/vmware/edge/dpd.ctl mempool/show コマンドと edge-appctl -t /var/run/vmware/edge/dpd.ctl memory/show malloc_heap コマンドを呼び出して、DPDK のメモリ使用率を確認します。 |
3.0.0 |
Edge グローバル ARP テーブルの使用率が高い | Medium | edge、autonomous-edge、public-cloud-gateway | Edge ノードのグローバル ARP テーブルの使用率が高くなっています。 |
root ユーザーとしてログインし、edge-appctl -t /var/run/vmware/edge/dpd.ctl neigh/show コマンドを呼び出して、neigh キャッシュの使用率が正常かどうか確認します。正常な場合は、edge-appctl -t /var/run/vmware/edge/dpd.ctl neigh/set_param max_entries コマンドを呼び出し、ARP テーブル サイズを大きくします。 |
3.0.0 |
Edge NIC の受信バッファの不足 | Medium | edge、autonomous-edge、public-cloud-gateway | Edge ノードの NIC で RX リング バッファが一時的に不足しています。 |
Edge ノードで NSX CLI コマンド get dataplane cpu stats を実行して、次のことを行います。 |
3.0.0 |
Edge NIC の送信バッファの不足 | 重大 | edge、autonomous-edge、public-cloud-gateway | Edge ノードの NIC で TX リング バッファが一時的に不足しています。 |
1.ハイパーバイザーにより Edge と一緒に多くの仮想マシンが格納されていると、Edge 仮想マシンが実行されず、ハイパーバイザーがパケットを取得できないことがあります。これにより、仮想マシンの少ないホストに Edge 仮想マシンが移行される可能性があります。 |
3.0.0 |
Edge NIC リンクの停止状態 | 重大 | edge、autonomous-edge、public-cloud-gateway | Edge ノードの NIC リンクが停止しています。 |
NSX CLI コマンド get interfaces を呼び出し、Edge ノードで NIC リンクが物理的に停止しているかどうかを確認します。停止している場合は、ケーブル接続を確認します。 |
3.0.0 |
ストレージ エラー | 重大 | edge、autonomous-edge、public-cloud-gateway | Edge ノードのディスクは読み取り専用です。 |
再起動で問題が解決されたかどうか読み取り専用パーティションを確認します。問題が解決していない場合は、ディスクの交換が必要になります。詳細については、VMware サポートにお問い合わせください。 |
3.0.1 |
データパス スレッドのデッドロック | 重大 | edge、autonomous-edge、public-cloud-gateway | Edge ノードのデータパス スレッドがデッドロック状態になっています。 |
NSX CLI コマンド restart service dataplane を呼び出して、データプレーン サービスを再起動します。 |
3.1.0 |
Edge データパス NIC スループットが非常に高い | 重大 | edge、autonomous-edge、public-cloud-gateway | Edge ノードのデータパスの NIC スループットが非常に高くなっています。 |
NIC のトラフィックのスループット レベルを調べ、構成の変更が必要かどうかを判断します。「get dataplane thoughput <seconds>」コマンドを使用すると、スループットをモニターできます。 |
3.2.0 |
Edge データパス NIC スループットが高い | Medium | edge、autonomous-edge、public-cloud-gateway | Edge ノード データパスの NIC スループットが高くなっています。 |
NIC のトラフィックのスループット レベルを調べ、構成の変更が必要かどうかを判断します。「get dataplane thoughput <seconds>」コマンドを使用すると、スループットをモニターできます。 |
3.2.0 |
障害ドメインの停止 | 重大 | edge、public-cloud-gateway | 障害ドメインのすべてのメンバーが停止しています。 |
1.{transport_node_id} で識別される Edge ノードで、NSX CLI コマンド get managers と get controllers を呼び出して、管理プレーンと制御プレーンとの接続を確認します。 |
3.2.0 |
micro フローのキャッシュ ヒット率が低い | Medium | edge、autonomous-edge、public-cloud-gateway | micro フローのキャッシュ ヒット率が低下し、データパス CPU が増加しています。 |
過去 30 分間キャッシュ フローのヒット率が低下しています。これは、Edge のパフォーマンスが低下している可能性を示しています。トラフィックが引き続き転送され、問題が発生しない可能性があります。過去 30 分間に Edge {entity_id} コア {core_id} のデータパス CPU 使用率が高くなっているかどうかを確認します。新しいフローの最初のパケットを使用して高速パス処理のフロー キャッシュが設定されるため、新しいフローが継続的に作成されると、Edge のフロー キャッシュ ヒット率が低くなります。Edge アプライアンスのサイズを増やすか、アクティブ/アクティブ ゲートウェイに使用される Edge ノードの数を増やすことができます。 |
3.2.2 |
mega フローのキャッシュ ヒット率が低い | Medium | edge、autonomous-edge、public-cloud-gateway | mega フローのキャッシュ ヒット率が低下し、データパス CPU が高くなります。 |
過去 30 分間キャッシュ フローのヒット率が低下しています。これは、Edge のパフォーマンスが低下している可能性を示しています。トラフィックが引き続き転送され、問題が発生しない可能性があります。過去 30 分間に Edge {entity_id} コア {core_id} のデータパス CPU 使用率が高くなっているかどうかを確認します。新しいフローの最初のパケットを使用して高速パス処理のフロー キャッシュが設定されるため、新しいフローが継続的に作成されると、Edge のフロー キャッシュ ヒット率が低くなります。Edge アプライアンスのサイズを増やすか、アクティブ/アクティブ ゲートウェイに使用される Edge ノードの数を増やすことができます。 |
3.2.2 |
エンドポイント保護イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
EAM の状態: 停止 | 重大 | manager | コンピュート マネージャの ESX Agent Manager (EAM) サービスが停止しています。 |
ESX Agent Manager (EAM) サービスを開始します。SSH で vCenter Server に接続し、service vmware-eam start コマンドを呼び出します。 |
3.0.0 |
パートナー チャネル: 停止 | 重大 | esx | ホスト モジュールとパートナー サービス仮想マシンの接続が停止しています。 |
https://kb.vmware.com/s/article/85844 を参照して、パートナー サービス仮想マシン {entity_id} がホスト モジュールに再接続されていることを確認してください。 |
3.0.0 |
フェデレーション イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
RTEP BGP が停止しています | 高 | edge、autonomous-edge、public-cloud-gateway | RTEP BGP ネイバーが停止しています。 |
1.影響を受ける Edge ノードで NSX CLI コマンド get logical-routers を呼び出します。 |
3.0.1 |
LM から LM への同期に関する警告 | Medium | manager | リモート サイト間の同期が 3 分以上失敗しています。 |
1.NSX CLI コマンド get site-replicator remote-sites を呼び出して、リモートの場所間の接続状態を取得します。リモートの場所が接続されていて、同期されていない場合は、その場所でのマスター解決のプロセスが実行中である可能性があります。その場合は、10 秒ほど待ってから、CLI を再度呼び出し、リモートの場所の状態を確認します。場所が切断されている場合は、次の手順を実行します。 |
3.0.1 |
LM から LM への同期エラー | 高 | manager | リモート サイト間の同期が 15 分以上失敗しています。 |
1.NSX CLI コマンド get site-replicator remote-sites を呼び出し、リモートの場所間の接続状態を取得します。リモートの場所が接続されていて、同期されていない場合は、その場所でのマスター解決のプロセスが実行中である可能性があります。その場合は、10 秒ほど待ってから、CLI を再度呼び出し、リモートの場所の状態を確認します。場所が切断されている場合は、次の手順を実行します。 |
3.0.1 |
RTEP 接続の切断 | 高 | manager | RTEP の場所との接続が切断されました。 |
1.影響を受けた Edge ノード {transport_node_name} で NSX CLI コマンド get logical-routers を呼び出します。 |
3.0.2 |
GM から GM へのスプリット ブレイン | 重大 | global-manager | 複数のグローバル マネージャ ノードが同時にアクティブになっています。 |
1 つのグローバル マネージャ ノードをアクティブとして構成し、他のグローバル マネージャ ノードはすべてスタンバイとして構成します。 |
3.1.0 |
GM 間の遅延に関する警告 | Medium | global-manager | グローバル マネージャ間の遅延が 2 分以上想定レベルを超えています。 |
ping を使用して、グローバル マネージャ {from_gm_path}({site_id}) からグローバル マネージャ {to_gm_path}({remote_site_id}) への接続を確認します。ping できない場合は、WAN 接続が切断されやすいかを確認します。 |
3.2.0 |
GM 間の同期に関する警告 | Medium | global-manager | アクティブ グローバル マネージャとスタンバイ グローバル マネージャを同期できません。 |
ping を使用して、グローバル マネージャ {from_gm_path}({site_id}) からグローバル マネージャ {to_gm_path}({remote_site_id}) への接続を確認します。 |
3.2.0 |
GM 間の同期エラー | 高 | global-manager | アクティブ グローバル マネージャとスタンバイ グローバル マネージャが 5 分以上同期されていません |
ping を使用して、グローバル マネージャ {from_gm_path}({site_id}) からグローバル マネージャ {to_gm_path}({remote_site_id}) への接続を確認します。 |
3.2.0 |
GM から LM への同期に関する警告 | Medium | global-manager、manager | グローバル マネージャ (GM) とローカル マネージャ (LM) 間のデータ同期が失敗しました。 |
1.ping を使用して、リモート サイトとローカル サイト間のネットワーク接続を確認します。 |
3.2.0 |
GM から LM への同期エラー | 高 | global-manager、manager | グローバル マネージャ (GM) とローカル マネージャ (LM) 間のデータ同期が長期間失敗しています。 |
1.ping を使用して、リモート サイトとローカル サイト間のネットワーク接続を確認します。 |
3.2.0 |
キュー占有率のしきい値を超えました | Medium | manager、global-manager | キュー占有率のサイズしきい値が警告レベルを超えました。 |
リモート サイトまたは過負荷状態のシステムとの通信の問題が原因でキュー サイズがしきい値を超える場合があります。システム パフォーマンスと /var/log/async-replicator/ar.log をチェックして、エラーが報告されていないかどうか確認します。 |
3.2.0 |
GM から LM への遅延に関する警告 | Medium | global-manager、manager | グローバル マネージャとローカル マネージャ間の遅延が 2 分以上、想定レベルを超えています。 |
1.ping を使用して、リモート サイトとローカル サイト間のネットワーク接続を確認します。 |
3.2.0 |
構成のインポート中に LM をリストア | 高 | global-manager | グローバル マネージャで構成のインポート中にローカル マネージャがリストアされました。 |
1.NSX Global Manager アプライアンスの CLI にログインします。 |
3.2.0 |
ゲートウェイ ファイアウォール イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
IP フロー数が多い | Medium | edge、public-cloud-gateway | IP トラフィックのゲートウェイ ファイアウォール フロー テーブルの使用率が高くなっています。使用率が上限に達すると、新しいフローはゲートウェイ ファイアウォールによってドロップされます。 |
Edge ノードに admin ユーザーとしてログインし、適切なインターフェイス UUID を使用して NSX CLI コマンド get firewall <LR_INT_UUID> interface stats | json を呼び出し、IP フローのフロー テーブルの使用量を確認します。ゲートウェイを通過するトラフィック フローが DOS 攻撃またはアノマリ バーストではないことを確認します。トラフィックが通常の負荷の範囲内に見えても、アラームしきい値に到達した場合は、アラームしきい値を増やすか、新しいトラフィックを別の Edge ノードにルーティングすることを検討します。 |
3.1.3 |
IP フロー数超過 | 重大 | edge、public-cloud-gateway | IP トラフィックのゲートウェイ ファイアウォール フロー テーブルが、設定されたしきい値を超えました。使用率が上限に達すると、新しいフローはゲートウェイ ファイアウォールによってドロップされます。 |
Edge ノードに admin ユーザーとしてログインし、適切なインターフェイス UUID を使用して NSX CLI コマンド get firewall <LR_INT_UUID> interface stats | json を呼び出し、IP フローのフロー テーブルの使用量を確認します。ゲートウェイを通過するトラフィック フローが DOS 攻撃またはアノマリ バーストではないことを確認します。トラフィックが通常の負荷の範囲内に見えても、アラームしきい値に到達した場合は、アラームしきい値を増やすか、新しいトラフィックを別の Edge ノードにルーティングすることを検討します。 |
3.1.3 |
UDP フロー数が多い | Medium | edge、public-cloud-gateway | UDP トラフィックのゲートウェイ ファイアウォール フロー テーブルの使用率が高くなっています。使用率が上限に達すると、新しいフローはゲートウェイ ファイアウォールによってドロップされます。 |
Edge ノードに admin ユーザーとしてログインし、適切なインターフェイス UUID を使用して NSX CLI コマンド get firewall <LR_INT_UUID> interface stats | json を呼び出し、UDP フローのフロー テーブルの使用量を確認します。ゲートウェイを通過するトラフィック フローが DOS 攻撃またはアノマリ バーストではないことを確認します。トラフィックが通常の負荷の範囲内に見えても、アラームしきい値に到達した場合は、アラームしきい値を増やすか、新しいトラフィックを別の Edge ノードにルーティングすることを検討します。 |
3.1.3 |
UDP フロー数超過 | 重大 | edge、public-cloud-gateway | UDP トラフィックのゲートウェイ ファイアウォール フロー テーブルが、設定されたしきい値を超えました。使用率が上限に達すると、新しいフローはゲートウェイ ファイアウォールによってドロップされます。 |
Edge ノードに admin ユーザーとしてログインし、適切なインターフェイス UUID を使用して NSX CLI コマンド get firewall <LR_INT_UUID> interface stats | json を呼び出し、UDP フローのフロー テーブルの使用量を確認します。ゲートウェイを通過するトラフィック フローが DOS 攻撃またはアノマリ バーストではないことを確認します。トラフィックが通常の負荷の範囲内に見えても、アラームしきい値に到達した場合は、アラームしきい値を増やすか、新しいトラフィックを別の Edge ノードにルーティングすることを検討します。 |
3.1.3 |
ICMP フロー数が多い | Medium | edge、public-cloud-gateway | ICMP トラフィックのゲートウェイ ファイアウォール フロー テーブルの使用率が高くなっています。使用率が上限に達すると、新しいフローはゲートウェイ ファイアウォールによってドロップされます。 |
Edge ノードに admin ユーザーとしてログインし、適切なインターフェイス UUID を使用して NSX CLI コマンド get firewall <LR_INT_UUID> interface stats | json を呼び出し、ICMP フローのフロー テーブルの使用量を確認します。ゲートウェイを通過するトラフィック フローが DOS 攻撃またはアノマリ バーストではないことを確認します。トラフィックが通常の負荷の範囲内に見えても、アラームしきい値に到達した場合は、アラームしきい値を増やすか、新しいトラフィックを別の Edge ノードにルーティングすることを検討します。 |
3.1.3 |
ICMP フロー数超過 | 重大 | edge、public-cloud-gateway | ICMP トラフィックのゲートウェイ ファイアウォール フロー テーブルが、設定されたしきい値を超えました。使用率が上限に達すると、新しいフローはゲートウェイ ファイアウォールによってドロップされます。 |
Edge ノードに admin ユーザーとしてログインし、適切なインターフェイス UUID を使用して NSX CLI コマンド get firewall <LR_INT_UUID> interface stats | json を呼び出し、ICMP フローのフロー テーブルの使用量を確認します。ゲートウェイを通過するトラフィック フローが DOS 攻撃またはアノマリ バーストではないことを確認します。トラフィックが通常の負荷の範囲内に見えても、アラームしきい値に到達した場合は、アラームしきい値を増やすか、新しいトラフィックを別の Edge ノードにルーティングすることを検討します。 |
3.1.3 |
TCP ハーフ オープン フロー数が多い | Medium | edge、public-cloud-gateway | TCP ハーフオープン トラフィックのゲートウェイ ファイアウォール フロー テーブルの使用率が高くなっています。使用率が上限に達すると、新しいフローはゲートウェイ ファイアウォールによってドロップされます。 |
Edge ノードに admin ユーザーとしてログインし、適切なインターフェイス UUID を使用して NSX CLI コマンド get firewall <LR_INT_UUID> interface stats | json を呼び出し、TCP ハーフオープン フローのフロー テーブルの使用量を確認します。ゲートウェイを通過するトラフィック フローが DOS 攻撃またはアノマリ バーストではないことを確認します。トラフィックが通常の負荷の範囲内に見えても、アラームしきい値に到達した場合は、アラームしきい値を増やすか、新しいトラフィックを別の Edge ノードにルーティングすることを検討します。 |
3.1.3 |
TCP ハーフ オープン フロー数超過 | 重大 | edge、public-cloud-gateway | TCP ハーフ オープン トラフィックのゲートウェイ ファイアウォール フロー テーブルが、設定されたしきい値を超えました。使用率が上限に達すると、新しいフローはゲートウェイ ファイアウォールによってドロップされます。 |
Edge ノードに admin ユーザーとしてログインし、適切なインターフェイス UUID を使用して NSX CLI コマンド get firewall <LR_INT_UUID> interface stats | json を呼び出し、TCP ハーフオープン フローのフロー テーブルの使用量を確認します。ゲートウェイを通過するトラフィック フローが DOS 攻撃またはアノマリ バーストではないことを確認します。トラフィックが通常の負荷の範囲内に見えても、アラームしきい値に到達した場合は、アラームしきい値を増やすか、新しいトラフィックを別の Edge ノードにルーティングすることを検討します。 |
3.1.3 |
グループ イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
グループ サイズの制限を超えました | Medium | manager | 変換されたグループ要素の合計数が上限を超えました。 |
1.サイズが大きすぎるグループ {group_id} のグループ要素を調整することを検討してください。 |
4.1.0 |
高可用性イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
Tier-0 ゲートウェイのフェイルオーバー | 高 | edge、autonomous-edge、public-cloud-gateway | Tier-0 ゲートウェイがフェイルオーバーしました。 |
NSX CLI コマンド get logical-router <service_router_id> を呼び出して、tier0 service-router vrf ID を取得します。vrf <vrf-id> を呼び出して vrf コンテキストに切り替え、get high-availability status を呼び出して、停止しているサービスを確認します。 |
3.0.0 |
Tier-1 ゲートウェイのフェイルオーバー | 高 | edge、autonomous-edge、public-cloud-gateway | Tier-1 ゲートウェイがフェイルオーバーしました。 |
NSX CLI コマンド get logical-router <service_router_id> を呼び出して、tier1 service-router vrf ID を取得します。vrf <vrf-id> を呼び出して vrf コンテキストに切り替え、get high-availability status を呼び出して、停止しているサービスを確認します。 |
3.0.0 |
Tier-0 サービス グループのフェイルオーバー | 高 | edge、public-cloud-gateway | サービス グループにアクティブなインスタンスがありません。 |
NSX CLI コマンド get logical-router <service_router_id> service_group を呼び出し、指定された service-router で構成されているすべての service-groups を確認します。出力で、service-groups がアクティブ状態を終了した理由を調べます。 |
4.0.1 |
Tier-1 サービス グループのフェイルオーバー | 高 | edge、public-cloud-gateway | サービス グループにアクティブなインスタンスがありません。 |
NSX CLI コマンド get logical-router <service_router_id> service_group を呼び出し、指定された service-router で構成されているすべての service-groups を確認します。出力で、service-groups がアクティブ状態を終了した理由を調べます。 |
4.0.1 |
Tier-0 サービス グループの冗長性の低下 | Medium | edge、public-cloud-gateway | サービス グループのスタンバイ インスタンスが失敗しました。 |
NSX CLI コマンド get logical-router <service_router_id> service_group を呼び出し、指定された service-router で構成されているすべての service-groups を確認します。出力で、以前のスタンバイ service-group が失敗した理由を調べます。 |
4.0.1 |
Tier-1 サービス グループの冗長性の低下 | Medium | edge、public-cloud-gateway | サービス グループのスタンバイ インスタンスが失敗しました。 |
NSX CLI コマンド get logical-router <service_router_id> service_group を呼び出し、指定された service-router で構成されているすべての service-groups を確認します。出力で、以前のスタンバイ service-group が失敗した理由を調べます。 |
4.0.1 |
Identity Firewall イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
LDAP サーバとの接続の切断 | 重大 | manager | LDAP サーバとの接続が切断されました。 |
次のことを確認します。 |
3.1.0 |
差分同期エラー | 重大 | manager | 差分同期の実行中にエラーが発生しました。 |
1.LDAP サーバとの切断を表すアラームがあるかどうか確認します。 |
3.1.0 |
インフラストラクチャ通信イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
Edge トンネル: 停止 | 重大 | edge、public-cloud-gateway | Edge ノードのトンネル状態が「停止」になっています。 |
NSX CLI コマンド get tunnel-ports を呼び出して、すべてのトンネル ポートを取得します。NSX CLI コマンド get tunnel-port <UUID> stats を呼び出して、各トンネルの統計情報を取得し、ドロップがあるかどうかを確認します。トンネル関連のエラーが発生している場合は、/var/log/syslog を確認します。 |
3.0.0 |
インフラストラクチャ サービス イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
DPU でのサービス状態: 不明 | 重大 | dpu | DPU でのサービスの状態が異常です。 |
/etc/init.d/{service_name} status を呼び出し、DPU {dpu_id} で {service_name} サービスが実行中であることを確認します。サービスが実行中の場合、/etc/init.d/{service_name} restart を使用して再起動が必要になることがあります。status コマンドを再度実行して、サービスが実行中であることを確認します。サービスを再起動しても問題が解決しない場合、または再起動に成功した後に問題が再発した場合は、VMware のサポートにお問い合わせください。 |
4.0.0 |
サービスの状態: 不明 | 重大 | esx、kvm、bms、edge、manager、public-cloud-gateway、global-manager | サービスの状態が異常です。 |
/etc/init.d/{service_name} status を呼び出して、{service_name} サービスが実行中であることを確認します。サービスが実行中の場合、/etc/init.d/{service_name} restart を使用して再起動が必要になることがあります。status コマンドを再度実行して、サービスが実行中であることを確認します。スクリプト /etc/init.d/{service_name} が使用できない場合は、systemctl {service_name} status を呼び出し、root 権限で systemctl {service_name} restart を実行して再起動します。サービスを再起動しても問題が解決しない場合、または再起動に成功した後に問題が再発した場合は、VMware のサポートにお問い合わせください。 |
3.1.0 |
メトリック配信の失敗 | 重大 | esx、bms、edge、manager、public-cloud-gateway、global-manager | 指定されたターゲットにメトリックを配信できませんでした。 |
ユーザーは、障害の原因となっている問題を除外するために、次のチェックを実行する必要があります。1.接続に渡されたターゲット アドレス {metrics_target_address} とポート {metrics_target_port}(ポートが指定されていない場合、デフォルトは 443)が想定されるターゲットであるかどうかを確認します。2./opt/vmware/nsx-nestdb/bin/nestdb-cli --cmd 'put vmware.nsx.nestdb.CommonAgentHostConfigMsg' を使用して証明書が正しいか確認します。3.ターゲット {metrics_target_address} にアクセスできるかどうかを確認します。4.docker ps | grep metrics_manager を使用して、ターゲット {metrics_target_address} のメトリック マネージャが実行されているかどうかを確認します。5.netstat -a | grep {metrics_target_port} を使用して、ターゲットでポート {metrics_target_port} が開いているかどうかを確認します。6.iptables -S OUTPUT | grep {metrics_target_port} (EDGE/UA) または localcli network firewall ruleset list | grep nsx-sha-tsdb (ESX) を使用して、ALLOW ファイアウォール ルールがノードにインストールされているかどうかを確認します。7.SHA デーモンを再起動して、/etc/init.d/netopa restart (ESX)、/etc/init.d/nsx-netopa restart (EDGE)、または /etc/init.d/nsx-sha restart (UA) によって解決できるかどうかを確認します。 |
4.1.0 |
Edge サービスの状態: 停止 | 重大 | edge、autonomous-edge、public-cloud-gateway | Edge サービスが少なくとも 1 分間停止しています。 |
Edge ノードで、/var/log/core ディレクトリにあるコア ファイルをチェックし、エラーが原因でサービスが終了していないことを確認します。また、NSX CLI コマンドget services を呼び出し、サービスが停止しているかどうかを確認します。停止している場合は、start service <service-name> を呼び出し、サービスを再起動します。 |
3.0.0 |
Edge サービスの状態変更 | Medium | edge、autonomous-edge、public-cloud-gateway | Edge サービスの状態が変更されました。 |
Edge ノードで、/var/log/core ディレクトリにあるコア ファイルをチェックし、エラーが原因でサービスが終了していないことを確認します。また、NSX CLI コマンドget services を呼び出し、サービスが停止しているかどうかを確認します。停止している場合は、start service <service-name> を呼び出し、サービスを再起動します。 |
3.0.0 |
アプリケーションのクラッシュ | 重大 | global-manager、autonomous-edge、bms、edge、esx、kvm、manager、public-cloud-gateway | アプリケーションがクラッシュし、コア ダンプが生成されました。 |
NSX Manager UI または API を使用して、NSX ノード {node_display_or_host_name} のサポート バンドルを収集します。ノードのローカル コピーを削除または保持するために、NSX テクニカル サポート バンドルに移動またはコピーするようにコア ダンプを設定できます。VMware サポート チームが問題のトラブルシューティングを行う上で、コア ダンプ ファイルを含むサポート バンドルのコピーは不可欠です。コア ダンプ ファイルを含むテクニカル サポート バンドルの最新のコピーを保存してから、システムからコア ダンプ ファイルを削除することを推奨します。詳細については、ナレッジベースの記事を参照してください。 |
4.0.0 |
Intelligence 通信イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
TN フロー エクスポータの切断 | 高 | esx、kvm、bms | トランスポート ノードは、Intelligence ノードのメッセージング ブローカから切断されています。データ収集が影響を受けます。 |
Intelligence ノードで実行されていない場合は、メッセージング サービスを再起動します。トランスポート ノードのフロー エクスポータと Intelligence ノード間のネットワーク接続の障害を解決します。 |
3.0.0 |
Intelligence 健全性イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
CPU 使用率が非常に高い | 重大 | manager、intelligence | Intelligence ノードの CPU 使用率が非常に高くなっています。 |
top コマンドを使用して、CPU 使用率が最も高いプロセスを確認します。次に、/var/log/syslog とこれらのプロセスのローカル ログを確認して、未解決のエラーがないか確認します。 |
3.0.0 |
CPU 使用率が高い | Medium | manager、intelligence | Intelligence ノードの CPU 使用率が高くなっています。 |
top コマンドを使用して、CPU 使用率が最も高いプロセスを確認します。次に、/var/log/syslog とこれらのプロセスのローカル ログを確認して、未解決のエラーがないか確認します。 |
3.0.0 |
メモリ使用率が非常に高い | 重大 | manager、intelligence | Intelligence ノードのメモリ使用率が非常に高くなっています。 |
top コマンドを使用して、メモリ使用率が最も高いプロセスを確認します。次に、/var/log/syslog とこれらのプロセスのローカル ログを確認して、未解決のエラーがないか確認します。 |
3.0.0 |
メモリ使用率が高い | Medium | manager、intelligence | Intelligence ノードのメモリ使用率が高くなっています。 |
top コマンドを使用して、メモリ使用率が最も高いプロセスを確認します。次に、/var/log/syslog とこれらのプロセスのローカル ログを確認して、未解決のエラーがないか確認します。 |
3.0.0 |
ディスク使用率が非常に高い | 重大 | manager、intelligence | Intelligence ノードのディスク使用率が非常に高くなっています。 |
ディスク パーティション {disk_partition_name} を調べ、削除可能なサイズの大きいファイルがあるか確認します。 |
3.0.0 |
ディスク使用率が高い | Medium | manager、intelligence | Intelligence ノードのディスク使用率が高くなっています。 |
ディスク パーティション {disk_partition_name} を調べ、削除可能なサイズの大きいファイルがあるか確認します。 |
3.0.0 |
データ ディスク パーティションの使用率が非常に高い | 重大 | manager、intelligence | Intelligence ノードのデータ ディスク パーティションの使用率が非常に高くなっています。 |
ディスク使用率がしきい値を下回るまで NSX Intelligence のデータ収集を停止します。NSX ユーザー インターフェイスで、[システム] > [アプライアンス] > [NSX Intelligence アプライアンス] の順に移動します。次に、[アクション]、[データ収集の停止] の順にクリックします。 |
3.0.0 |
データ ディスク パーティションの使用率が高い | Medium | manager、intelligence | Intelligence ノードのデータ ディスク パーティションの使用率が高くなっています。 |
ディスク使用率がしきい値を下回るまで NSX Intelligence のデータ収集を停止します。ディスク パーティション /data を調べ、削除可能なサイズの大きいファイルがあるか確認します。 |
3.0.0 |
ストレージ遅延が大きい | Medium | manager、intelligence | Intelligence ノードのストレージ遅延が大きくなっています。 |
I/O 要求の急増でストレージ遅延が一時的に高くなる可能性があります。ストレージの遅延が 30 分以上続く場合は、低遅延ディスクに NSX Intelligence アプライアンスを展開するか、他の仮想マシンと同じストレージ デバイスを共有しないようにする必要があります。 |
3.1.0 |
ノードの状態: 劣化 | 高 | manager、intelligence | Intelligence ノードの状態が「劣化」になっています。 |
NSX API GET /napp/api/v1/platform/monitor/category/health を呼び出して、停止している特定のサービスとその理由を確認します。CLI コマンド kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace> を呼び出して、劣化しているサービスを再起動します。 |
3.0.0 |
IPAM イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
IP ブロックの使用率が非常に高い | Medium | manager | IP ブロックの使用率が非常に高くなっています。 |
IP ブロックの使用状況を確認します。リソースの作成に新しい IP ブロックを使用するか、IP ブロックから未使用の IP サブネットを削除します。IP ブロックで使用されているサブネットを確認するには:NSX UI で [ネットワーク] | [IP アドレス プール] | [IP アドレス プール] タブの順に移動します。IP ブロックが使用されている IP プールを選択します。UI で [サブネット] と [割り当てられた IP] 列を確認します。IP プールで使用されている割り当てがなく、今後使用する予定がない場合は、サブネットまたは IP プールを削除します。次の API を使用して、IP ブロックが IP プールで使用中かどうか確認します。また、IP 割り当てが完了しているかどうかも確認します。IP プールの構成済みサブネットを取得するには、NSX API GET /policy/api/v1/infra/ip-pools/<ip-pool>/ip-subnets を呼び出します。IP 割り当てを取得するには、NSX API GET /policy/api/v1/infra/ip-pools/<ip-pool>/ip-allocations を呼び出します。注:IP プール/サブネットの削除は、割り当て済みの IP がなく、今後使用する予定がない場合にのみ行ってください。 |
3.1.2 |
IP プールの使用率が非常に高い | Medium | manager | IP プールの使用率が非常に高くなっています。 |
IP プールの使用状況を確認します。IP プールから未使用の IP 割り当てを解放するか、新しい IP プールを作成して使用します。NSX UI で [ネットワーク] | [IP アドレス プール] | [IP アドレス プール] タブの順に移動します。IP プールを選択して、[割り当てられた IP] 列を確認します。ここには、IP プールから割り当てられた IP が表示されます。未使用の IP がある場合は、それらの IP を解放できます。未使用の IP 割り当てを解放するには、NSX API DELETE /policy/api/v1/infra/ip-pools/<ip-pool>/ip-allocations/<ip-allocation> を呼び出します。 |
3.1.2 |
ライセンス イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
ライセンスの期限切れ | 重大 | global-manager、manager | ライセンスが期限切れです。 |
NSX UI で [システム] | [ライセンス] の順に移動して、期限切れでない新しいライセンスを追加します。[追加] をクリックして新しいライセンスのキーを指定します。期限切れのライセンスのチェックボックスをオンにして [削除] をクリックし、期限切れライセンスを削除します。 |
3.0.0 |
ライセンスがまもなく期限切れ | Medium | global-manager、manager | ライセンスがまもなく期限切れになります。 |
ライセンスがあと数日で期限切れになります。NSX UI で [システム] | [ライセンス] の順に移動して、有効期限が近くない新しいライセンスを追加します。[追加] をクリックして新しいライセンスのキーを指定します。期限切れのライセンスのチェックボックスをオンにして [削除] をクリックし、期限切れライセンスを削除します。 |
3.0.0 |
ロード バランサ イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
LB の CPU 使用率が非常に高い | Medium | Edge | ロード バランサの CPU 使用率が非常に高くなっています。 |
ロード バランサの CPU 使用率がシステム使用率のしきい値を超えている場合、このロード バランサのワークロードが高すぎます。ロード バランサのサイズを small から medium または medium から large に変更して、ロードバランサ サービスのサイズを変更します。このロード バランサの CPU 使用率が高い場合は、ワークロードに合わせて Edge アプライアンスのフォーム ファクタのサイズを調整するか、ロード バランサ サービスを他の Edge ノードに移動することを検討してください。 |
3.0.0 |
LB の状態: 劣化 | Medium | manager | ロード バランサ サービスが劣化しています。 |
中央集中型ロード バランサの場合:スタンバイ Edge ノードで、ロード バランサの状態を確認します。劣化状態の場合、スタンバイ Egde ノードのロード バランサの状態が ready ではありません。スタンバイ Egde ノードで、NSX CLI コマンド get load-balancer <lb-uuid> status を呼び出します。ロード バランサ サービスの LB-State が not_ready の場合、または何も出力されなかった場合は、Edge ノードをメンテナンス モードに切り替えて、メンテナンス モードを終了します。分散ロード バランサの場合: |
3.1.2 |
DLB の状態:停止 | 重大 | manager | 分散ロード バランサ サービスが停止しています。 |
ESXi ホスト ノードで、NSX CLI コマンド `get load-balancer <lb-uuid> status` を呼び出します。「Conflict LSP」が報告された場合は、この LSP が他のロード バランサ サービスに接続しているかどうか確認します。また、この競合が許容範囲内かどうかも確認します。「Not Ready LSP」が報告された場合は、NSX CLI コマンド get logical-switch-port status を呼び出して、この LSP の状態を確認します。 |
3.1.2 |
LB の状態:停止 | 重大 | Edge | 中央集中型ロード バランサ サービスが停止しています。 |
アクティブな Edge ノードで、NSX CLI コマンド get load-balancer <lb-uuid> status を呼び出して、ロード バランサの状態を確認します。ロード バランサ サービスの LB-State が not_ready の場合、または何も出力されなかった場合は、Edge ノードをメンテナンス モードに切り替えて、メンテナンス モードを終了します。 |
3.0.0 |
仮想サーバの状態: 停止 | Medium | Edge | ロード バランサの仮想サービスが停止しています。 |
ロード バランサ プールの状態と構成を確認します。正しく設定されていない場合は、再設定を行い、仮想サーバからロード バランサ プールを削除し、仮想サーバに再度追加します。 |
3.0.0 |
プールの状態: 停止 | Medium | Edge | ロード バランサ プールが停止しています。 |
NSX CLI コマンド get load-balancer <lb-uuid> pool <pool-uuid> status または NSX API GET /policy/api/v1/infra/lb-services/<lb-service-id>/lb-pools/<lb-pool-id>/detailed-status を呼び出して、ロード バランサ プールで停止しているメンバーを確認します。「停止」または「不明」が返された場合は、プール メンバーを確認します。ロード バランサから問題のプール メンバーへのネットワーク接続を確認します。各プール メンバーのアプリケーションの健全性を確認します。また、構成済みのモニターを使用して、各プール メンバーの健全性を確認します。メンバーの健全性が確認されると、モニターの「起動カウント」構成に基づいて、プール メンバーの健全性の状態が更新されます。この問題を修正するには、プール メンバーを再起動するか、Edge ノードをメンテナンス モードに切り替えてメンテナンス モードを終了します。 |
3.0.0 |
LB Edge の使用容量が多い | Medium | Edge | ロード バランサの使用率が高くなっています。 |
この Edge ノードに複数の LB インスタンスが構成されている場合は、新しい Edge ノードを展開して、一部の LB インスタンスをその新しい Edge ノードに移行します。同じサイズ(小規模/中規模など)の Edge ノードに単一の LB インスタンス(小規模/中規模など)のみが構成されている場合は、より大きなサイズの新しい Edge を展開し、LB インスタンスをその新しい Edge ノードに移動します。 |
3.1.2 |
LB プール メンバーの使用容量が非常に多い | 重大 | Edge | ロード バランサのプール メンバーの使用率が非常に高くなっています。 |
新しい Edge ノードを展開し、ロード バランサ サービスを既存の Edge ノードから新たに展開した Edge ノードに移動します。 |
3.1.2 |
メモリ不足のためロード バランシング構成が認識されない | Medium | Edge | Edge ノードのメモリ使用率が高いため、ロード バランサの構成が認識されません。 |
大規模なロード バランサよりも中小規模のロード バランサの定義を優先します。使用可能な Edge ノード間でロード バランサ サービスを分散します。定義されている仮想サーバの数を減らします。 |
3.2.0 |
マルウェア防止の健全性イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
サービスの状態: 停止 | 高 | manager | サービスの状態が「停止」になっています。 |
1.{nsx_edge_tn_name} で識別される Edge ノードで、NSX CLI get services を呼び出し、{mps_service_name} の状態を確認します。/var/log/syslog を調べて、疑わしいエラーを検出します。 |
4.0.1 |
ファイル抽出サービスに到達不能 | 高 | manager | サービスの状態が「劣化」になっています。 |
1.{nsx_edge_tn_name} で識別される Edge ノードで、NSX CLI get ids engine status を呼び出し、file_extraction (IDS) サービスの状態を確認します。/var/log/syslog を調べて、ファイル抽出 (IDS) サービスや {mps_service_name} で疑わしいエラーを検出します。 |
4.0.1 |
データベースに到達不能 | 高 | manager | サービスの状態が「劣化」になっています。 |
NSX UI で、[システム] > [NSX Application Platform] > [コア サービス] の順に移動して、劣化しているサービスを確認します。NSX API GET /napp/api/v1/platform/monitor/feature/health を呼び出して、停止している特定のサービスとその理由を確認します。CLI コマンド kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace> を呼び出して、劣化しているサービスを再起動します。マルウェア防止の Database サービスの状態を判断します。 |
4.0.1 |
アナリスト API サービスに到達不能 | 高 | manager | サービスの状態が「劣化」になっています。 |
NSX UI で、[システム] > [NSX Application Platform] > [コア サービス] の順に移動して、劣化しているサービスを確認します。NSX API GET /napp/api/v1/platform/monitor/feature/health を呼び出して、停止している特定のサービスとその理由を確認します。CLI コマンド kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace> を呼び出して、劣化しているサービスを再起動します。マルウェア防止の Cloud Connector サービスの状態を判断します。 |
4.0.1 |
NTICS レピュテーション サービスに到達不能 | 高 | manager | サービスの状態が「劣化」になっています。 |
NSX UI で、[システム] > [NSX Application Platform] > [コア サービス] の順に移動して、劣化しているサービスを確認します。NSX API GET /napp/api/v1/platform/monitor/feature/health を呼び出して、停止している特定のサービスとその理由を確認します。CLI コマンド kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace> を呼び出して、劣化しているサービスを再起動します。NTICS サービスへのアクセスが停止しているかどうかを判断します。 |
4.1.0 |
マネージャ健全性イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
マネージャの CPU 使用率が非常に高い | 重大 | global-manager、manager | マネージャ ノードの CPU 使用率が非常に高くなっています。 |
このマネージャ ノードの構成、実行中のサービス、サイズを確認してください。Manager アプライアンスのフォーム ファクタのサイズを調整することを検討してください。 |
3.0.0 |
マネージャーの CPU 使用率が高い | Medium | global-manager、manager | マネージャ ノードの CPU 使用率が高くなっています。 |
このマネージャ ノードの構成、実行中のサービス、サイズを確認してください。Manager アプライアンスのフォーム ファクタのサイズを調整することを検討してください。 |
3.0.0 |
マネージャのメモリ使用率が非常に高い | 重大 | global-manager、manager | マネージャ ノードのメモリ使用率が非常に高くなっています。 |
このマネージャ ノードの構成、実行中のサービス、サイズを確認してください。Manager アプライアンスのフォーム ファクタのサイズを調整することを検討してください。 |
3.0.0 |
マネージャーのメモリ使用率が高い | Medium | global-manager、manager | マネージャ ノードのメモリ使用率が高くなっています。 |
このマネージャ ノードの構成、実行中のサービス、サイズを確認してください。Manager アプライアンスのフォーム ファクタのサイズを調整することを検討してください。 |
3.0.0 |
マネージャのディスク使用率が非常に高い | 重大 | global-manager、manager | マネージャ ノードのディスクの使用率が非常に高くなっています。 |
使用率の高いパーティションを調べ、削除可能なサイズの大きいファイルがあるか確認します。 |
3.0.0 |
マネージャのディスク使用率が高い | Medium | global-manager、manager | マネージャ ノードのディスク使用率が高くなっています。 |
使用率の高いパーティションを調べ、削除可能なサイズの大きいファイルがあるか確認します。 |
3.0.0 |
マネージャの構成ディスクの使用率が非常に高い | 重大 | global-manager、manager | マネージャ ノードの config ディスクの使用率が非常に高くなっています。 |
/Opt/vmware/tools/support/inspect_checkpoint_issues.py ツールを実行して問題が報告された場合は、VMware のサポートにお問い合わせください。 |
3.0.0 |
マネージャの構成ディスクの使用率が高い | Medium | global-manager、manager | マネージャ ノードの config ディスクの使用率が高くなっています。 |
/Opt/vmware/tools/support/inspect_checkpoint_issues.py ツールを実行して問題が報告された場合は、VMware のサポートにお問い合わせください。 |
3.0.0 |
オペレーション DB のディスク使用率が非常に高い | 重大 | manager | マネージャ ノードの nonconfig ディスクの使用率が非常に高くなっています。 |
/opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig ツールを実行して問題が報告された場合は VMware のサポートにお問い合わせください |
3.0.1 |
オペレーション DB のディスク使用率が高い | Medium | manager | マネージャ ノードの nonconfig ディスクの使用率が高くなっています。 |
/opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig ツールを実行して問題が報告された場合は VMware のサポートにお問い合わせください |
3.0.1 |
重複した IP アドレス | Medium | manager | マネージャ ノードの IP アドレスが別のデバイスによって使用されています。 |
1.マネージャの IP アドレスを使用しているデバイスを特定し、デバイスに新しい IP アドレスを割り当てます。注:新しい IP アドレスを使用するようにマネージャを再構成することはできません。 |
3.0.0 |
ストレージ エラー | 重大 | global-manager、manager | マネージャ ノードのディスクは読み取り専用です。 |
再起動で問題が解決されたかどうか読み取り専用パーティションを確認します。問題が解決していない場合は、ディスクの交換が必要になります。詳細については、VMware サポートにお問い合わせください。 |
3.0.2 |
マネージャの FQDN の DNS エントリがありません | 重大 | global-manager、manager | マネージャの FQDN の DNS エントリがありません。 |
1.マネージャ ノードで適切な DNS サーバが構成されていることを確認します。 |
4.1.0 |
VIP の FQDN の DNS エントリがありません | 重大 | manager | マネージャの VIP の FQDN エントリがありません。 |
VIP アドレスの DNS エントリを調べて、同じ FQDN に解決されるかどうかを確認します。 |
4.1.0 |
MTU チェック イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
トランスポート ゾーン内の MTU が一致しません | 高 | manager | 同じトランスポート ゾーンに接続しているトランスポート ノード間の MTU 構成が一致しません。 |
1.NSX UI で [システム]、[ファブリック]、[設定]、[MTU 構成チェック]、[不一致] の順に移動して、不一致の詳細を確認します。 |
3.2.0 |
グローバル ルーター MTU が大きすぎます | Medium | manager | グローバル ルーター MTU の構成が、オーバーレイ トランスポート ゾーンの MTU よりも大きくなっています。 |
1.NSX UI で [システム]、[ファブリック]、[設定]、[MTU 構成チェック]、[不一致] の順に移動して、不一致の詳細を確認します。 |
3.2.0 |
NAT イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
ゲートウェイの SNAT ポート使用率が高い | 重大 | edge、public-cloud-gateway | ゲートウェイの SNAT ポートの使用率が高くなっています。 |
Edge ノードに admin ユーザーとしてログインし、適切なインターフェイス UUID を使用して NSX CLI コマンド get firewall <LR_INT_UUID> connection state を呼び出し、SNAT IP {snat_ip_address} の SNAT マッピングを確認します。ゲートウェイを通過するトラフィック フローが DoS 攻撃またはアノマリ バーストではないことを確認します。トラフィックが通常の負荷の範囲内に見えても、アラームしきい値に到達した場合は、SNAT IP アドレスを追加して負荷を分散するか、新しいトラフィックを別の Edge ノードにルーティングすることを検討します。 |
3.2.0 |
NCP 健全性イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
NCP プラグイン停止 | 重大 | manager | マネージャ ノードで NCP がダウンしているか、不良な状態になっています。 |
問題のあるクラスタを見つけるには、NSX UI で [アラーム] 画面に移動します。このアラーム インスタンスのエンティティ名がクラスタ名です。または、NSX API GET /api/v1/systemhealth/container-cluster/ncp/status を呼び出し、すべてのクラスタの状態を取得して、「停止」または「不明」状態を報告するクラスタの名前を確認します。NSX UI で、[インベントリ] | [コンテナ] | [クラスタ] 画面の順に移動して、クラスタを名前で確認し、[ノード] タブをクリックします。ここに、すべての Kubernetes クラスタと PAS クラスタのメンバーが表示されます。Kubernetes クラスタの場合: |
3.0.0 |
ノード エージェント健全性イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
DPU でのノード エージェント停止 | 高 | dpu | DPU でノード仮想マシン内で実行されているエージェントが停止している可能性があります。 |
1.DPU {dpu_id} に Vmk50 がない場合は、ナレッジベースの記事 https://kb.vmware.com/s/article/67432 を参照してください。 |
4.0.0 |
ノード エージェント停止 | 高 | esx、kvm | ノード仮想マシン内で実行されているエージェントが停止している可能性があります。 |
ESX の場合: |
3.0.0 |
NSX Application Platform 通信イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
マネージャが切断されました | 高 | manager、intelligence | NSX Application Platform クラスタが NSX 管理クラスタから切断されました。 |
マネージャ クラスタ証明書、マネージャ ノード証明書、kafka 証明書、ingress 証明書が NSX Manager と NSX Application Platform クラスタの両方で一致するかどうかを確認します。これらの証明書の有効期限をチェックして、有効な証明書であることを確認してください。NSX Manager と NSX Application Platform クラスタ間のネットワーク接続を確認し、ネットワークの接続障害を解決してください。 |
3.2.0 |
メッセージング Raw フローで遅延が検出されました | 重大 | manager、intelligence | メッセージング トピックの Raw フローでデータ処理が遅くなっています。 |
ノードを追加し、NSX Application Platform クラスタをスケール アップします。分析サービスなど、特定のサービスがボトルネックになる可能性がある場合は、新しいノードを追加するときに、そのサービスをスケール アップします。 |
3.2.0 |
メッセージング オーバーフローで遅延が検出されました | 重大 | manager、intelligence | メッセージング トピックのオーバーフローでデータ処理が遅くなっています。 |
ノードを追加し、NSX Application Platform クラスタをスケール アップします。分析サービスなど、特定のサービスがボトルネックになる可能性がある場合は、新しいノードを追加するときに、そのサービスをスケール アップします。 |
3.2.0 |
TN フロー エクスポータの切断 | 高 | esx、kvm、bms | トランスポート ノードが NSX Application Platform クラスタのメッセージング ブローカから切断されています。データ収集が影響を受けます。 |
メッセージング サービスが NSX Application Platform クラスタで実行されていない場合は、再起動します。トランスポート ノードのフロー エクスポータと NSX Application Platform クラスタ間のネットワーク接続の障害を解決します。 |
3.2.0 |
DPU での TN フロー エクスポータの切断 | 高 | dpu | トランスポート ノードは、Intelligence ノードのメッセージング ブローカから切断されています。DPU でデータ収集が影響を受けます。 |
Intelligence ノードで実行されていない場合は、メッセージング サービスを再起動します。トランスポート ノードのフロー エクスポータと Intelligence ノード間のネットワーク接続の障害を解決します。 |
4.0.0 |
NSX Application Platform 健全性イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
クラスタの CPU 使用率が非常に高い | 重大 | manager、intelligence | NSX Application Platform クラスタの CPU 使用率が非常に高くなっています。 |
NSX UI で、[システム] > [NSX Application Platform] > [コア サービス] の順に移動し、個々のサービスの [システム負荷] フィールドを確認して、負荷の高いサービスを特定します。その負荷を低減できるかどうか確認します。処理能力を増やす必要がある場合は、[スケール アウト] ボタンをクリックして、より多くのリソースを要求します。 |
3.2.0 |
クラスタの CPU 使用率が高い | Medium | manager、intelligence | NSX Application Platform クラスタの CPU 使用率が高くなっています。 |
NSX UI で、[システム] > [NSX Application Platform] > [コア サービス] の順に移動し、個々のサービスの [システム負荷] フィールドを確認して、負荷の高いサービスを特定します。その負荷を低減できるかどうか確認します。処理能力を増やす必要がある場合は、[スケール アウト] ボタンをクリックして、より多くのリソースを要求します。 |
3.2.0 |
クラスタのメモリ使用率が非常に高い | 重大 | manager、intelligence | NSX Application Platform クラスタのメモリ使用率が非常に高くなっています。 |
NSX UI で、[システム] > [NSX Application Platform] > [コア サービス] の順に移動し、個々のサービスの [メモリ] フィールドを確認して、負荷の高いサービスを特定します。その負荷を低減できるかどうか確認します。メモリを増やす必要がある場合は、[スケール アウト] ボタンをクリックして、より多くのリソースを要求します。 |
3.2.0 |
クラスタのメモリ使用率が高い | Medium | manager、intelligence | NSX Application Platform クラスタのメモリ使用率が高くなっています。 |
NSX UI で、[システム] > [NSX Application Platform] > [コア サービス] の順に移動し、個々のサービスの [メモリ] フィールドを確認して、負荷の高いサービスを特定します。その負荷を低減できるかどうか確認します。メモリを増やす必要がある場合は、[スケール アウト] ボタンをクリックして、より多くのリソースを要求します。 |
3.2.0 |
クラスタのディスク使用率が非常に高い | 重大 | manager、intelligence | NSX Application Platform クラスタのディスク使用率が非常に高くなっています。 |
NSX UI で、[システム] > [NSX Application Platform] > [コア サービス] の順に移動し、個々のサービスの [ストレージ] フィールドを確認して、負荷の高いサービスを特定します。その負荷を低減できるかどうか確認します。ディスク ストレージを増やす必要がある場合は、[スケール アウト] ボタンをクリックして、より多くのリソースを要求します。データ ストレージ サービスの負荷が高い場合は、[スケール アップ] ボタンをクリックして、ディスク サイズを大きくする方法もあります。 |
3.2.0 |
クラスタのディスク使用率が高い | Medium | manager、intelligence | NSX Application Platform クラスタのディスク使用率が高くなっています。 |
NSX UI で、[システム] > [NSX Application Platform] > [コア サービス] の順に移動し、個々のサービスの [ストレージ] フィールドを確認して、負荷の高いサービスを特定します。その負荷を低減できるかどうか確認します。ディスク ストレージを増やす必要がある場合は、[スケール アウト] ボタンをクリックして、より多くのリソースを要求します。データ ストレージ サービスの負荷が高い場合は、[スケール アップ] ボタンをクリックして、ディスク サイズを大きくする方法もあります。 |
3.2.0 |
NAPP の状態: 劣化 | Medium | manager、intelligence | NSX Application Platform クラスタ全体の状態が「劣化」になっています。 |
ノードとサービスのアラームから詳細を取得します。 |
3.2.0 |
NAPP の状態:停止 | 高 | manager、intelligence | NSX Application Platform クラスタ全体の状態が「停止」になっています。 |
ノードとサービスのアラームから詳細を取得します。 |
3.2.0 |
ノードの CPU 使用率が非常に高い | 重大 | manager、intelligence | NSX Application Platform ノードの CPU 使用率が非常に高くなっています。 |
NSX UI で、[システム] > [NSX Application Platform] > [コア サービス] の順に移動し、個々のサービスの [システム負荷] フィールドを確認して、負荷の高いサービスを特定します。その負荷を低減できるかどうか確認します。デフォルトでは、CPU 使用率が低いノード数が非常に少ない場合、Kubernetes はサービスのスケジュールを自動的に再設定します。ほとんどのノードで CPU 使用率が高く、負荷を低減できない場合は、[スケール アウト] ボタンをクリックして、より多くのリソースを要求します。 |
3.2.0 |
ノードの CPU 使用率が高い | Medium | manager、intelligence | NSX Application Platform ノードの CPU 使用率が高くなっています。 |
NSX UI で、[システム] > [NSX Application Platform] > [コア サービス] の順に移動し、個々のサービスの [システム負荷] フィールドを確認して、負荷の高いサービスを特定します。その負荷を低減できるかどうか確認します。デフォルトでは、CPU 使用率が低いノード数が非常に少ない場合、Kubernetes はサービスのスケジュールを自動的に再設定します。ほとんどのノードで CPU 使用率が高く、負荷を低減できない場合は、[スケール アウト] ボタンをクリックして、より多くのリソースを要求します。 |
3.2.0 |
ノードのメモリ使用率が非常に高い | 重大 | manager、intelligence | NSX Application Platform ノードのメモリ使用率が非常に高くなっています。 |
NSX UI で、[システム] > [NSX Application Platform] > [コア サービス] の順に移動し、個々のサービスの [メモリ] フィールドを確認して、負荷の高いサービスを特定します。その負荷を低減できるかどうか確認します。デフォルトでは、メモリ使用率が低いノード数が非常に少ない場合、Kubernetes はサービスのスケジュールを自動的に再設定します。ほとんどのノードでメモリ使用率が高く、負荷を低減できない場合は、[スケール アウト] ボタンをクリックして、より多くのリソースを要求します。 |
3.2.0 |
ノードのメモリ使用率が高い | Medium | manager、intelligence | NSX Application Platform ノードのメモリ使用率が高くなっています。 |
NSX UI で、[システム] > [NSX Application Platform] > [コア サービス] の順に移動し、個々のサービスの [メモリ] フィールドを確認して、負荷の高いサービスを特定します。その負荷を低減できるかどうか確認します。デフォルトでは、メモリ使用率が低いノード数が非常に少ない場合、Kubernetes はサービスのスケジュールを自動的に再設定します。ほとんどのノードでメモリ使用率が高く、負荷を低減できない場合は、[スケール アウト] ボタンをクリックして、より多くのリソースを要求します。 |
3.2.0 |
ノードのディスク使用率が非常に高い | 重大 | manager、intelligence | NSX Application Platform ノードのディスク使用率が非常に高くなっています。 |
NSX UI で、[システム] > [NSX Application Platform] > [コア サービス] の順に移動し、個々のサービスの [ストレージ] フィールドを確認して、負荷の高いサービスを特定します。未使用のデータまたはログをクリーンアップしてディスク リソースを解放し、負荷を低減できるかどうか確認します。ディスク容量を増やす必要がある場合は、負荷の高いサービスをスケール アウトします。データ ストレージ サービスの負荷が高い場合は、[スケール アップ] ボタンをクリックして、ディスク サイズを大きくする方法もあります。 |
3.2.0 |
ノードのディスク使用率が高い | Medium | manager、intelligence | NSX Application Platform ノードのディスク使用率が高くなっています。 |
NSX UI で、[システム] > [NSX Application Platform] > [コア サービス] の順に移動し、個々のサービスの [ストレージ] フィールドを確認して、負荷の高いサービスを特定します。未使用のデータまたはログをクリーンアップしてディスク リソースを解放し、負荷を低減できるかどうか確認します。ディスク容量を増やす必要がある場合は、負荷の高いサービスをスケール アウトします。データ ストレージ サービスの負荷が高い場合は、[スケール アップ] ボタンをクリックして、ディスク サイズを大きくする方法もあります。 |
3.2.0 |
ノードの状態: 劣化 | Medium | manager、intelligence | NSX Application Platform ノードの状態が「劣化」になっています。 |
NSX UI で、[システム] > [NSX Application Platform] > [リソース] の順に移動し、劣化しているノードを確認します。ノードのネットワーク、メモリ、CPU の使用率を確認します。ワーカー ノードの場合は、ノードを再起動します。 |
3.2.0 |
ノードの状態: 停止 | 高 | manager、intelligence | NSX Application Platform ノードの状態が「停止」になっています。 |
NSX UI で、[システム] > [NSX Application Platform] > [リソース] の順に移動し、停止しているノードを確認します。ノードのネットワーク、メモリ、CPU の使用率を確認します。ワーカー ノードの場合は、ノードを再起動します。 |
3.2.0 |
データストアの CPU 使用率が非常に高い | 重大 | manager、intelligence | データ ストレージ サービスの CPU 使用率が非常に高くなっています。 |
すべてのサービスまたはデータ ストレージ サービスをスケール アウトします。 |
3.2.0 |
データストアの CPU 使用率が高い | Medium | manager、intelligence | データ ストレージ サービスの CPU 使用率が高くなっています。 |
すべてのサービスまたはデータ ストレージ サービスをスケール アウトします。 |
3.2.0 |
メッセージングの CPU 使用率が非常に高い | 重大 | manager、intelligence | メッセージング サービスの CPU 使用率が非常に高くなっています。 |
すべてのサービスまたはメッセージング サービスをスケール アウトします。 |
3.2.0 |
メッセージングの CPU 使用率が高い | Medium | manager、intelligence | メッセージング サービスの CPU 使用率が高くなっています。 |
すべてのサービスまたはメッセージング サービスをスケール アウトします。 |
3.2.0 |
構成 DB の CPU 使用率が非常に高い | 重大 | manager、intelligence | 構成データベース サービスの CPU 使用率が非常に高くなっています。 |
すべてのサービスをスケール アウトします。 |
3.2.0 |
構成 DB の CPU 使用率が高い | Medium | manager、intelligence | 構成データベース サービスの CPU 使用率が高くなっています。 |
すべてのサービスをスケール アウトします。 |
3.2.0 |
メトリックの CPU 使用率が非常に高い | 重大 | manager、intelligence | メトリック サービスの CPU 使用率が非常に高くなっています。 |
すべてのサービスをスケール アウトします。 |
3.2.0 |
メトリックの CPU 使用率が高い | Medium | manager、intelligence | メトリック サービスの CPU 使用率が高くなっています。 |
すべてのサービスをスケール アウトします。 |
3.2.0 |
分析の CPU 使用率が非常に高い | 重大 | manager、intelligence | 分析サービスの CPU 使用率が非常に高くなっています。 |
すべてのサービスまたは分析サービスをスケール アウトします。 |
3.2.0 |
分析の CPU 使用率が高い | Medium | manager、intelligence | 分析サービスの CPU 使用率が高くなっています。 |
すべてのサービスまたは分析サービスをスケール アウトします。 |
3.2.0 |
プラットフォームの CPU 使用率が非常に高い | 重大 | manager、intelligence | Platform Services サービスの CPU 使用率が非常に高くなっています。 |
すべてのサービスをスケール アウトします。 |
3.2.0 |
プラットフォームの CPU 使用率が高い | Medium | manager、intelligence | Platform Services サービスの CPU 使用率が高くなっています。 |
すべてのサービスをスケール アウトします。 |
3.2.0 |
データストアのメモリ使用率が非常に高い | 重大 | manager、intelligence | データ ストレージ サービスのメモリ使用率が非常に高くなっています。 |
すべてのサービスまたはデータ ストレージ サービスをスケール アウトします。 |
3.2.0 |
データストアのメモリ使用率が高い | Medium | manager、intelligence | データ ストレージ サービスのメモリ使用率が高くなっています。 |
すべてのサービスまたはデータ ストレージ サービスをスケール アウトします。 |
3.2.0 |
メッセージングのメモリ使用率が非常に高い | 重大 | manager、intelligence | メッセージング サービスのメモリ使用率が非常に高くなっています。 |
すべてのサービスまたはメッセージング サービスをスケール アウトします。 |
3.2.0 |
メッセージングのメモリ使用率が高い | Medium | manager、intelligence | メッセージング サービスのメモリ使用率が高くなっています。 |
すべてのサービスまたはメッセージング サービスをスケール アウトします。 |
3.2.0 |
構成 DB のメモリ使用率が非常に高い | 重大 | manager、intelligence | 構成データベース サービスのメモリ使用率が非常に高くなっています。 |
すべてのサービスをスケール アウトします。 |
3.2.0 |
構成 DB のメモリ使用率が高い | Medium | manager、intelligence | 構成データベース サービスのメモリ使用率が高くなっています。 |
すべてのサービスをスケール アウトします。 |
3.2.0 |
メトリックのメモリ使用率が非常に高い | 重大 | manager、intelligence | メトリック サービスのメモリ使用率が非常に高くなっています。 |
すべてのサービスをスケール アウトします。 |
3.2.0 |
メトリックのメモリ使用率が高い | Medium | manager、intelligence | メトリック サービスのメモリ使用率が高くなっています。 |
すべてのサービスをスケール アウトします。 |
3.2.0 |
分析のメモリ使用率が非常に高い | 重大 | manager、intelligence | 分析サービスのメモリ使用率が非常に高くなっています。 |
すべてのサービスまたは分析サービスをスケール アウトします。 |
3.2.0 |
分析のメモリ使用率が高い | Medium | manager、intelligence | 分析サービスのメモリ使用率が高くなっています。 |
すべてのサービスまたは分析サービスをスケール アウトします。 |
3.2.0 |
プラットフォームのメモリ使用率が非常に高い | 重大 | manager、intelligence | Platform Services サービスのメモリ使用率が非常に高くなっています。 |
すべてのサービスをスケール アウトします。 |
3.2.0 |
プラットフォームのメモリ使用率が高い | Medium | manager、intelligence | Platform Services サービスのメモリ使用率が高くなっています。 |
すべてのサービスをスケール アウトします。 |
3.2.0 |
データストアのディスク使用率が非常に高い | 重大 | manager、intelligence | データ ストレージ サービスのディスク使用率が非常に高くなっています。 |
データ ストレージ サービスをスケール アウトまたはスケール アップします。 |
3.2.0 |
データストアのディスク使用率が高い | Medium | manager、intelligence | データ ストレージ サービスのディスク使用率が高くなっています。 |
データ ストレージ サービスをスケール アウトまたはスケール アップします。 |
3.2.0 |
メッセージングのディスク使用率が非常に高い | 重大 | manager、intelligence | メッセージング サービスのディスク使用率が非常に高くなっています。 |
不要なファイルをクリーンアップします。すべてのサービスまたはメッセージング サービスをスケール アウトします。 |
3.2.0 |
メッセージングのディスク使用率が高い | Medium | manager、intelligence | メッセージング サービスのディスク使用率が高くなっています。 |
不要なファイルをクリーンアップします。すべてのサービスまたはメッセージング サービスをスケール アウトします。 |
3.2.0 |
構成 DB のディスク使用率が非常に高い | 重大 | manager、intelligence | 構成データベース サービスのディスク使用率が非常に高くなっています。 |
不要なファイルをクリーンアップします。すべてのサービスをスケール アウトします。 |
3.2.0 |
構成 DB のディスク使用率が高い | Medium | manager、intelligence | 構成データベース サービスのディスク使用率が高くなっています。 |
不要なファイルをクリーンアップします。すべてのサービスをスケール アウトします。 |
3.2.0 |
メトリックのディスク使用率が非常に高い | 重大 | manager、intelligence | メトリック サービスのディスク使用率が非常に高くなっています。 |
不要なファイルをクリーンアップします。すべてのサービスをスケール アウトします。 |
3.2.0 |
メトリックのディスク使用率が高い | Medium | manager、intelligence | メトリック サービスのディスク使用率が高くなっています。 |
不要なファイルをクリーンアップします。すべてのサービスをスケール アウトします。 |
3.2.0 |
分析のディスク使用率が非常に高い | 重大 | manager、intelligence | 分析サービスのディスク使用率が非常に高くなっています。 |
不要なファイルをクリーンアップします。すべてのサービスまたは分析サービスをスケール アウトします。 |
3.2.0 |
分析のディスク使用率が高い | Medium | manager、intelligence | 分析サービスのディスク使用率が高くなっています。 |
不要なファイルをクリーンアップします。すべてのサービスまたは分析サービスをスケール アウトします。 |
3.2.0 |
プラットフォームのディスク使用率が非常に高い | 重大 | manager、intelligence | Platform Services サービスのディスク使用率が非常に高くなっています。 |
不要なファイルをクリーンアップします。すべてのサービスをスケール アウトします。 |
3.2.0 |
プラットフォームのディスク使用率が高い | Medium | manager、intelligence | Platform Services サービスのディスク使用率が高くなっています。 |
不要なファイルをクリーンアップします。すべてのサービスをスケール アウトします。 |
3.2.0 |
サービスの状態: 劣化 | Medium | manager、intelligence | サービスの状態が「劣化」になっています。 |
NSX UI で、[システム] > [NSX Application Platform] > [コア サービス] の順に移動して、劣化しているサービスを確認します。NSX API GET /napp/api/v1/platform/monitor/feature/health を呼び出して、劣化している特定のサービスとその理由を確認します。必要であれば、CLI コマンド kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace> を呼び出し、劣化しているサービスを再起動します。劣化しているサービスが正常に動作する場合もありますが、パフォーマンスは最適化されていません。 |
3.2.0 |
サービスの状態: 停止 | 高 | manager、intelligence | サービスの状態が「停止」になっています。 |
NSX UI で、[システム] > [NSX Application Platform] > [コア サービス] の順に移動して、劣化しているサービスを確認します。NSX API GET /napp/api/v1/platform/monitor/feature/health を呼び出して、停止している特定のサービスとその理由を確認します。CLI コマンド kubectl rollout restart <statefulset/deployment> <service_name> -n <namespace> を呼び出して、劣化しているサービスを再起動します。 |
3.2.0 |
NSXaaS 健全性イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
サービスの劣化 | 高 | aas | サービスが劣化しました。 |
サービスを識別するアラームの説明に含まれるデータ、サービスの展開場所、健全性モニタリング サービスによってキャプチャされた追加データを確認します。また、メトリック サービスまたは Wavefront によって記録された履歴データも必要に応じて確認します。 |
4.1.0 |
サービスの停止 | 重大 | aas | サービスが停止しました。 |
サービスを識別するアラームの説明に含まれるデータ、サービスの展開場所、健全性モニタリング サービスによってキャプチャされた追加データを確認します。また、メトリック サービスまたは Wavefront によって記録された履歴データも必要に応じて確認します。 |
4.1.0 |
パスワード管理イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
パスワードの期限切れ | 重大 | global-manager、manager、edge、public-cloud-gateway | ユーザー パスワードが期限切れです。 |
システムにアクセスするには、ユーザー {username} のパスワードを今すぐ変更する必要があります。たとえば、ユーザーに新しいパスワードを適用するには、要求の本文に有効なパスワードを指定して次の NSX API を呼び出します。PUT /api/v1/node/users/<userid>。<userid> はユーザーの ID です。admin ユーザー(<userid> が 10000)のパスワードが期限切れになっている場合は、管理者が SSH(有効な場合)またはコンソールからシステムにログインして、パスワードを変更する必要があります。期限切れのパスワードを入力すると、新しいパスワードを入力するように求められます。 |
3.0.0 |
パスワードがまもなく期限切れ | 高 | global-manager、manager、edge、public-cloud-gateway | ユーザー パスワードがまもなく期限切れになります。 |
ユーザー {username} のパスワードをすぐに変更してください。たとえば、ユーザーに新しいパスワードを適用するには、要求の本文に有効なパスワードを指定して次の NSX API を呼び出します。PUT /api/v1/node/users/<userid>。<userid> はユーザーの ID です。 |
3.0.0 |
パスワードがまもなく期限切れ | 中 | global-manager、manager、edge、public-cloud-gateway | ユーザー パスワードの期限切れが近づいています。 |
ユーザー {username} のパスワードはすぐに変更する必要があります。たとえば、ユーザーに新しいパスワードを適用するには、要求の本文に有効なパスワードを指定して次の NSX API を呼び出します。PUT /api/v1/node/users/<userid>。<userid> はユーザーの ID です。 |
3.0.0 |
物理サーバ イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
物理サーバのインストールに失敗 | 重大 | manager | 物理サーバ (BMS) のインストールに失敗しました。 |
[システム] > [ファブリック] > [ノード] > [ホスト トランスポート ノード] の順に移動して、ノードのエラーを解決します。 |
4.0.0 |
物理サーバのアップグレードに失敗 | 重大 | manager | 物理サーバ (BMS) のアップグレードに失敗しました。 |
[システム] > [アップグレード] の順に移動してエラーを解決し、アップグレードを再度トリガします。 |
4.0.0 |
物理サーバのアンインストールに失敗 | 重大 | manager | 物理サーバ (BMS) のアンインストールに失敗しました。 |
[システム] > [ファブリック] > [ノード] > [ホスト トランスポート ノード] の順に移動して、ノードのエラーを解決します。 |
4.0.0 |
ポリシー制約イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
作成数の上限に達しました | Medium | manager | エンティティ数がポリシー制約の上限に達しました。 |
{constraint_type} の使用量を確認します。制約を更新して制限を増やすか、未使用の {constraint_type} を削除します。 |
4.1.0 |
ルーティング イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
外部インターフェイスの BFD が停止 | 高 | edge、autonomous-edge、public-cloud-gateway | BFD セッションが停止しています。 |
1.NSX CLI コマンド get logical-routers を呼び出します。 |
3.0.0 |
スタティック ルートの削除 | 高 | edge、autonomous-edge、public-cloud-gateway | スタティック ルートが削除されました。 |
BFD セッションが停止しているため、スタティック ルーティングのエントリが削除されています。 |
3.0.0 |
BGP 停止 | 高 | edge、autonomous-edge、public-cloud-gateway | BGP ネイバーが停止しています。 |
1.NSX CLI コマンド get logical-routers を呼び出します。 |
3.0.0 |
サービス IP にプロキシ ARP が構成されていません | 重大 | manager | サービス IP にプロキシ ARP が構成されていません。 |
サービス IP と lrport サブネット間の重複で生成されるプロキシ ARP エントリの数が許容しきい値の上限 (16384) を下回るように、サービス エンティティ {entity_id} のサービス IP {service_ip} を再構成するか、ルーター {lr_id} の lrport {lrport_id} のサブネットを変更します。 |
3.0.3 |
ルーティングの停止 | 高 | edge、autonomous-edge、public-cloud-gateway | すべての BGP/BFD セッションが停止しています。 |
NSX CLI コマンド get logical-routers を呼び出して Tier-0 サービス ルーターを取得します。この VRF に切り替えて、次の NSX CLI コマンドを呼び出します。 |
3.0.0 |
OSPF ネイバーは停止しました | 高 | edge、autonomous-edge、public-cloud-gateway | OSPF ネイバーが「完全」から別の状態に移行しました。 |
1.NSX CLI コマンド get logical-routers を呼び出して、vrf ID を取得し、Tier-0 サービス ルーターに切り替えます。 |
3.1.1 |
IPv4 ルート数が上限に近い | Medium | edge、autonomous-edge、public-cloud-gateway | Edge ノードで IPv4 ルート数の上限に近づいています。 |
1.すべての外部ピアから受信したルート再配分ポリシーとルートを確認します。 |
4.0.0 |
IPv6 ルート数が上限に近い | Medium | edge、autonomous-edge、public-cloud-gateway | Edge ノードで IPv6 ルート数が上限に近づいています。 |
1.すべての外部ピアから受信したルート再配分ポリシーとルートを確認します。 |
4.0.0 |
IPv4 ルート数が上限を超過 | 重大 | edge、autonomous-edge、public-cloud-gateway | Edge ノードで IPv4 ルート数の上限を超えています。 |
1.すべての外部ピアから受信したルート再配分ポリシーとルートを確認します。 |
4.0.0 |
IPv6 ルート数が上限を超過 | 重大 | edge、autonomous-edge、public-cloud-gateway | Edge ノードで IPv6 ルート数の上限を超えています。 |
1.すべての外部ピアから受信したルート再配分ポリシーとルートを確認します。 |
4.0.0 |
BGP ネイバーから受信される IPv4 プレフィックス数が最大数に近い | Medium | edge、autonomous-edge、public-cloud-gateway | BGP ネイバーから受信される IPv4 プレフィックス数が最大数に近づいています。 |
1.外部ルーターの BGP ルーティング ポリシーを確認します。 |
4.0.0 |
BGP ネイバーから受信される IPv6 プレフィックス数が最大数に近い | Medium | edge、autonomous-edge、public-cloud-gateway | BGP ネイバーから受信される IPv6 プレフィックス数が最大数に近づいています。 |
1.外部ルーターの BGP ルーティング ポリシーを確認します。 |
4.0.0 |
BGP ネイバーから受信される IPv4 プレフィックス数が最大数を超過 | 重大 | edge、autonomous-edge、public-cloud-gateway | BGP ネイバーから受信される IPv4 プレフィックス数が最大数を超えています。 |
1.外部ルーターの BGP ルーティング ポリシーを確認します。 |
4.0.0 |
BGP ネイバーから受信される IPv6 プレフィックス数が最大数を超過 | 重大 | edge、autonomous-edge、public-cloud-gateway | BGP ネイバーから受信される IPv6 プレフィックス数が最大数を超えました。 |
1.外部ルーターの BGP ルーティング ポリシーを確認します。 |
4.0.0 |
セキュリティ コンプライアンス イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
NDcPP 非遵守をトリガ | 重大 | manager | NSX セキュリティ状態が NDcPP を遵守していません。 |
ユーザー インターフェイスの [ホーム] > [モニタリング ダッシュボード] > [コンプライアンス レポート] メニューからコンプライアンス レポートを実行して、NDcPP コンプライアンス名でマークされているすべての問題を解決します。 |
4.1.0 |
EAL4 非遵守をトリガ | 重大 | manager | NSX セキュリティ状態が EAL4+ を遵守していません。 |
ユーザー インターフェイスの [ホーム] > [モニタリング ダッシュボード] > [コンプライアンス レポート] メニューからコンプライアンス レポートを実行して、EAL4+ コンプライアンス名でマークされているすべての問題を解決します。 |
4.1.0 |
NDcPP 非遵守をポーリング | 重大 | manager | NSX セキュリティ構成が NDcPP を遵守していません。 |
ユーザー インターフェイスの [ホーム] > [モニタリング ダッシュボード] > [コンプライアンス レポート] メニューからコンプライアンス レポートを実行して、NDcPP コンプライアンス名でマークされているすべての問題を解決します。 |
4.1.0 |
EAL4 非遵守をポーリング | 重大 | manager | NSX セキュリティ構成が EAL4+ を遵守していません。 |
ユーザー インターフェイスの [ホーム] > [モニタリング ダッシュボード] > [コンプライアンス レポート] メニューからコンプライアンス レポートを実行して、EAL4+ コンプライアンス名でマークされているすべての問題を解決します。 |
4.1.0 |
サービス挿入イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
サービス展開に成功 | 情報 | manager | サービスの展開に成功しました。 |
必要な操作はありません。 |
4.0.0 |
サービス展開に失敗 | 重大 | manager | サービス展開に失敗しました。 |
NSX ユーザー インターフェイスまたは API を使用して、サービス展開を削除します。ナレッジ ベースから修正措置を実行し、サービス展開を再試行します。 |
4.0.0 |
サービス展開の解除に成功 | 情報 | manager | サービス展開の削除に成功しました。 |
必要な操作はありません。 |
4.0.0 |
サービス展開の解除に失敗 | 重大 | manager | サービス展開の削除に失敗しました。 |
NSX ユーザー インターフェイスまたは API を使用して、サービス展開を削除します。ナレッジベースに記述の修正措置を行い、サービス展開の削除を再試行します。すべての仮想マシンとオブジェクトが削除されていることを確認した後、アラームを手動で解決してください。 |
4.0.0 |
サービス仮想マシンの健全性の状態: 稼動中 | 情報 | manager | サービスでサービス仮想マシンは正常に機能しています。 |
必要な操作はありません。 |
4.0.0 |
サービス仮想マシンの健全性の状態: 停止 | 高 | manager | サービスでサービス仮想マシンが機能していません。 |
NSX ユーザー インターフェイスまたは API を使用して、サービス展開を削除します。ナレッジベースから修正措置を実行し、必要に応じてサービス展開を再試行します。 |
4.0.0 |
サービス挿入インフラストラクチャの状態: 停止 | 重大 | esx | サービス挿入インフラストラクチャが停止状態で、ホストで有効になっていません。 |
ナレッジベースに記述の修正措置を行い、状態が「稼動中」かどうかを確認します。状態を確認した後、アラームを手動で解決します。 |
4.0.0 |
サービス仮想マシンの稼動状態: 停止 | 重大 | manager | サービス仮想マシンの稼動状態が「停止」になっています。 |
ナレッジベースに記述の修正措置を行い、状態が「稼動中」かどうかを確認します。 |
4.0.0 |
サービス チェーン パスの停止 | 重大 | manager | サービス チェーン パスが停止しています。 |
ナレッジベースに記述の修正措置を行い、状態が「稼動中」かどうかを確認します。 |
4.0.0 |
新しいホストの追加 | 情報 | esx | クラスタに新しいホストが追加されました。 |
仮想マシンの展開状態を確認し、パワーオンするまで待機します。 |
4.0.0 |
TEP 健全性イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
TEP の障害 | Medium | esx | TEP が不良です。 |
1.TEP に有効な IP アドレスがあるか、またはその他のアンダーレイ接続の問題があるかを確認します。 |
4.1.0 |
TEP HA が有効 | 情報 | esx | TEP HA が有効化されました。 |
「トランスポート ノード:{transport_node_id} の VDS:{dvs_name} で、TEP:{vtep_name} の自動リカバリを有効にするか、手動リカバリを呼び出します。 |
4.1.0 |
TEP の自動リカバリに成功 | 情報 | esx | 自動リカバリに成功しました。 |
なし。 |
4.1.0 |
TEP の自動リカバリに失敗 | Medium | esx | 自動リカバリに失敗しました。 |
TEP に有効な IP アドレスがあるか、またはその他のアンダーレイ接続の問題があるかを確認します。 |
4.1.0 |
DPU 上の TEP に障害が発生 | Medium | dpu | DPU 上の TEP が不良です。 |
1.TEP に有効な IP アドレスがあるか、またはその他のアンダーレイ接続の問題があるかを確認します。 |
4.1.0 |
DPU 上で TEP HA が有効 | 情報 | dpu | DPU 上で TEP HA が有効化されました。 |
DPU {dpu_id} のトランスポート ノード:{transport_node_id} で、VDS:{dvs_name} の TEP:{vtep_name} の自動リカバリを有効にするか、手動リカバリを呼び出します。 |
4.1.0 |
DPU 上の TEP の自動リカバリに成功 | 情報 | dpu | DPU で自動リカバリに成功しました。 |
なし。 |
4.1.0 |
DPU 上の TEP の自動リカバリに失敗 | Medium | dpu | DPU で自動リカバリに失敗しました。 |
TEP に有効な IP アドレスがあるか、またはその他のアンダーレイ接続の問題があるかを確認します。 |
4.1.0 |
トランスポート ノードの健全性イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
DPU でトランスポート ノードのアップリンクが停止しています | Medium | dpu | DPU でアップリンクが停止しています。 |
DPU {dpu_id} でホストのアップリンクの物理 NIC の状態を確認します。ホストで、この物理 NIC にマッピングしている名前を確認し、UI をチェックします。 |
4.0.0 |
DPU での LAG メンバーの停止 | Medium | dpu | DPU で LACP レポーティング メンバーが停止しています。 |
DPU {dpu_id} で LAG メンバーの接続状態を確認します。ホスト上の関連する物理 NIC のマッピングされた名前を確認し、UI でチェックします。 |
4.0.0 |
N-VDS アップリンクの停止 | Medium | esx、kvm、bms | アップリンクが停止しています。 |
ホストのアップリンクの物理 NIC の状態を確認します。 |
3.0.0 |
トランスポート ノードのアップリンクが停止しています | Medium | esx、kvm、bms | アップリンクが停止しています。 |
ホストのアップリンクの物理 NIC の状態を確認します。 |
3.2.0 |
LAG メンバーの停止 | Medium | esx、kvm、bms | LACP レポーティング メンバーが停止しています。 |
ホストの LAG メンバーの接続状態を確認します。 |
3.0.0 |
VMC アプリケーション イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
中継接続エラー | Medium | manager | 中継接続が完全に認識されません。 |
このアラームが 10 分以内に自動的に解決しない場合は、要求に関連する最後の中継接続を再試行してください。たとえば、TGW 接続 API 要求がこのアラームをトリガした場合、TGW 接続 API 要求をもう一度再試行します。再試行後もアラームが解決しない場合は、次の手順を試みてください。 |
4.1.0 |
VPN イベント
イベント名 | 重要度 | ノード タイプ | アラート メッセージ | 推奨アクション | 導入されたリリース |
---|---|---|---|---|---|
IPsec サービスの停止 | Medium | edge、autonomous-edge、public-cloud-gateway | IPsec サービスが停止しています。 |
1.NSX Manager UI から IPsec サービスを無効にして有効にします。 |
3.2.0 |
IPsec ポリシー ベース セッションの停止 | Medium | edge、autonomous-edge、public-cloud-gateway | ポリシー ベース IPsec VPN セッションが停止しています。 |
IPsec VPN セッションの構成を確認し、セッション停止の理由に応じてエラーを解決します。 |
3.0.0 |
IPsec ルート ベース セッションの停止 | Medium | edge、autonomous-edge、public-cloud-gateway | ルート ベース IPsec VPN セッションが停止しています。 |
IPsec VPN セッションの構成を確認し、セッション停止の理由に応じてエラーを解決します。 |
3.0.0 |
IPsec ポリシー ベース トンネルの停止 | Medium | edge、autonomous-edge、public-cloud-gateway | ポリシー ベース IPsec VPN トンネルが停止しています。 |
IPsec VPN セッションの構成を確認し、トンネル停止の理由に応じてエラーを解決します。 |
3.0.0 |
IPsec ルート ベース トンネルの停止 | Medium | edge、autonomous-edge、public-cloud-gateway | ルート ベース IPsec VPN トンネルが停止しています。 |
IPsec VPN セッションの構成を確認し、トンネル停止の理由に応じてエラーを解決します。 |
3.0.0 |
L2VPN セッションの停止 | Medium | edge、autonomous-edge、public-cloud-gateway | L2VPN セッションが停止しています。 |
L2VPN セッションの状態を確認してセッション停止の理由を特定し、それに基づいてエラーを解決します。 |
3.0.0 |