イベントカタログ

アラーム管理イベント

アラーム管理イベントは、NSX Manager ノードとグローバルマネージャノードで発生します。

イベント名	重要度	アラートメッセージ	推奨アクション
アラームサービスの過負荷状態	重大	アラームサービスが過負荷状態になっています。イベントの検出時：「大量のアラームが報告されたため、アラームサービスが一時的に過負荷状態になっています。NSX ユーザーインターフェイスと GET /api/v1/alarm NSX API が新しいアラームの報告を停止しました。Syslog エントリと SNMP トラップ（有効になっている場合）は引き続き送信され、基になるイベントの詳細を報告します。アラームの大量発生の原因となっている問題が解決されると、アラームサービスが新しいアラームの報告を再開します。」イベントの解決時：「アラームの大量発生が収まりました。新しいアラームの報告が再開されました。」	NSX ユーザーインターフェイスの [アラーム] ページまたは GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED NSX API を使用して、すべてのアクティブアラームを確認します。それぞれのアクティブアラームに対して、アラームの推奨アクションに従い、根本原因を調査します。十分なアラームが解決されると、アラームサービスが新しいアラームの報告を再開します。
大量のアラーム	重大	特定のタイプのアラームが大量に検出されました。イベントの検出時：「`{event_id}` アラームが大量に発生しているため、アラームサービスはこのタイプのアラームの報告を一時的に停止しています。NSX ユーザーインターフェイスと GET /api/v1/alarms NSX API は、これらのアラームの新しいインスタンスを報告しません。Syslog エントリと SNMP トラップ（有効になっている場合）は引き続き送信され、基になるイベントの詳細を報告します。`{event_id}` アラームの大量発生の原因となっている問題が解決されると、アラームサービスが新しい `{event_id}` アラームの報告を再開します。」イベントの解決時：「`{event_id}` アラームの大量発生が収まりました。新しいアラームの報告が再開されました。」	NSX ユーザーインターフェイスの [アラーム] ページまたは GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED NSX API を使用して、すべてのアクティブアラームを確認します。それぞれのアクティブアラームに対して、アラームの推奨アクションに従い、根本原因を調査します。十分なアラームが解決されると、アラームサービスが新しい `{event_id}` アラームの報告を再開します。

イベント名

重要度

アラートメッセージ

推奨アクション

アラームサービスの過負荷状態

重大

アラームサービスが過負荷状態になっています。

イベントの検出時：「大量のアラームが報告されたため、アラームサービスが一時的に過負荷状態になっています。NSX ユーザーインターフェイスと GET /api/v1/alarm NSX API が新しいアラームの報告を停止しました。Syslog エントリと SNMP トラップ（有効になっている場合）は引き続き送信され、基になるイベントの詳細を報告します。アラームの大量発生の原因となっている問題が解決されると、アラームサービスが新しいアラームの報告を再開します。」

イベントの解決時：「アラームの大量発生が収まりました。新しいアラームの報告が再開されました。」

NSX ユーザーインターフェイスの [アラーム] ページまたは GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED NSX API を使用して、すべてのアクティブアラームを確認します。それぞれのアクティブアラームに対して、アラームの推奨アクションに従い、根本原因を調査します。十分なアラームが解決されると、アラームサービスが新しいアラームの報告を再開します。

大量のアラーム

重大

特定のタイプのアラームが大量に検出されました。

イベントの検出時：「{event_id} アラームが大量に発生しているため、アラームサービスはこのタイプのアラームの報告を一時的に停止しています。NSX ユーザーインターフェイスと GET /api/v1/alarms NSX API は、これらのアラームの新しいインスタンスを報告しません。Syslog エントリと SNMP トラップ（有効になっている場合）は引き続き送信され、基になるイベントの詳細を報告します。{event_id} アラームの大量発生の原因となっている問題が解決されると、アラームサービスが新しい {event_id} アラームの報告を再開します。」

イベントの解決時：「{event_id} アラームの大量発生が収まりました。新しいアラームの報告が再開されました。」

NSX ユーザーインターフェイスの [アラーム] ページまたは GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED NSX API を使用して、すべてのアクティブアラームを確認します。それぞれのアクティブアラームに対して、アラームの推奨アクションに従い、根本原因を調査します。十分なアラームが解決されると、アラームサービスが新しい {event_id} アラームの報告を再開します。

証明書イベント

証明書イベントは、NSX Manager ノードで発生します。

イベント名重要度アラートメッセージ推奨アクション

期限切れの証明書

重大

イベント名	重要度	アラートメッセージ	推奨アクション
期限切れの証明書	重大	証明書が期限切れです。イベントの検出時：「証明書 `{entity-id}` が期限切れです。」イベントの解決時：「期限切れの証明書 `{entity-id}` が削除されたか、有効期限の問題が解決されました。」	現在、証明書を使用しているサービスが、期限切れでない新しい証明書を使用するように更新されていることを確認します。たとえば、HTTP サービスに新しい証明書を適用するには、次の API 呼び出しを行います。 `POST /api/v1/node/services/http?action=apply_certificate&certificate_id=<cert-id>` ここで、<cert-id> は、API 呼び出し `GET /api/v1/trust-management/certificates` によって報告される有効な証明書の ID です。期限切れの証明書が使用中でなければ、次の API 呼び出しを使用して、この証明書を削除する必要があります。 `DELETE /api/v1/trust-management/certificates/{entity_id}`
証明書がまもなく期限切れ	高	証明書がまもなく期限切れになります。イベントの検出時：「証明書 `{entity-id}` はまもなく期限切れになります。」イベントの解決時：「有効期限の近い証明書 `{entity-id}` が削除されたか、有効期限の問題が解決されました。」	現在、証明書を使用しているサービスが、有効期限が近くない新しい証明書を使用するように更新されていることを確認します。たとえば、HTTP サービスに新しい証明書を適用するには、次の API 呼び出しを行います。 `POST /api/v1/node/services/http?action=apply_certificate&certificate_id=<cert-id>` ここで、<cert-id> は、API 呼び出し `GET /api/v1/trust-management/certificates` によって報告される有効な証明書の ID です。期限切れの近い証明書が使用中でなければ、API 呼び出しを使用して、この証明書を削除する必要があります。 `DELETE /api/v1/trust-management/certificates/{entity_id}`
証明書がまもなく期限切れ	Medium	証明書の期限切れが近づいています。イベントの検出時：「証明書 `{entity-id}` の期限切れが近づいています。」イベントの解決時：「有効期限の近い証明書 `{entity-id}` が削除されたか、有効期限の問題が解決されました。」	現在、証明書を使用しているサービスが、有効期限が近くない新しい証明書を使用するように更新されていることを確認します。たとえば、HTTP サービスに新しい証明書を適用するには、次の API 呼び出しを行います。 `POST /api/v1/node/services/http?action=apply_certificate&certificate_id=<cert-id>` ここで、<cert-id> は、API 呼び出し `GET /api/v1/trust-management/certificates` によって報告される有効な証明書の ID です。期限切れの近い証明書が使用中でなければ、API 呼び出しを使用して、この証明書を削除する必要があります。 `DELETE /api/v1/trust-management/certificates/{entity_id}`

証明書が期限切れです。

イベントの検出時：「証明書 {entity-id} が期限切れです。」

イベントの解決時：「期限切れの証明書 {entity-id} が削除されたか、有効期限の問題が解決されました。」

現在、証明書を使用しているサービスが、期限切れでない新しい証明書を使用するように更新されていることを確認します。たとえば、HTTP サービスに新しい証明書を適用するには、次の API 呼び出しを行います。

POST /api/v1/node/services/http?action=apply_certificate&certificate_id=<cert-id>

ここで、<cert-id> は、API 呼び出し GET /api/v1/trust-management/certificates によって報告される有効な証明書の ID です。

期限切れの証明書が使用中でなければ、次の API 呼び出しを使用して、この証明書を削除する必要があります。

DELETE /api/v1/trust-management/certificates/{entity_id}

証明書がまもなく期限切れ

高

証明書がまもなく期限切れになります。

イベントの検出時：「証明書 {entity-id} はまもなく期限切れになります。」

イベントの解決時：「有効期限の近い証明書 {entity-id} が削除されたか、有効期限の問題が解決されました。」

現在、証明書を使用しているサービスが、有効期限が近くない新しい証明書を使用するように更新されていることを確認します。たとえば、HTTP サービスに新しい証明書を適用するには、次の API 呼び出しを行います。

POST /api/v1/node/services/http?action=apply_certificate&certificate_id=<cert-id>

ここで、<cert-id> は、API 呼び出し GET /api/v1/trust-management/certificates によって報告される有効な証明書の ID です。

期限切れの近い証明書が使用中でなければ、API 呼び出しを使用して、この証明書を削除する必要があります。

DELETE /api/v1/trust-management/certificates/{entity_id}

証明書がまもなく期限切れ

Medium

証明書の期限切れが近づいています。

イベントの検出時：「証明書 {entity-id} の期限切れが近づいています。」

イベントの解決時：「有効期限の近い証明書 {entity-id} が削除されたか、有効期限の問題が解決されました。」

現在、証明書を使用しているサービスが、有効期限が近くない新しい証明書を使用するように更新されていることを確認します。たとえば、HTTP サービスに新しい証明書を適用するには、次の API 呼び出しを行います。

POST /api/v1/node/services/http?action=apply_certificate&certificate_id=<cert-id>

ここで、<cert-id> は、API 呼び出し GET /api/v1/trust-management/certificates によって報告される有効な証明書の ID です。

期限切れの近い証明書が使用中でなければ、API 呼び出しを使用して、この証明書を削除する必要があります。

DELETE /api/v1/trust-management/certificates/{entity_id}

CNI 健全性イベント

CNI 健全性イベントは、 ESXi ノードと KVM ノードで発生します。

イベント名	重要度	アラートメッセージ	推奨アクション
Hyperbus マネージャの切断	Medium	Hyperbus がマネージャノードと通信できません。イベントの検出時：「Hyperbus がマネージャノードと通信できません。」イベントの解決時：「Hyperbus はマネージャノードと通信可能です。」	Hyperbus vmkernel インターフェイス (vmk50) が存在しない可能性があります。ナレッジベースの記事 KB67432 を参照してください。

イベント名

重要度

アラートメッセージ

推奨アクション

Hyperbus マネージャの切断

Medium

Hyperbus がマネージャノードと通信できません。

イベントの検出時：「Hyperbus がマネージャノードと通信できません。」

イベントの解決時：「Hyperbus はマネージャノードと通信可能です。」

Hyperbus vmkernel インターフェイス (vmk50) が存在しない可能性があります。ナレッジベースの記事 KB67432 を参照してください。

DHCP イベント

DHCP イベントは、NSX Edge ノードとパブリックゲートウェイノードで発生します。

イベント名	重要度	アラートメッセージ	推奨アクション
プールリースの割り当て失敗	高	IP プール内の IP アドレスが不足しています。イベントの検出時：「DHCP サーバ `{dhcp_server_id}` の IP プール `{entity_id}` のアドレスがすべて使用されています。最後の DHCP 要求は失敗しています。以降の要求も失敗します。」イベントの解決時：「DHCP サーバ `{dhcp_server_id}` の IP プール `{entity_id}` の問題が解決されました。前回の DHCP 要求にリースが正常に割り当てられています。」	NSX ユーザーインターフェイスまたは DHCP プールの構成を確認します。あるいは、DHCP サーバが実行されている Edge ノードで NSX CLI コマンド get dhcp ip-pool を呼び出し、構成を確認します。さらに、NSX CLI コマンド get dhcp lease を呼び出して、Edge ノードで現在アクティブなリースを確認します。リースとアクティブな仮想マシンの数を比較します。アクティブなリースの数と比較して、仮想マシンの数が少ない場合は、DHCP サーバ構成でリース時間を短縮することを検討します。また、NSX ユーザーインターフェイスで [ネットワーク] > [セグメント] > [セグメント] ページの順にアクセスして、DHCP サーバのプール範囲を拡張することを検討します。
プールの状態: 過負荷	Medium	IP プールが過負荷状態になっています。イベントの検出時：「DHCP サーバ `{dhcp_server_id}` の IP プール `{entity_id}` の使用率が上限に近づいています。`{dhcp_pool_usage}`% の IP が割り当てられています。」イベントの解決時：「DHCP サーバ `{dhcp_server_id}` の IP プール `{entity_id}` が使用率の高しきい値を下回りました。」	NSX ユーザーインターフェイスまたは DHCP プールの構成を確認します。あるいは、DHCP サーバが実行されている Edge ノードで NSX CLI コマンド get dhcp ip-pool を呼び出し、構成を確認します。さらに、NSX CLI コマンド get dhcp lease を呼び出して、Edge ノードで現在アクティブなリースを確認します。リースとアクティブな仮想マシンの数を比較します。アクティブなリースの数と比較して、仮想マシンの数が少ない場合は、DHCP サーバ構成でリース時間を短縮することを検討します。また、NSX ユーザーインターフェイスで [ネットワーク] > [セグメント] > [セグメント] ページの順にアクセスして、DHCP サーバのプール範囲を拡張することを検討します。

イベント名

重要度

アラートメッセージ

推奨アクション

プールリースの割り当て失敗

高

IP プール内の IP アドレスが不足しています。

イベントの検出時：「DHCP サーバ {dhcp_server_id} の IP プール {entity_id} のアドレスがすべて使用されています。最後の DHCP 要求は失敗しています。以降の要求も失敗します。」

イベントの解決時：「DHCP サーバ {dhcp_server_id} の IP プール {entity_id} の問題が解決されました。前回の DHCP 要求にリースが正常に割り当てられています。」

NSX ユーザーインターフェイスまたは DHCP プールの構成を確認します。あるいは、DHCP サーバが実行されている Edge ノードで NSX CLI コマンド get dhcp ip-pool を呼び出し、構成を確認します。

さらに、NSX CLI コマンド get dhcp lease を呼び出して、Edge ノードで現在アクティブなリースを確認します。

リースとアクティブな仮想マシンの数を比較します。アクティブなリースの数と比較して、仮想マシンの数が少ない場合は、DHCP サーバ構成でリース時間を短縮することを検討します。また、NSX ユーザーインターフェイスで [ネットワーク] > [セグメント] > [セグメント] ページの順にアクセスして、DHCP サーバのプール範囲を拡張することを検討します。

プールの状態: 過負荷

Medium

IP プールが過負荷状態になっています。

イベントの検出時：「DHCP サーバ {dhcp_server_id} の IP プール {entity_id} の使用率が上限に近づいています。{dhcp_pool_usage}% の IP が割り当てられています。」

イベントの解決時：「DHCP サーバ {dhcp_server_id} の IP プール {entity_id} が使用率の高しきい値を下回りました。」

NSX ユーザーインターフェイスまたは DHCP プールの構成を確認します。あるいは、DHCP サーバが実行されている Edge ノードで NSX CLI コマンド get dhcp ip-pool を呼び出し、構成を確認します。

さらに、NSX CLI コマンド get dhcp lease を呼び出して、Edge ノードで現在アクティブなリースを確認します。

リースとアクティブな仮想マシンの数を比較します。アクティブなリースの数と比較して、仮想マシンの数が少ない場合は、DHCP サーバ構成でリース時間を短縮することを検討します。また、NSX ユーザーインターフェイスで [ネットワーク] > [セグメント] > [セグメント] ページの順にアクセスして、DHCP サーバのプール範囲を拡張することを検討します。

分散ファイアウォールイベント

分散ファイアウォールイベントは、NSX Manager ノードまたは ESXi ノードで発生します。

イベント名	重要度	アラートメッセージ	推奨アクション
分散ファイアウォールの CPU 使用率が非常に高い	重大	分散ファイアウォールの CPU 使用率が非常に高くなっています。イベントの検出時：「トランスポートノード `{entity_id}` の DFW の CPU 使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の超高しきい値に達しているか、超えています。」イベントの解決時：「DNS フォワーダ `{entity_id}` が再度実行されています。」	このホストと他のホストの間で仮想マシンワークロードのリバランシングを行うことを検討してください。最適化でのセキュリティ設計を確認してください。たとえば、ルールがデータセンター全体に適用されない場合は、適用先の構成を使用します。
分散ファイアウォールのメモリ使用率が非常に高い	重大	分散ファイアウォールのメモリ使用率が非常に高くなっています。イベントの検出時：「トランスポートノード `{entity_id}` の DFW のメモリ使用率 `{heap_type}` が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の超高しきい値に達しているか、超えています。」イベントの解決時：「トランスポートノード `{entity_id}` の DFW のメモリ使用率 `{heap_type}` が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の超高しきい値を下回っています。」	ホストで NSX CLI コマンド get firewall thresholds を呼び出して、現在の DFW のメモリ使用率を確認します。このホストと他のホストの間でワークロードのリバランシングを行うことを検討してください。

イベント名

重要度

アラートメッセージ

推奨アクション

分散ファイアウォールの CPU 使用率が非常に高い

重大

分散ファイアウォールの CPU 使用率が非常に高くなっています。

イベントの検出時：「トランスポートノード {entity_id} の DFW の CPU 使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値に達しているか、超えています。」

イベントの解決時：「DNS フォワーダ {entity_id} が再度実行されています。」

このホストと他のホストの間で仮想マシンワークロードのリバランシングを行うことを検討してください。

最適化でのセキュリティ設計を確認してください。たとえば、ルールがデータセンター全体に適用されない場合は、適用先の構成を使用します。

分散ファイアウォールのメモリ使用率が非常に高い

重大

分散ファイアウォールのメモリ使用率が非常に高くなっています。

イベントの検出時：「トランスポートノード {entity_id} の DFW のメモリ使用率 {heap_type} が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値に達しているか、超えています。」

イベントの解決時：「トランスポートノード {entity_id} の DFW のメモリ使用率 {heap_type} が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値を下回っています。」

ホストで NSX CLI コマンド get firewall thresholds を呼び出して、現在の DFW のメモリ使用率を確認します。

このホストと他のホストの間でワークロードのリバランシングを行うことを検討してください。

DNS イベント

DNS イベントは、NSX Edge ノードとパブリックゲートウェイノードで発生します。

イベント名	重要度	アラートメッセージ	推奨アクション
フォワーダ: 停止	高	DNS フォワーダが停止しています。イベントの検出時：「DNS フォワーダ `{entity_id}` が実行されていません。これは、現在有効になっている構成済みのすべての DNS フォワーダに影響します。」イベントの解決時：「DNS フォワーダ `{entity_id}` が再度実行されています。」	NSX CLI コマンド get dns-forwarders status を呼び出し、DNS フォワーダが停止状態かどうかを確認します。 /var/log/syslog で、エラーが報告されているかどうか確認します。サポートバンドルを収集して、NSX サポートチームに連絡してください。
フォワーダ: 無効	高	DNS フォワーダが無効になっています。イベントの検出時：「DNS フォワーダ `{entity_id}` が無効になっています。」イベントの解決時：「DNS フォワーダ `{entity_id}` が有効になっています。」	NSX CLI コマンド get dns-forwarders status を呼び出し、DNS フォワーダが無効になっているかどうかを確認します。 NSX ポリシー API またはマネージャ API を使用して、DNS フォワーダを有効にします。これは、無効な状態にしておくことはできません。

イベント名

重要度

アラートメッセージ

推奨アクション

フォワーダ: 停止

高

DNS フォワーダが停止しています。

イベントの検出時：「DNS フォワーダ {entity_id} が実行されていません。これは、現在有効になっている構成済みのすべての DNS フォワーダに影響します。」

イベントの解決時：「DNS フォワーダ {entity_id} が再度実行されています。」

NSX CLI コマンド get dns-forwarders status を呼び出し、DNS フォワーダが停止状態かどうかを確認します。
/var/log/syslog で、エラーが報告されているかどうか確認します。
サポートバンドルを収集して、NSX サポートチームに連絡してください。

フォワーダ: 無効

高

DNS フォワーダが無効になっています。

イベントの検出時：「DNS フォワーダ {entity_id} が無効になっています。」

イベントの解決時：「DNS フォワーダ {entity_id} が有効になっています。」

NSX CLI コマンド get dns-forwarders status を呼び出し、DNS フォワーダが無効になっているかどうかを確認します。
NSX ポリシー API またはマネージャ API を使用して、DNS フォワーダを有効にします。これは、無効な状態にしておくことはできません。

Edge 健全性イベント

Edge 健全性イベントは、NSX Edge ノードとパブリックゲートウェイノードで発生します。

イベント名	重要度	アラートメッセージ	推奨アクション
Edge の CPU 使用率が非常に高い	重大	Edge ノードの CPU 使用率が非常に高くなっています。イベントの検出時：「Edge ノード `{entity_id}` の CPU 使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の超高しきい値に達しているか、超えています。」イベントの解決時：「Edge ノード `{entity_id}` の CPU 使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の超高しきい値を下回っています。」	この Edge ノードの構成、実行中のサービス、サイズを確認してください。ワークロードに合わせて Edge アプライアンスのフォームファクタのサイズを調整するか、他の Edge ノードの間でサービスのリバランシングを行うことを検討してください。
Edge の CPU 使用率が高い	Medium	Edge ノードの CPU 使用率が高くなっています。イベントの検出時：「Edge ノード `{entity-id}` の CPU 使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の高しきい値に達しているか、超えています。」イベントの解決時：「Edge ノード `{entity_id}` の CPU 使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の高しきい値を下回っています。」	この Edge ノードの構成、実行中のサービス、サイズを確認してください。ワークロードに合わせて Edge アプライアンスのフォームファクタのサイズを調整するか、他の Edge ノードの間でサービスのリバランシングを行うことを検討してください。
Edge データパスの構成エラー	高	Edge ノードのデータパスの構成に失敗しました。イベントの検出時：「3 回試行しましたが、Edge ノードでデータパスを有効にできませんでした。」イベントの解決時：「Edge ノードのデータパスが有効になりました。」	マネージャノードと Edge ノードの接続が良好であることを確認します。サービスの健全性を確認するには、Edge ノードの NSX CLI から get services コマンドを呼び出します。データプレーンサービスが停止している場合は、start service dataplane コマンドを呼び出してサービスを再起動します。
Edge データパスの CPU 使用率が非常に高い	重大	Edge ノードのデータパスの CPU 使用率が非常に高くなっています。イベントの検出時：「Edge ノード `{entity-id}` でデータパスの CPU 使用率が `{datapath_resource_usage}`% になりました。超高しきい値に達しているか、超えている状態が少なくとも 2 分間続いています。」イベントの解決時：「Edge ノード `{entity-id}` でデータパスの CPU 使用率が許容しきい値より低くなっています。」	NSX CLI コマンド get dataplane cpu stats を呼び出して CPU コアあたりのパケットレートを表示し、Edge ノードの CPU 統計情報を確認します。パケットレートが高いと CPU 使用率が高い可能性があります。 Edge アプライアンスのフォームファクタのサイズを大きくし、同じクラスタの他の Edge ノードまたは別の Edge クラスタとの間でこの Edge ノードのサービスをリバランシングすることを検討してください。
Edge データパスの CPU 使用率が高い	Medium	Edge ノードのデータパスの CPU 使用率が高くなっています。イベントの検出時：「Edge ノード `{entity-id}` でデータパスの CPU 使用率が `{datapath_resource_usage}`% になりました。高しきい値に達しているか、超えている状態が少なくとも 2 分間続いています。」イベントの解決時：「Edge ノード `{entity-id}` の CPU 使用率が高しきい値を下回りました。」	NSX CLI コマンド get dataplane cpu stats を呼び出して CPU コアあたりのパケットレートを表示し、Edge ノードの CPU 統計情報を確認します。パケットレートが高いと CPU 使用率が高い可能性があります。 Edge アプライアンスのフォームファクタのサイズを大きくし、同じクラスタの他の Edge ノードまたは別の Edge クラスタとの間でこの Edge ノードのサービスをリバランシングすることを検討してください。
Edge データバスの暗号ドライバが停止	重大	Edge ノードでデータパスの暗号ドライバが停止しています。イベントの検出時：「Edge ノードの暗号ドライバが停止しています。」イベントの解決時：「Edge ノードの暗号ドライバが起動しています。」	必要に応じて、Edge ノードをアップグレードします。
Edge データパスのメモリプールの使用率が高い	Medium	Edge ノードのデータパスメモリプールの使用率が高くなっています。イベントの検出時：「Edge ノード `{entity-id}` で `{mempool_name}` のデータパスメモリプールの使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の高しきい値に達しているか、超えています。」イベントの解決時：「Edge ノード `{entity-id}` で `{mempool_name}` のデータパスメモリプールの使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の高しきい値を下回っています。」	root ユーザーとしてログインし、edge-appctl -t /var/run/vmware/edge/dpd.ctl mempool/show コマンドと `edge-appctl -t /var/run/vmware/edge/dpd.ctl memory/show malloc_heap` コマンドを呼び出して、DPDK のメモリ使用率を確認します。
Edge のディスク使用率が非常に高い	重大	Edge ノードのディスク使用率が非常に高くなっています。イベントの検出時：「Edge ノードのディスクパーティション `{disk_partition_name}` のディスク使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の超高しきい値に達しているか、超えています。」イベントの解決時：「Edge ノードのディスクパーティション `{disk_partition_name}` のディスク使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の超高しきい値を下回っています。」	使用率の高いパーティションを調べ、削除可能なサイズの大きいファイルがあるか確認します。
Edge のディスク使用率が高い	Medium	Edge ノードのディスク使用率が高くなっています。イベントの検出時：「Edge ノードのディスクパーティション `{disk_partition_name}` のディスク使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の高しきい値に達しているか、超えています。」イベントの解決時：「Edge ノードのディスクパーティション `{disk_partition_name}` のディスク使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の高しきい値を下回っています。」	使用率の高いパーティションを調べ、削除可能なサイズの大きいファイルがあるか確認します。
Edge グローバル ARP テーブルの使用率が高い	Medium	Edge ノードのグローバル ARP テーブルの使用率が高くなっています。イベントの検出時：「Edge ノード `{entity-id}` でグローバル ARP テーブルの使用率が `{datapath_resource_usage}`% になりました。高しきい値に達しているか、超えている状態が 2 分以上続いています。」イベントの解決時：「Edge ノード `{entity-id}` でグローバル ARP テーブルの使用率が高しきい値を下回りました。」	ARP テーブルサイズを大きくします。 root ユーザーとしてログインします。 edge-appctl -t /var/run/vmware/edge/dpd.ctl neigh/show コマンドを呼び出します。 neigh キャッシュの使用率が正常かどうか確認します。正常な場合は、edge-appctl -t /var/run/vmware/edge/dpd.ctl neigh/set_param max_entries コマンドを呼び出し、ARP テーブルサイズを大きくします。
Edge のメモリ使用率が非常に高い	重大	Edge ノードのメモリ使用率が非常に高くなっています。イベントの検出時：「Edge ノード `{entity_id}` のメモリ使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の超高しきい値に達しているか、超えています。」イベントの解決時：「Edge ノード `{entity_id}` のメモリ使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の超高しきい値を下回っています。」	この Edge ノードの構成、実行中のサービス、サイズを確認してください。ワークロードに合わせて Edge アプライアンスのフォームファクタのサイズを調整するか、他の Edge ノードの間でサービスのリバランシングを行うことを検討してください。
Edge のメモリ使用率が高い	Medium	Edge ノードのメモリ使用率が高くなっています。イベントの検出時：「Edge ノード `{entity-id}` のメモリ使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の高しきい値に達しているか、超えています。」イベントの解決時：「Edge ノード `{entity_id}` のメモリ使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の高しきい値を下回っています。」	この Edge ノードの構成、実行中のサービス、サイズを確認してください。ワークロードに合わせて Edge アプライアンスのフォームファクタのサイズを調整するか、他の Edge ノードの間でサービスのリバランシングを行うことを検討してください。
Edge NIC リンクの停止状態	重大	Edge ノードの NIC リンクが停止しています。イベントの検出時：「Edge ノードの NIC `{edge_nic_name}` リンクが停止しています。」イベントの解決時：「Edge ノードの NIC `{edge_nic_name}` リンクが稼動しています。」	NSX CLI コマンド get interfaces を呼び出し、Edge ノードで NIC リンクが物理的に停止しているかどうかを確認します。停止している場合は、ケーブル接続を確認します。
Edge NIC の受信バッファの不足	重大	Edge ノードの NIC 受信記述子リングバッファに空き容量がありません。イベントの検出時：「Edge ノード `{entity-id}` で Edge NIC `{edge_nic_name}` の受信リングバッファが 60 秒以上 `{rx_ring_buffer_overflow_percentage}`% オーバーフローしています。」イベントの解決時：「Edge ノード `{entity-id}` で Edge NIC `{edge_nic_name}` の受信リングバッファのオーバーフローが解決されました。」	NSX CLI コマンド get dataplane を呼び出し、次の操作を行います。 PPS と CPU 使用率が高いかどうか確認します。get dataplane \| find ring-size rx を使用して、RX リングサイズを確認します。 PPS と CPU の値が高く、RX リングのサイズが小さい場合は set dataplane ring-size rx <ring-size> を呼び出し、受信パケットを格納できるように set <ring-size> に高い値を設定します。上の条件を満たしていない場合（リングサイズが大きく、CPU 使用率も高い場合）、データプレーン処理のオーバーヘッドによる遅延が原因になっている可能性があります。
Edge NIC の送信バッファの不足	重大	Edge ノードの NIC 送信記述子リングバッファに空き容量がありません。イベントの検出時：「Edge ノード `{entity-id}` で Edge NIC `{edge_nic_name}` の送信リングバッファが 60 秒以上 `{tx_ring_buffer_overflow_percentage}`% オーバーフローしています。」イベントの解決時：「Edge ノード `{entity-id}` で Edge NIC `{edge_nic_name}` の送信リングバッファのオーバーフローが解決されました。」	NSX CLI コマンド get dataplane を呼び出し、次の操作を行います。 PPS と CPU 使用率が高いかどうか確認します。get dataplane \| find ring-size tx を使用して、RX リングサイズを確認します。 PPS と CPU の値が高く、RX リングのサイズが小さい場合は set dataplane ring-size tx <ring-size> を呼び出し、送信パケットを格納できるように set <ring-size> に高い値を設定します。上の条件を満たしていない場合（リングサイズが大きく、CPU 使用率が低いか通常の場合）、ハイパーバイザーの送信リングサイズの設定が原因になっている可能性があります。
ストレージエラー	重大	NSX-T Data Center 3.0.1 で開始。 Edge ノードの次のディスクパーティションは読み取り専用モードです: {disk_partition_name} 。	再起動で問題が解決されたかどうか読み取り専用パーティションを確認します。問題が解決していない場合は、ディスクの交換が必要になります。ナレッジベースの記事 https://kb.vmware.com/s/article/2146870 を参照してください。

エンドポイント保護イベント

エンドポイント保護イベントは、NSX Manager ノードまたは ESXi ノードで発生します。

イベント名	重要度	アラートメッセージ	推奨アクション
EAM の状態: 停止	重大	コンピュートマネージャの ESX Agent Manager (EAM) サービスが停止しています。イベントの検出時：「コンピュートマネージャ `{entity_id}` の ESX Agent Manager (EAM) サービスが停止しています。」イベントの解決時：「コンピュートマネージャ `{entity_id}` の ESX Agent Manager (EAM) サービスが起動しているか、コンピュートマネージャ `{entity_id}` が削除されています。」	ESX Agent Manager (EAM) サービスを再起動します。 SSH で vCenter Server ノードに接続し、次のコマンドを実行します。 service vmware-eam start
パートナーチャネル: 停止	重大	ホストモジュールとパートナーサービス仮想マシンの接続が停止しています。イベントの検出時：「ホストモジュールとパートナー SVM `{entity_id}` の接続が停止しています。」イベントの解決時：「ホストモジュールとパートナー SVM `{entity_id}` の接続が開始しています。」	ナレッジベースの記事 KB2148821Troubleshooting NSX Guest Introspectionを参照して、`{entity_id}` で識別されるパートナーサービス仮想マシンがホストモジュールに再接続されていることを確認してください。

イベント名

重要度

アラートメッセージ

推奨アクション

EAM の状態: 停止

重大

コンピュートマネージャの ESX Agent Manager (EAM) サービスが停止しています。

イベントの検出時：「コンピュートマネージャ {entity_id} の ESX Agent Manager (EAM) サービスが停止しています。」

イベントの解決時：「コンピュートマネージャ {entity_id} の ESX Agent Manager (EAM) サービスが起動しているか、コンピュートマネージャ {entity_id} が削除されています。」

ESX Agent Manager (EAM) サービスを再起動します。

SSH で vCenter Server ノードに接続し、次のコマンドを実行します。
```
service vmware-eam start
```

パートナーチャネル: 停止

重大

ホストモジュールとパートナーサービス仮想マシンの接続が停止しています。

イベントの検出時：「ホストモジュールとパートナー SVM {entity_id} の接続が停止しています。」

イベントの解決時：「ホストモジュールとパートナー SVM {entity_id} の接続が開始しています。」

ナレッジベースの記事 KB2148821Troubleshooting NSX Guest Introspectionを参照して、{entity_id} で識別されるパートナーサービス仮想マシンがホストモジュールに再接続されていることを確認してください。

フェデレーションイベント

フェデレーションイベントは、NSX Manager、NSX Edge、およびパブリックゲートウェイのノードで発生します。

イベント名	重要度	アラートメッセージ	推奨アクション
LM から LM への同期エラー	高	NSX-T Data Center 3.0.1 で開始。 `{site_name}({site_id}` と `{remote_site_name}({remote_site_id}` 間の同期が 5 分以上失敗しています。	NSX CLI コマンド get site-replicator remote-sites を呼び出して、リモートの場所間の接続状態を取得します。リモートの場所が接続されていて、同期されていない場合は、その場所でのマスター解決のプロセスが実行中である可能性があります。この場合は、約 10 秒待ってから、もう一度 CLI を呼び出し、リモートの場所の状態を確認します。場所が切断されている場合は、次の手順を実行します。 ping を使用して、場所 `{site_name}{site_id}` のローカルマネージャ (LM) から、場所 `{remote_site_name}{remote_site_id}` の LM への接続を確認します。ping できない場合は、WAN 接続が切断されやすいかを確認します。物理ネットワーク接続の問題がない場合は、次の手順を実行します。アラームをトリガした場所 `{site_name}({site_id}` のローカルクラスタでマネージャノードの /var/log/cloudnet/nsx-ccp.log ファイルをチェックして、サイト間で通信エラーが発生しているかどうか確認します。さらに、/var/log/syslog 内の nsx-appl-proxy サブコンポーネントによってログに記録されたエラーも確認します。
LM から LM への同期に関する警告	Medium	NSX-T Data Center 3.0.1 で開始。 `{site_name}({site_id}` と `{remote_site_name}({remote_site_id}` 間の同期に失敗しました。	NSX CLI コマンド get site-replicator remote-sites を呼び出して、リモートの場所間の接続状態を取得します。リモートの場所が接続されていて、同期されていない場合は、その場所でのマスター解決のプロセスが実行中である可能性があります。この場合は、約 10 秒待ってから、もう一度 CLI を呼び出し、リモートの場所の状態を確認します。場所が切断されている場合は、次の手順を実行します。 ping を使用して、場所 `{site_name}{site_id}` のローカルマネージャ (LM) から、場所 `{remote_site_name}{remote_site_id}` の LM への接続を確認します。ping できない場合は、WAN 接続が切断されやすいかを確認します。物理ネットワーク接続の問題がない場合は、次の手順を実行します。アラームをトリガした場所 `{site_name}({site_id}` のローカルクラスタでマネージャノードの /var/log/cloudnet/nsx-ccp.log ファイルをチェックして、サイト間で通信エラーが発生しているかどうか確認します。さらに、/var/log/syslog 内の nsx-appl-proxy サブコンポーネントによってログに記録されたエラーも確認します。
RTEP BGP が停止しています	高	NSX-T Data Center 3.0.1 で開始。送信元 IP アドレス `{bgp_source_ip}` からリモートの場所 `{remote_site_name}` のネイバー IP アドレス `{bgp_neighbor_ip}` への RTEP BGP セッションが停止しています。原因: `{failure_reason}`。	影響を受ける Edge ノードで NSX CLI コマンド get logical-routers を呼び出します。 REMOTE_TUNNEL_VRF コンテキストに切り替えます。 NSX CLI コマンド get bgp neighbor を呼び出して、BGP ネイバーを確認します。または、NSX API GET /api/v1/transport-nodes/<transport-node-id>/inter-site/bgp/summary を呼び出して、BGP ネイバーの状態を取得します。 NSX CLI コマンド get interfaces を呼び出し、正しい RTEP IP アドレスが remote-tunnel-endpoint という名前のインターフェイスに割り当てられているかどうかを確認します。。割り当てられた RTEP IP アドレス `{bgp_source_ip}` およびリモートの場所 `{remote_site_name}` のネイバー IP アドレス `{bgp_neighbor_ip}` 間で ping が正常に機能しているかどうかを確認します。 /var/log/syslog で BGP に関連するエラーを確認します。 API GET または PUT /api/v1/transport-nodes/<transport-node-id> を呼び出して、Edge ノードの remote_tunnel_endpoint 構成を取得/更新します。これにより、影響を受ける Edge ノードに割り当てられた RTEP IP アドレスが更新されます。

イベント名

重要度

アラートメッセージ

推奨アクション

LM から LM への同期エラー

高

NSX-T Data Center 3.0.1 で開始。

{site_name}({site_id} と {remote_site_name}({remote_site_id} 間の同期が 5 分以上失敗しています。

NSX CLI コマンド get site-replicator remote-sites を呼び出して、リモートの場所間の接続状態を取得します。リモートの場所が接続されていて、同期されていない場合は、その場所でのマスター解決のプロセスが実行中である可能性があります。この場合は、約 10 秒待ってから、もう一度 CLI を呼び出し、リモートの場所の状態を確認します。場所が切断されている場合は、次の手順を実行します。
ping を使用して、場所 {site_name}{site_id} のローカルマネージャ (LM) から、場所 {remote_site_name}{remote_site_id} の LM への接続を確認します。ping できない場合は、WAN 接続が切断されやすいかを確認します。物理ネットワーク接続の問題がない場合は、次の手順を実行します。
アラームをトリガした場所 {site_name}({site_id} のローカルクラスタでマネージャノードの /var/log/cloudnet/nsx-ccp.log ファイルをチェックして、サイト間で通信エラーが発生しているかどうか確認します。さらに、/var/log/syslog 内の nsx-appl-proxy サブコンポーネントによってログに記録されたエラーも確認します。

LM から LM への同期に関する警告

Medium

NSX-T Data Center 3.0.1 で開始。

{site_name}({site_id} と {remote_site_name}({remote_site_id} 間の同期に失敗しました。

NSX CLI コマンド get site-replicator remote-sites を呼び出して、リモートの場所間の接続状態を取得します。リモートの場所が接続されていて、同期されていない場合は、その場所でのマスター解決のプロセスが実行中である可能性があります。この場合は、約 10 秒待ってから、もう一度 CLI を呼び出し、リモートの場所の状態を確認します。場所が切断されている場合は、次の手順を実行します。
ping を使用して、場所 {site_name}{site_id} のローカルマネージャ (LM) から、場所 {remote_site_name}{remote_site_id} の LM への接続を確認します。ping できない場合は、WAN 接続が切断されやすいかを確認します。物理ネットワーク接続の問題がない場合は、次の手順を実行します。
アラームをトリガした場所 {site_name}({site_id} のローカルクラスタでマネージャノードの /var/log/cloudnet/nsx-ccp.log ファイルをチェックして、サイト間で通信エラーが発生しているかどうか確認します。さらに、/var/log/syslog 内の nsx-appl-proxy サブコンポーネントによってログに記録されたエラーも確認します。

RTEP BGP が停止しています

高

NSX-T Data Center 3.0.1 で開始。

送信元 IP アドレス {bgp_source_ip} からリモートの場所 {remote_site_name} のネイバー IP アドレス {bgp_neighbor_ip} への RTEP BGP セッションが停止しています。原因: {failure_reason}。

影響を受ける Edge ノードで NSX CLI コマンド get logical-routers を呼び出します。
REMOTE_TUNNEL_VRF コンテキストに切り替えます。
NSX CLI コマンド get bgp neighbor を呼び出して、BGP ネイバーを確認します。
または、NSX API GET /api/v1/transport-nodes/<transport-node-id>/inter-site/bgp/summary を呼び出して、BGP ネイバーの状態を取得します。
NSX CLI コマンド get interfaces を呼び出し、正しい RTEP IP アドレスが remote-tunnel-endpoint という名前のインターフェイスに割り当てられているかどうかを確認します。
。割り当てられた RTEP IP アドレス {bgp_source_ip} およびリモートの場所 {remote_site_name} のネイバー IP アドレス {bgp_neighbor_ip} 間で ping が正常に機能しているかどうかを確認します。
/var/log/syslog で BGP に関連するエラーを確認します。
API GET または PUT /api/v1/transport-nodes/<transport-node-id> を呼び出して、Edge ノードの remote_tunnel_endpoint 構成を取得/更新します。これにより、影響を受ける Edge ノードに割り当てられた RTEP IP アドレスが更新されます。

高可用性イベント

高可用性イベントは、NSX Edge ノードと Public Cloud Gateway ノードで発生します。

イベント名	重要度	アラートメッセージ	推奨アクション
Tier-0 ゲートウェイのフェイルオーバー	高	Tier-0 ゲートウェイがフェイルオーバーしました。イベントの検出時：「Tier-0 ゲートウェイ `{entity-id}` は、`{previous_gateway_state}` から `{current_gateway_state}` にフェイルオーバーされました。」イベントの解決時：「Tier-0 ゲートウェイ `{entity-id}` が起動しました。」	停止しているサービスを確認して再起動します。 NSX CLI コマンド get logical-routers を実行して、Tier-0 VRF ID を特定します。 vrf <vrf-id> を実行して、VRF コンテキストに切り替えます。 get high-availability status を実行して、停止しているサービスを確認します。
Tier-1 ゲートウェイのフェイルオーバー	高	Tier-1 ゲートウェイがフェイルオーバーしました。イベントの検出時：「Tier-1 ゲートウェイ `{entity-id}` は、`{previous_gateway_state}` から `{current_gateway_state}` にフェイルオーバーされました。」イベントの解決時：「Tier-1 ゲートウェイ `{entity-id}` が起動しました。」	停止しているサービスを確認して再起動します。 NSX CLI コマンド get logical-routers を実行して、Tier-1 VRF ID を特定します。 vrf <vrf-id> を実行して、VRF コンテキストに切り替えます。 get high-availability status を実行して、停止しているサービスを確認します。

イベント名

重要度

アラートメッセージ

推奨アクション

Tier-0 ゲートウェイのフェイルオーバー

高

Tier-0 ゲートウェイがフェイルオーバーしました。

イベントの検出時：「Tier-0 ゲートウェイ {entity-id} は、{previous_gateway_state} から {current_gateway_state} にフェイルオーバーされました。」

イベントの解決時：「Tier-0 ゲートウェイ {entity-id} が起動しました。」

停止しているサービスを確認して再起動します。

NSX CLI コマンド get logical-routers を実行して、Tier-0 VRF ID を特定します。
vrf <vrf-id> を実行して、VRF コンテキストに切り替えます。
get high-availability status を実行して、停止しているサービスを確認します。

Tier-1 ゲートウェイのフェイルオーバー

高

Tier-1 ゲートウェイがフェイルオーバーしました。

イベントの検出時：「Tier-1 ゲートウェイ {entity-id} は、{previous_gateway_state} から {current_gateway_state} にフェイルオーバーされました。」

イベントの解決時：「Tier-1 ゲートウェイ {entity-id} が起動しました。」

停止しているサービスを確認して再起動します。

NSX CLI コマンド get logical-routers を実行して、Tier-1 VRF ID を特定します。
vrf <vrf-id> を実行して、VRF コンテキストに切り替えます。
get high-availability status を実行して、停止しているサービスを確認します。

インフラストラクチャ通信イベント

インフラストラクチャ通信イベントは、NSX Edge、KVM、ESXi、パブリックゲートウェイのノードで発生します。

イベント名	重要度	アラートメッセージ	推奨アクション
Edge トンネル: 停止	重大	Edge ノードのトンネル状態が「停止」になっています。イベントの検出時：「Edge ノード `{entity_id}` のトンネルの全体的な状態が「停止」となっています。」イベントの解決時：「Edge ノード `{entity_id}` のトンネルがリストアされました。」	SSH を使用して、Edge ノードにログインします。状態を取得します。 nsxcli get tunnel-ports 各トンネルで、ドロップの統計を確認します。 get tunnel-port <UUID> stats Syslog ファイルでトンネル関連のエラーを確認します。

イベント名

重要度

アラートメッセージ

推奨アクション

Edge トンネル: 停止

重大

Edge ノードのトンネル状態が「停止」になっています。

イベントの検出時：「Edge ノード {entity_id} のトンネルの全体的な状態が「停止」となっています。」

イベントの解決時：「Edge ノード {entity_id} のトンネルがリストアされました。」

SSH を使用して、Edge ノードにログインします。
状態を取得します。
```
nsxcli get tunnel-ports
```
各トンネルで、ドロップの統計を確認します。
```
get tunnel-port <UUID> stats
```
Syslog ファイルでトンネル関連のエラーを確認します。

インフラストラクチャサービスイベント

インフラストラクチャサービスイベントは、NSX Edge ノードとパブリックゲートウェイノードで発生します。

イベント名重要度アラートメッセージ推奨アクション

Edge サービスの状態: 停止

重大

イベント名	重要度	アラートメッセージ	推奨アクション
Edge サービスの状態: 停止	重大	Edge サービスが少なくとも 1 分間停止しています。イベントの検出時：「サービス `{edge_service_name}` が少なくとも 1 分間停止しています。」イベントの解決時：「サービス `{edge_service_name}` は起動しています。」	Edge ノードで、/var/log/core ディレクトリにあるコアダンプファイルをチェックし、エラーが原因でサービスが終了していないことを確認します。サービスが停止しているかどうかを確認するには、NSX CLI コマンド get services を呼び出します。停止している場合は、`start service <service-name>` を実行してサービスを再起動します。
Edge サービスの状態変更	Low	Edge サービスの状態が変更されました。イベントの検出時：「サービス `{edge_service_name}` が `{previous_service_state}` から `{current_service_state}` に変更されました。」イベントの解決時：「サービス `{edge_service_name}` が `{previous_service_state}` から `{current_service_state}` に変更されました。」	Edge ノードで、/var/log/core ディレクトリにあるコアダンプファイルをチェックし、エラーが原因でサービスが終了していないことを確認します。サービスが停止しているかどうかを確認するには、NSX CLI コマンド get services を呼び出します。停止している場合は、`start service <service-name>` を実行してサービスを再起動します。

Edge サービスが少なくとも 1 分間停止しています。

イベントの検出時：「サービス {edge_service_name} が少なくとも 1 分間停止しています。」

イベントの解決時：「サービス {edge_service_name} は起動しています。」

Edge ノードで、/var/log/core ディレクトリにあるコアダンプファイルをチェックし、エラーが原因でサービスが終了していないことを確認します。

サービスが停止しているかどうかを確認するには、NSX CLI コマンド get services を呼び出します。

停止している場合は、start service <service-name> を実行してサービスを再起動します。

Edge サービスの状態変更

Low

Edge サービスの状態が変更されました。

イベントの検出時：「サービス {edge_service_name} が {previous_service_state} から {current_service_state} に変更されました。」

イベントの解決時：「サービス {edge_service_name} が {previous_service_state} から {current_service_state} に変更されました。」

Edge ノードで、/var/log/core ディレクトリにあるコアダンプファイルをチェックし、エラーが原因でサービスが終了していないことを確認します。

サービスが停止しているかどうかを確認するには、NSX CLI コマンド get services を呼び出します。

停止している場合は、start service <service-name> を実行してサービスを再起動します。

Intelligence 通信イベント

NSX Intelligence 通信イベントは、NSX Manager ノード、ESXi ノード、NSX Intelligence アプライアンスで発生します。

イベント名	重要度	アラートメッセージ	推奨アクション
トランスポートノードのフローエクスポータの切断	高	トランスポートノードは、Intelligence ノードのメッセージングブローカから切断されています。データ収集が影響を受けます。イベントの検出時：「トランスポートノード `{entity-id}` のフローエクスポータが Intelligence ノードのメッセージングブローカから切断されています。データ収集が影響を受けます。」イベントの解決時：「トランスポートノード `{entity-id}` 上のフローエクスポータが、Intelligence ノードのメッセージングブローカに再接続しました。」	NSX Intelligence ノードで実行されていない場合は、メッセージングサービスを再起動します。トランスポートノードのフローエクスポータと NSX Intelligence ノード間のネットワーク接続の障害を解決します。
制御チャネルからトランスポートノードへの接続が停止	重大	制御チャネルからトランスポートノードへの接続が停止しています。イベントの検出時：コントローラサービス `central_control_plane_id` からトランスポートノード `{entity-id}` への接続が停止しています。コントローラサービス側からみると、少なくとも 3 分間停止しています。イベントの解決時：コントローラサービス `central_control_plane_id` で、トランスポートノード `{entity-id}` との接続がリストアされました。	ping コマンドを実行して、コントローラサービス `central_control_plane_id` からトランスポートノード `{entity-id}` インターフェイスへの接続を確認します。ping に失敗した場合は、ネットワーク接続が不安定かどうか確認します。 netstat の出力で、コントローラサービス `{central_control_plane_id}` がポート 1235 で接続を待機しているかどうか確認し、TCP 接続が確立しているかどうか調べます。確立していない場合は、ファイアウォールルールまたは iptables ルールを調べて、ポート 1235 でトランスポートノード `{entity_id}` の接続要求がブロックされているかどうか確認します。アンダーレイのホストファイアウォールまたはネットワークファイアウォールによって、マネージャノードとトランスポートノード間で必要な IP ポートがブロックされていないことを確認します。ポートとプロトコルツールの詳細については、https://ports.vmware.com/を参照してください。トランスポートノード `{entity_id}` がまだメンテナンスモードになっている可能性があります。トランスポートノードがメンテナンスモードかどうか確認するには、次の API を使用します。 GET https://<nsx-mgr>/api/v1/transport-nodes/<tn-uuid> メンテナンスモードになっていると、トランスポートノードはコントローラサービスに接続しません。通常、ホストのアップグレードが進行中の場合、このモードに設定されています。数分たってから、接続を再度確認してください。注：このアラームは解決する必要がありますが、重大なものではありません。しばらくしてもこのアラームが解決しない場合を除き、このアラームの通知を VMware サポートに連絡する必要はありません。
制御チャネルからトランスポートノードへの接続が長時間停止	警告	制御チャネルからトランスポートノードへの接続が長時間停止しています。イベントの検出時：コントローラサービス `central_control_plane_id` からトランスポートノード `{entity-id}` への接続が停止しています。コントローラサービス側からみると、少なくとも 15 分間停止しています。イベントの解決時：コントローラサービス `central_control_plane_id` で、トランスポートノード `{entity-id}` との接続がリストアされました。	ping コマンドを実行して、コントローラサービス `central_control_plane_id` からトランスポートノード `{entity-id}` インターフェイスへの接続を確認します。ping に失敗した場合は、ネットワーク接続が不安定かどうか確認します。 netstat の出力で、コントローラサービス `{central_control_plane_id}` がポート 1235 で接続を待機しているかどうか確認し、TCP 接続が確立しているかどうか調べます。確立していない場合は、ファイアウォールルールまたは iptables ルールを調べて、ポート 1235 でトランスポートノード `{entity_id}` の接続要求がブロックされているかどうか確認します。アンダーレイのホストファイアウォールまたはネットワークファイアウォールによって、マネージャノードとトランスポートノード間で必要な IP ポートがブロックされていないことを確認します。ポートとプロトコルツールの詳細については、https://ports.vmware.com/を参照してください。トランスポートノード `{entity_id}` がまだメンテナンスモードになっている可能性があります。トランスポートノードがメンテナンスモードかどうか確認するには、次の API を使用します。 GET https://<nsx-mgr>/api/v1/transport-nodes/<tn-uuid> メンテナンスモードになっていると、トランスポートノードはコントローラサービスに接続しません。通常、ホストのアップグレードが進行中の場合、このモードに設定されています。数分たってから、接続を再度確認してください。
管理チャネルからトランスポートノードへの接続が停止	重大	マネージャノードからトランスポートノードへの接続が切断されています。イベントの検出時：イベントの解決時：	マネージャノードとトランスポートノード `nodename (IP)` の間にネットワーク接続が確立し、このノード間のトラフィックをブロックするファイアウォールが存在しないことを確認します。次のコマンドを呼び出し、トランスポートノードで nsxnsx-proxy サービスが実行されていることを確認します。 /etc/init.d/nsx-prxy status nsx-proxy service サービスが実行されていない場合は、次のコマンドを起動して再起動します。 /etc/init.d/nsx-proxy restart
マネージャの制御チャネルが停止	重大	マネージャからコントローラチャネルへの接続が停止しています。イベントの検出時：イベントの解決時：	マネージャノード `managernode (IP)` で、次の 2 つの NSX CLI コマンドを呼び出します。 restart service mgmt-plane-bus restart service manage

Intelligence 健全性イベント

NSX Intelligence 健全性イベントは、NSX Manager ノードと NSX Intelligence アプライアンスで発生します。

イベント名	重要度	アラートメッセージ	推奨アクション
CPU 使用率が非常に高い	重大	Intelligence ノードの CPU 使用率が非常に高くなっています。イベントの検出時：「NSX Intelligence ノード `{intelligence_node_id}` の CPU 使用率が `{system_usage_threshold}`% の超高しきい値を超えています。」イベントの解決時：「NSX Intelligence ノード `{intelligence_node_id}` の CPU 使用率が {system_usage_threshold}% の超高しきい値を下回っています。」	top コマンドを使用して、メモリ使用率が最も高いプロセスを確認します。次に、/var/log/syslog とこれらのプロセスのローカルログを確認して、未解決のエラーがないか確認します。
CPU 使用率が高い	Medium	Intelligence ノードの CPU 使用率が高くなっています。イベントの検出時：「NSX Intelligence ノード `{intelligence_node_id}` の CPU 使用率が `{system_usage_threshold}`% の高しきい値を超えています。」イベントの解決時：「NSX Intelligence ノード `{intelligence_node_id}` の CPU 使用率が `{system_usage_threshold}`% の高しきい値を下回っています。」	top コマンドを使用して、メモリ使用率が最も高いプロセスを確認します。次に、/var/log/syslog とこれらのプロセスのローカルログを確認して、未解決のエラーがないか確認します。
メモリ使用率が非常に高い	重大	Intelligence ノードのメモリ使用率が非常に高くなっています。イベントの検出時：「NSX Intelligence ノード `{intelligence_node_id}` のメモリ使用率が `{system_usage_threshold}`% の超高しきい値を超えています。」イベントの解決時：「NSX Intelligence ノード `{intelligence_node_id}` のメモリ使用率が `{system_usage_threshold}`% の超高しきい値を下回っています。」	top コマンドを使用して、メモリ使用率が最も高いプロセスを確認します。次に、/var/log/syslog とこれらのプロセスのローカルログを確認して、未解決のエラーがないか確認します。
メモリ使用率が高い	Medium	Intelligence ノードのメモリ使用率が高くなっています。イベントの検出時：「NSX Intelligence ノード `{intelligence_node_id}` のメモリ使用率が `{system_usage_threshold}`% の高しきい値を超えています。」イベントの解決時：「NSX Intelligence ノード `{intelligence_node_id}` のメモリ使用率が `{system_usage_threshold}`% の高しきい値を下回っています。」	top コマンドを使用して、メモリ使用率が最も高いプロセスを確認します。次に、/var/log/syslog とこれらのプロセスのローカルログを確認して、未解決のエラーがないか確認します。
ディスク使用率が非常に高い	重大	Intelligence ノードのディスク使用率が非常に高くなっています。イベントの検出時：「NSX Intelligence ノード `{intelligence_node_id}` で、ディスクパーティション `{disk_partition_name}` のディスク使用率が `{system_usage_threshold}`% の超高しきい値を超えています。」イベントの解決時：「NSX Intelligence ノード `{intelligence_node_id}` で、ディスクパーティション `{disk_partition_name}` のディスク使用率が `{system_usage_threshold}`% の超高しきい値を下回っています。」	ディスクパーティション `{disk_partition_name}` を調べ、削除可能なサイズの大きいファイルがあるか確認します。
ディスク使用率が高い	Medium	Intelligence ノードのディスク使用率が高くなっています。イベントの検出時：「NSX Intelligence ノード `{intelligence_node_id}` で、ディスクパーティション `{disk_partition_name}` のディスク使用率が `{system_usage_threshold}`% の高しきい値を超えています。」イベントの解決時：「NSX Intelligence ノード `{intelligence_node_id}` で、ディスクパーティション `{disk_partition_name}` のディスク使用率が `{system_usage_threshold}`% の高しきい値を下回っています。」	ディスクパーティション `{disk_partition_name}` を調べ、削除可能なサイズの大きいファイルがあるか確認します。
データディスクパーティションの使用率が非常に高い	重大	Intelligence ノードのデータディスクパーティションの使用率が非常に高くなっています。イベントの検出時：「NSX Intelligence ノード `{intelligence_node_id}` で、ディスクパーティション /data のディスク使用率が `{system_usage_threshold}`% の超高しきい値を超えています。」イベントの解決時：「NSX Intelligence ノード `{intelligence_node_id}` で、ディスクパーティション /data のディスク使用率が `{system_usage_threshold}`% の超高しきい値を下回っています。」	ディスク使用率がしきい値を下回るまで NSX Intelligence のデータ収集を停止します。 NSX ユーザーインターフェイスで、[システム] > [アプライアンス] > [NSX Intelligence アプライアンス] の順に移動します。次に [アクション] > [データ収集の停止] の順に選択します。
データディスクパーティションの使用率が高い	Medium	Intelligence ノードのデータディスクパーティションの使用率が高くなっています。イベントの検出時：「NSX Intelligence ノード `{intelligence_node_id}` で、ディスクパーティション /data のディスク使用率が `{system_usage_threshold}`% の高しきい値を超えています。」イベントの解決時：「NSX Intelligence ノード `{intelligence_node_id}` で、ディスクパーティション /data のディスク使用率が `{system_usage_threshold}`% の高しきい値を下回っています。」	ディスク使用率がしきい値を下回るまで NSX Intelligence のデータ収集を停止します。 /data パーティションを調べ、削除可能なサイズの大きいファイルがあるか確認します。
ノードの状態：劣化	高	Intelligence ノードの状態が「劣化」になっています。イベントの検出時：「NSX Intelligence ノード `{intelligence_node_id}` のサービス `{service_name}` が実行されていません。」イベントの解決時：「NSX Intelligence ノード `{intelligence_node_id}` のサービス `{service_name}` が正常に実行されています。」	NSX Intelligence ノードで NSX CLI コマンド get services を実行し、サービスの状態と健全性情報を確認します。 NSX CLI コマンド restart service <service-name> を使用して、予期せず停止したサービスを再起動します。

ライセンスイベント

ライセンスイベントは、NSX Manager ノードで発生します。

イベント名	重要度	アラートメッセージ	推奨アクション
ライセンスの期限切れ	重大	ライセンスが期限切れです。イベントの検出時：「タイプ `{license_edition_type}` のライセンスが期限切れです。」イベントの解決時：「タイプ `{license_edition_type}` の期限切れ証明書が削除されたか、有効期限の問題が解決されました。」	期限切れでない新しいライセンスを追加します。 NSX ユーザーインターフェイスで、[システム] > [ライセンス] の順に移動します。 [追加] をクリックして、新しいライセンスのキーを指定します。チェックボックスをオンにして [割り当て解除] をクリックし、期限切れライセンスを削除します。
ライセンスがまもなく期限切れ	Medium	イベントの検出時：「タイプ `{license_edition_type}` のライセンスがまもなく期限切れになります。」イベントの解決時：「`{license_edition_type}` の有効期限の近いライセンスが削除されたか、有効期限の問題が解決されました。」	期限切れでない新しいライセンスを追加します。 NSX ユーザーインターフェイスで、[システム] > [ライセンス] の順に移動します。 [追加] をクリックして、新しいライセンスのキーを指定します。チェックボックスをオンにして [割り当て解除] をクリックし、期限切れライセンスを削除します。

イベント名

重要度

アラートメッセージ

推奨アクション

ライセンスの期限切れ

重大

ライセンスが期限切れです。

イベントの検出時：「タイプ {license_edition_type} のライセンスが期限切れです。」

イベントの解決時：「タイプ {license_edition_type} の期限切れ証明書が削除されたか、有効期限の問題が解決されました。」

期限切れでない新しいライセンスを追加します。

NSX ユーザーインターフェイスで、[システム] > [ライセンス] の順に移動します。
[追加] をクリックして、新しいライセンスのキーを指定します。
チェックボックスをオンにして [割り当て解除] をクリックし、期限切れライセンスを削除します。

ライセンスがまもなく期限切れ

Medium

イベントの検出時：「タイプ {license_edition_type} のライセンスがまもなく期限切れになります。」

イベントの解決時：「{license_edition_type} の有効期限の近いライセンスが削除されたか、有効期限の問題が解決されました。」

期限切れでない新しいライセンスを追加します。

NSX ユーザーインターフェイスで、[システム] > [ライセンス] の順に移動します。
[追加] をクリックして、新しいライセンスのキーを指定します。
チェックボックスをオンにして [割り当て解除] をクリックし、期限切れライセンスを削除します。

ロードバランサイベント

ロードバランサイベントは、NSX Edge ノードで発生します。

イベント名	重要度	アラートメッセージ	推奨アクション
ロードバランサの CPU 使用率が非常に高い	Medium	ロードバランサの CPU 使用率が非常に高くなっています。イベントの検出時：「ロードバランサ `{entity_id}` の CPU 使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の超高しきい値を超えています。」イベントの解決時：「ロードバランサ `{entity_id}` の CPU 使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の超高しきい値を下回っています。」	ロードバランサの CPU 使用率が `{system_usage_threshold}`% を超えている場合、このロードバランサのワークロードが高すぎます。ロードバランサのサイズを small から medium または medium から large に変更して、ロードバランササービスのサイズを変更します。このロードバランサの CPU 使用率が高い場合は、ワークロードに合わせて Edge アプライアンスのフォームファクタのサイズを調整するか、ロードバランササービスを他の Edge ノードに移動することを検討してください。
ロードバランサの状態：停止	Medium	ロードバランササービスが停止しています。イベントの検出時：「ロードバランササービス `{entity_id}` が停止しています。」イベントの解決時：「ロードバランササービス `{entity_id}` が起動しています。」	Edge ノードでロードバランササービスが実行されているかどうかを確認します。ロードバランササービスの状態が準備未完了の場合は、Edge ノードをメンテナンスモードに切り替えてからメンテナンスモードを終了します。ロードバランサの状態が回復しない場合は、syslog にエラーログがあるかどうかを確認してください。
仮想サーバの状態: 停止	Medium	ロードバランサの仮想サービスが停止しています。イベントの検出時：「ロードバランサの仮想サーバ `{entity_id}` が停止しています。」イベントの解決時：「ロードバランサの仮想サーバ `{entity_id}` が起動しています。」	ロードバランサプールの状態と構成を確認します。正しく構成されていない場合は、再構成を行い、仮想サーバからロードバランサプールを削除し、仮想サーバに再度追加します。
プールの状態: 停止	Medium	イベントの検出時：「ロードバランサプール `{entity_id}` の状態が「停止」になっています。」イベントの解決時：「ロードバランサプール `{entity_id}` の状態が「起動中」になっています。」	ロードバランサプールで停止しているメンバーを確認します。ロードバランサから問題のプールメンバーへのネットワーク接続を確認します。各プールメンバーのアプリケーションの健全性を確認します。構成済みのモニターを使用して、各プールメンバーの健全性を確認します。メンバーの健全性が確認されると、モニターの「起動回数」構成に基づいて、プールメンバーの健全性の状態が更新されます。

マネージャ健全性イベント

NSX Manager 健全性イベントは、NSX Manager ノードクラスタで発生します。

イベント名	重要度	アラートメッセージ	推奨アクション
重複した IP アドレス	Medium	マネージャノードの IP アドレスが別のデバイスによって使用されています。イベントの検出時：「マネージャノード `{entity_id}` の IP アドレス `{duplicate_ip_address}` は、ネットワーク内の別のデバイスで使用されています。」イベントの解決時：「マネージャノード `{entity_id}` は `{duplicate_ip_address}` を使用していません。」	マネージャの IP アドレスを使用しているデバイスを特定し、デバイスに新しい IP アドレスを割り当てます。注：新しい IP アドレスを使用するようにマネージャを再構成することはできません。静的 IP アドレスプール/DHCP サーバが正しく構成されていることを確認します。デバイスの IP アドレスが手動で割り当てられている場合は、その IP アドレスを修正します。
マネージャの CPU 使用率が非常に高い	重大	マネージャノードの CPU 使用率が非常に高くなっています。イベントの検出時：「マネージャノード `{entity_id}` の CPU 使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の超高しきい値に達しているか、超えています。」イベントの解決時：「マネージャノード `{entity_id}` の CPU 使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の超高しきい値を下回っています。」	このマネージャノードの構成、実行中のサービス、サイズを確認してください。 Manager アプライアンスのフォームファクタのサイズを調整することを検討してください。
マネージャーの CPU 使用率が高い	Medium	NSX-T Data Center 3.0.1 で開始。マネージャノードの CPU 使用率が高くなっています。イベントの検出時：「マネージャノード `{entity_id}` の CPU 使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の高しきい値に達しているか、超えています。」イベントの解決時：「マネージャノード `{entity_id}` の CPU 使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の高しきい値を下回っています。」	このマネージャノードの構成、実行中のサービス、サイズを確認してください。 Manager アプライアンスのフォームファクタのサイズを調整することを検討してください。
マネージャのメモリ使用率が非常に高い	重大	NSX-T Data Center 3.0.1 で開始。マネージャノードのメモリ使用率が非常に高くなっています。イベントの検出時：「マネージャノード `{entity_id}` のメモリ使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の超高しきい値に達しているか、超えています。」イベントの解決時：「マネージャノード `{entity_id}` のメモリ使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の超高しきい値を下回っています。」	このマネージャノードの構成、実行中のサービス、サイズを確認してください。 Manager アプライアンスのフォームファクタのサイズを調整することを検討してください。
マネージャーのメモリ使用率が高い	Medium	マネージャノードのメモリ使用率が高くなっています。イベントの検出時：「マネージャノード `{entity_id}` のメモリ使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の高しきい値に達しているか、超えています。」イベントの解決時：「マネージャノード `{entity_id}` のメモリ使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の高しきい値を下回っています。」	このマネージャノードの構成、実行中のサービス、サイズを確認してください。 Manager アプライアンスのフォームファクタのサイズを調整することを検討してください。
マネージャのディスク使用率が非常に高い	重大	マネージャノードのディスクの使用率が非常に高くなっています。イベントの検出時：「マネージャノードのディスクパーティション `{disk_partition_name}` のディスク使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の超高しきい値に達しているか、超えています。」イベントの解決時：「マネージャノードのディスクパーティション `{disk_partition_name}` のディスク使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の超高しきい値を下回っています。」	使用率の高いパーティションを調べ、削除可能なサイズの大きいファイルがあるか確認します。
マネージャのディスク使用率が高い	Medium	マネージャノードのディスク使用率が高くなっています。イベントの検出時：「マネージャノードのディスクパーティション `{disk_partition_name}` のディスク使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の高しきい値に達しているか、超えています。」イベントの解決時：「マネージャノードのディスクパーティション `{disk_partition_name}` のディスク使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の高しきい値を下回っています。」	使用率の高いパーティションを調べ、削除可能なサイズの大きいファイルがあるか確認します。
マネージャの構成ディスクの使用率が非常に高い	重大	マネージャノードの config ディスクの使用率が非常に高くなっています。イベントの検出時：「マネージャノードのディスクパーティション /config のディスク使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の超高しきい値に達しているか、超えています。/config/corfu ディレクトリで NSX Datastore サービスが大量のディスクを使用している可能性があります。」イベントの解決時：「マネージャノードのディスクパーティション /config のディスク使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の超高しきい値を下回っています。」	/config パーティションを調べ、削除可能なサイズの大きいファイルがあるか確認します。
マネージャの構成ディスクの使用率が高い	Medium	マネージャノードの config ディスクの使用率が高くなっています。イベントの検出時：「マネージャノードのディスクパーティション /config のディスク使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の高しきい値に達しているか、超えています。/config/corfu ディレクトリで NSX Datastore サービスのディスク使用量が増加している可能性があります。」イベントの解決時：「マネージャノードのディスクパーティション /config のディスク使用率が `{system_resource_usage}`% になりました。これは、`{system_usage_threshold}`% の高しきい値を下回っています。」	/config パーティションを調べ、削除可能なサイズの大きいファイルがあるか確認します。
オペレーション DB のディスク使用率が高い	Medium	マネージャノードのディスクパーティション「/nonconfig」のディスク使用率が `{system_resource_usage}%` になりました。これは、`{system_usage_threshold}%` の高しきい値に達しているか、超えています。/nonconfig/corfu ディレクトリで NSX Datastore サービスのディスク使用量が増加している可能性があります。	/opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig を実行して問題が報告された場合は、VMware サポートにお問い合わせください。
オペレーション DB のディスク使用率が非常に高い	重大	マネージャノードのディスクパーティション「/nonconfig」のディスク使用率が `{system_resource_usage}%` になりました。これは、`{system_usage_threshold}%` の超高しきい値に達しているか、超えています。/nonconfig/corfu ディレクトリで NSX Datastore サービスのディスク使用量が増加している可能性があります。	/opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig を実行して問題が報告された場合は、VMware サポートにお問い合わせください。

NCP イベント

NSX Container Plug-in (NCP) イベントは、 ESXi ノードと KVM ノードで発生します。

イベント名	重要度	アラートメッセージ	推奨アクション
NCP プラグイン停止	重大	マネージャノードで NCP が停止しているか、不良な状態になっています。イベントの検出時：「マネージャノードで NCP が停止しているか、不良な状態になっています。」イベントの解決時：「マネージャノードで NCP が起動しているか、再び良好な状態になっています。」	問題のあるクラスタを検索するには、NSX API GET /api/v1/systemhealth/container-cluster/ncp/status を呼び出し、すべてのクラスタの状態を取得して、「停止」または「不明」状態のクラスタ名を確認します。 NSX ユーザーインターフェイスで [インベントリ] > [コンテナ] > [クラスタ] ページの順に移動して、「停止」または「不明」状態のクラスタ名を確認し、[ノード] タブをクリックします。ここに、すべての Kubernetes クラスタと PAS クラスタのメンバーが表示されます。 Kubernetes クラスタの場合： NCP Pod の稼動状態を確認します。クラスタメンバーから K8s マスターノードを探してそのノードにログインします。 kubectl コマンド kubectl get pods --all-namespaces を呼び出します。NCP ポッドに問題がある場合は、kubectl logs コマンドを実行して問題を確認し、エラーを修正してください。 NCP と Kubernetes API サーバの接続を確認します。 NCP ポッド内で NSX CLI を使用すると、この接続状態を確認できます。確認するには、マスター仮想マシンから次のコマンドを実行します。 kubectl exec -it <NCP-Pod-Name> -n nsx-system bash nsxcli get ncp-k8s-api-server status 接続に問題がある場合は、ネットワークと NCP の両方の構成を確認してください。 NCP と NSX Manager の接続を確認します。 NCP ポッド内で NSX CLI を使用すると、この接続状態を確認できます。確認するには、マスター仮想マシンから次のコマンドを呼び出します。 kubectl exec -it <NCP-Pod-Name> -n nsx-system bash nsxcli get ncp-nsx status 接続に問題がある場合は、ネットワークと NCP の両方の構成を確認してください。 PAS クラスタの場合：仮想マシン間のネットワーク接続を確認して、ネットワークの問題を修正します。ノードとサービスの両方の状態を確認して、クラッシュしたノードまたはサービスを修正します。ノードとサービスの状態を確認するには、bosh vms コマンドと bosh instances -p コマンドを呼び出します。

イベント名

重要度

アラートメッセージ

推奨アクション

NCP プラグイン停止

重大

マネージャノードで NCP が停止しているか、不良な状態になっています。

イベントの検出時：「マネージャノードで NCP が停止しているか、不良な状態になっています。」

イベントの解決時：「マネージャノードで NCP が起動しているか、再び良好な状態になっています。」

問題のあるクラスタを検索するには、NSX API GET /api/v1/systemhealth/container-cluster/ncp/status を呼び出し、すべてのクラスタの状態を取得して、「停止」または「不明」状態のクラスタ名を確認します。

NSX ユーザーインターフェイスで [インベントリ] > [コンテナ] > [クラスタ] ページの順に移動して、「停止」または「不明」状態のクラスタ名を確認し、[ノード] タブをクリックします。ここに、すべての Kubernetes クラスタと PAS クラスタのメンバーが表示されます。

Kubernetes クラスタの場合：

NCP Pod の稼動状態を確認します。クラスタメンバーから K8s マスターノードを探してそのノードにログインします。
kubectl コマンド kubectl get pods --all-namespaces を呼び出します。NCP ポッドに問題がある場合は、kubectl logs コマンドを実行して問題を確認し、エラーを修正してください。
NCP と Kubernetes API サーバの接続を確認します。
NCP ポッド内で NSX CLI を使用すると、この接続状態を確認できます。確認するには、マスター仮想マシンから次のコマンドを実行します。
```
kubectl exec -it <NCP-Pod-Name> -n nsx-system bash
nsxcli
get ncp-k8s-api-server status
```
接続に問題がある場合は、ネットワークと NCP の両方の構成を確認してください。
NCP と NSX Manager の接続を確認します。
NCP ポッド内で NSX CLI を使用すると、この接続状態を確認できます。確認するには、マスター仮想マシンから次のコマンドを呼び出します。
```
kubectl exec -it <NCP-Pod-Name> -n nsx-system bash nsxcli get ncp-nsx status
```
接続に問題がある場合は、ネットワークと NCP の両方の構成を確認してください。

PAS クラスタの場合：

仮想マシン間のネットワーク接続を確認して、ネットワークの問題を修正します。
ノードとサービスの両方の状態を確認して、クラッシュしたノードまたはサービスを修正します。
ノードとサービスの状態を確認するには、bosh vms コマンドと bosh instances -p コマンドを呼び出します。

ノードエージェント健全性イベント

ノードエージェント健全性イベントは、 ESXi ノードと KVM ノードで発生します。

イベント名重要度アラートメッセージ推奨アクション

ノードエージェント停止

高

イベント名	重要度	アラートメッセージ	推奨アクション
ノードエージェント停止	高	ノード仮想マシン内で実行されているエージェントが停止している可能性があります。イベントの検出時：「ノード仮想マシン内で実行されているエージェントが停止している可能性があります。」イベントの解決時：「ノード仮想マシン内のエージェントが実行されています。」	ESX の場合： Vmk50 が見つからない場合は、ナレッジベースの記事 KB67432 を参照してください。 Hyperbus 4094 が見つからない場合：nsx-cfgagent を再起動するか、コンテナホスト仮想マシンを再起動すると、問題が解決する場合があります。コンテナホスト VIF がブロックされている場合：接続を確認し、すべての構成が送信されていることを確認してください。 nsx-cfgagent が停止している場合：nsx-cfgagent を再起動してください。 KVM の場合： Hyperbus ネームスペースが見つからない場合：`nsx-opsagent` を再起動すると、ネームスペースが再作成される場合があります。 hyperbus ネームスペース内に Hyperbus インターフェイスが見つからない場合：`nsx-opsagent` を再起動すると、問題が解決する場合があります。 `nsx-agent` が停止している場合：`nsx-agent`を再起動してください。 ESX と KVM の場合： `node-agent` パッケージが見つからない場合：コンテナホスト仮想マシンに `node-agent` パッケージが正常にインストールされていることを確認してください。コンテナホスト仮想マシンで `node-agent` インターフェイスが停止している場合：コンテナホスト仮想マシンの eth1 インターフェイスの状態を確認してください。

ノード仮想マシン内で実行されているエージェントが停止している可能性があります。

イベントの検出時：「ノード仮想マシン内で実行されているエージェントが停止している可能性があります。」

イベントの解決時：「ノード仮想マシン内のエージェントが実行されています。」

ESX の場合：

Vmk50 が見つからない場合は、ナレッジベースの記事 KB67432 を参照してください。
Hyperbus 4094 が見つからない場合：nsx-cfgagent を再起動するか、コンテナホスト仮想マシンを再起動すると、問題が解決する場合があります。
コンテナホスト VIF がブロックされている場合：接続を確認し、すべての構成が送信されていることを確認してください。
nsx-cfgagent が停止している場合：nsx-cfgagent を再起動してください。

KVM の場合：

Hyperbus ネームスペースが見つからない場合：nsx-opsagent を再起動すると、ネームスペースが再作成される場合があります。
hyperbus ネームスペース内に Hyperbus インターフェイスが見つからない場合：nsx-opsagent を再起動すると、問題が解決する場合があります。
nsx-agent が停止している場合：nsx-agentを再起動してください。

ESX と KVM の場合：

node-agent パッケージが見つからない場合：コンテナホスト仮想マシンに node-agent パッケージが正常にインストールされていることを確認してください。
コンテナホスト仮想マシンで node-agent インターフェイスが停止している場合：コンテナホスト仮想マシンの eth1 インターフェイスの状態を確認してください。

パスワード管理イベント

パスワード管理イベントは、NSX Manager、NSX Edge、パブリックゲートウェイのノードで発生します。

イベント名重要度アラートメッセージ推奨アクション

パスワードの期限切れ

重大

イベント名	重要度	アラートメッセージ	推奨アクション
パスワードの期限切れ	重大	ユーザーパスワードが期限切れです。イベントの検出時：「ユーザー `{username}` のパスワードは期限切れになっています。」イベントの解決時：「ユーザー `{username}` のパスワードが正常に変更されたか、有効期限の問題が解決されました。」	システムにアクセスするには、ユーザー `{username}` のパスワードを今すぐ変更する必要があります。たとえば、ユーザーに新しいパスワードを適用するには、要求の本文に有効なパスワードを指定して次の NSX API を呼び出します。 `PUT /api/v1/node/users/<userid>` `<userid>` はユーザーの ID です。Admin ユーザー（`<userid>` が 10000）のパスワードが期限切れになっている場合は、admin が SSH（有効な場合）またはコンソールからシステムにログインして、パスワードを変更する必要があります。期限切れのパスワードを入力すると、新しいパスワードを入力するように求められます。
パスワードがまもなく期限切れ	高	ユーザーパスワードがまもなく期限切れになります。イベントの検出時：「ユーザー `{username}` のパスワードはあと `{password_expiration_days}` 日で期限切れになります。」イベントの解決時：「ユーザー `{username}` のパスワードが正常に変更されたか、有効期限の問題が解決されました。」	システムにアクセスするには、`{username}` で識別されるユーザーのパスワードを今すぐ変更する必要があります。たとえば、ユーザーに新しいパスワードを適用するには、要求の本文に有効なパスワードを指定して次の NSX API を呼び出します。 `PUT /api/v1/node/users/<userid>` `<userid>` はユーザーの ID です。
パスワードがまもなく期限切れ	中	ユーザーパスワードの期限切れが近づいています。イベントの検出時：「ユーザー `{username}` のパスワードはあと {password_expiration_days} 日で期限切れになります。」イベントの解決時：「ユーザー `{username}` のパスワードが正常に変更されたか、有効期限の問題が解決されました。」	`{username}` で識別されるユーザーのパスワードをすぐに変更する必要があります。たとえば、ユーザーに新しいパスワードを適用するには、要求の本文に有効なパスワードを指定して次の NSX API を呼び出します。 `PUT /api/v1/node/users/<userid>` `<userid>` はユーザーの ID です。

ユーザーパスワードが期限切れです。

イベントの検出時：「ユーザー {username} のパスワードは期限切れになっています。」

イベントの解決時：「ユーザー {username} のパスワードが正常に変更されたか、有効期限の問題が解決されました。」

システムにアクセスするには、ユーザー {username} のパスワードを今すぐ変更する必要があります。たとえば、ユーザーに新しいパスワードを適用するには、要求の本文に有効なパスワードを指定して次の NSX API を呼び出します。

PUT /api/v1/node/users/<userid>

<userid> はユーザーの ID です。Admin ユーザー（<userid> が 10000）のパスワードが期限切れになっている場合は、admin が SSH（有効な場合）またはコンソールからシステムにログインして、パスワードを変更する必要があります。期限切れのパスワードを入力すると、新しいパスワードを入力するように求められます。

パスワードがまもなく期限切れ

高

ユーザーパスワードがまもなく期限切れになります。

イベントの検出時：「ユーザー {username} のパスワードはあと {password_expiration_days} 日で期限切れになります。」

イベントの解決時：「ユーザー {username} のパスワードが正常に変更されたか、有効期限の問題が解決されました。」

システムにアクセスするには、{username} で識別されるユーザーのパスワードを今すぐ変更する必要があります。たとえば、ユーザーに新しいパスワードを適用するには、要求の本文に有効なパスワードを指定して次の NSX API を呼び出します。

PUT /api/v1/node/users/<userid>

<userid> はユーザーの ID です。

パスワードがまもなく期限切れ

中

ユーザーパスワードの期限切れが近づいています。

イベントの検出時：「ユーザー {username} のパスワードはあと {password_expiration_days} 日で期限切れになります。」

イベントの解決時：「ユーザー {username} のパスワードが正常に変更されたか、有効期限の問題が解決されました。」

{username} で識別されるユーザーのパスワードをすぐに変更する必要があります。たとえば、ユーザーに新しいパスワードを適用するには、要求の本文に有効なパスワードを指定して次の NSX API を呼び出します。

PUT /api/v1/node/users/<userid>

<userid> はユーザーの ID です。

ルーティングイベント

イベント名	重要度	アラートメッセージ	推奨アクション
BGP 停止	高	BGP ネイバーが停止しています。イベントの検出時：「ルーター `{entity_id}` で、BGP ネイバー `{bgp_neighbor_ip}` が停止しています。理由：`{failure_reason}`。」イベントの解決時：「ルーター `{entity_id}` で、BGP ネイバー `{bgp_neighbor_ip}` が稼動しています。」	SSH で Edge ノードに接続します。 NSX CLI コマンド `get logical-routers` を呼び出します。サービスルーター `{sr_id}` に切り替えます。 /var/log/syslog で、BGP 接続関連のエラーが報告されているかどうか確認します。
外部インターフェイスの双方向フォワーディング検出 (BFD) 停止	高	BFD セッションが停止しています。イベントの検出時：「ルーター `{entity_id}` で、ピア `{peer_address}` の BFD セッションが停止しています。」イベントの解決時：「ルーター `{entity_id}` で、ピア `{peer_address}` の BFD セッションが起動しています。」	SSH で Edge ノードに接続します。 NSX CLI コマンド `get logical-routers` を呼び出します。サービスルーター `{sr_id}` に切り替えます。 NSX CLI コマンド `ping <peer_address>` を呼び出して、接続を確認します。
ルーティングの停止	高	すべての BGP/BFD セッションが停止しています。イベントの検出時：「すべての BGP/BFD セッションが停止しています。」イベントの解決時：「1 つ以上の BGP/BFD セッションが起動しています。」	NSX CLI コマンド `get logical-routers` を呼び出して、Tier-0 サービスルーターを取得します。 Tier-0 サービスルーターの VRF に切り替えてから、次の NSX CLI コマンドを呼び出します。接続を確認します。`ping <BFD peer IP address>` BFD の健全性を確認します。 get bfd-config get bfd-sessions BGP の健全性を確認します。`get bgp neighbor summary` get bfd neconfig get bfd-sessions /var/log/syslog で、BGP 接続関連のエラーが報告されているかどうか確認します。
スタティックルートの削除	高	スタティックルートが削除されました。イベントの検出時：「ルーター `{entity_id}` で BFD が停止しているため、スタティックルート `{static_address}` が削除されました。」イベントの解決時：「BFD がリカバリされたため、ルーター `{entity_id}` でスタティックルート `{static_address}` が再度追加されました。」	SSH で Edge ノードに接続します。 NSX CLI コマンド `get logical-routers` を呼び出します。サービスルーター `{sr_id}` に切り替えます。 NSX CLI コマンドを呼び出して、接続を確認します。 get bgp neighbor summary また、NSX と BFD ピアの両方の構成を調べて、タイマーが変更されていないことを確認します。

トランスポートノードの健全性

トランスポートノード健全性イベントは、KVM ノードと ESXi ノードで発生します。

イベント名	重要度	アラートメッセージ	推奨アクション
LAG メンバーの停止	Medium	LACP レポーティングメンバーが停止しています。イベントの検出時：「LACP レポーティングメンバーが停止しています。」イベントの解決時：「LACP レポーティングメンバーが起動しています。」	ホストの LAG メンバーの接続状態を確認します。 NSX ユーザーインターフェイスで、[ファブリック] > [ノード] > [トランスポートノード] > [ホストトランスポートノード] の順に移動します。 [ホストトランスポートノード] リストで、[ノードの状態] 列を確認します。ノードの状態が劣化か停止のトランスポートノードを特定します。 [<トランスポートノード>] > [モニタリング] の順に選択します。劣化または停止が報告されているボンディング（アップリンク）を確認します。障害の発生したホストにログインして、次のコマンドを実行し、LACP メンバーの状態を確認します。 ESXi の場合：esxcli network vswitch dvs vmware lacp status get KVM の場合：ovs-appctl bond/show と ovs-appctl lacp/show
N-VDS アップリンク停止	Medium	アップリンクが停止しています。イベントの検出時：「アップリンクが停止しています。」イベントの解決時：「アップリンクが起動しています。」	ホストのアップリンクの物理 NIC の状態を確認します。 NSX ユーザーインターフェイスで、[ファブリック] > [ノード] > [トランスポートノード] > [ホストトランスポートノード] の順に移動します。 [ホストトランスポートノード] リストで、[ノードの状態] 列を確認します。ノードの状態が劣化か停止のトランスポートノードを特定します。 [<トランスポートノード>] > [モニタリング] の順に選択します。劣化または停止が報告されているボンディング（アップリンク）の状態を確認します。劣化状態を回避するには、使用中かどうかにかかわらず、すべてのアップリンクインターフェイスが接続され、稼動状態になっている必要があります。

イベント名

重要度

アラートメッセージ

推奨アクション

LAG メンバーの停止

Medium

LACP レポーティングメンバーが停止しています。

イベントの検出時：「LACP レポーティングメンバーが停止しています。」

イベントの解決時：「LACP レポーティングメンバーが起動しています。」

ホストの LAG メンバーの接続状態を確認します。

NSX ユーザーインターフェイスで、[ファブリック] > [ノード] > [トランスポートノード] > [ホストトランスポートノード] の順に移動します。
[ホストトランスポートノード] リストで、[ノードの状態] 列を確認します。
ノードの状態が劣化か停止のトランスポートノードを特定します。
[<トランスポートノード>] > [モニタリング] の順に選択します。
劣化または停止が報告されているボンディング（アップリンク）を確認します。
障害の発生したホストにログインして、次のコマンドを実行し、LACP メンバーの状態を確認します。
- ESXi の場合：esxcli network vswitch dvs vmware lacp status get
- KVM の場合：ovs-appctl bond/show と ovs-appctl lacp/show

N-VDS アップリンク停止

Medium

アップリンクが停止しています。

イベントの検出時：「アップリンクが停止しています。」

イベントの解決時：「アップリンクが起動しています。」

ホストのアップリンクの物理 NIC の状態を確認します。

NSX ユーザーインターフェイスで、[ファブリック] > [ノード] > [トランスポートノード] > [ホストトランスポートノード] の順に移動します。
[ホストトランスポートノード] リストで、[ノードの状態] 列を確認します。
ノードの状態が劣化か停止のトランスポートノードを特定します。
[<トランスポートノード>] > [モニタリング] の順に選択します。
劣化または停止が報告されているボンディング（アップリンク）の状態を確認します。
劣化状態を回避するには、使用中かどうかにかかわらず、すべてのアップリンクインターフェイスが接続され、稼動状態になっている必要があります。

VPN イベント

VPN イベントは、NSX Edge ノードとパブリックゲートウェイノードで発生します。

イベント名	重要度	アラートメッセージ	推奨アクション
IPsec ポリシーベースセッションの停止	Medium	ポリシーベース IPsec VPN セッションが停止しています。イベントの検出時：「ポリシーベース IPsec VPN セッション `{entity_id}` が停止しています。理由：`{session_down_reason}`。」イベントの解決時：「ポリシーベース IPsec VPN セッション `{entity_id}` が起動しています。」	IPsec VPN セッションの構成を確認し、セッション停止の理由に応じてエラーを解決します。
IPsec ルートベースセッションの停止	Medium	ルートベース IPsec VPN セッションが停止しています。イベントの検出時：「ルートベース IPsec VPN セッション `{entity_id}` が停止しています。理由：`{session_down_reason}`。」イベントの解決時：「ルートベース IPsec VPN セッション `{entity_id}` が起動しています。」	IPsec VPN セッションの構成を確認し、セッション停止の理由に応じてエラーを解決します。
IPsec ポリシーベーストンネルの停止	Medium	ポリシーベース IPsec VPN トンネルが停止しています。イベントの検出時：「セッション `{entity_id}` で、1 つ以上のポリシーベース IPsec VPN トンネルが停止しています。」イベントの解決時：「セッション `{entity_id}` で、すべてのポリシーベース IPsec VPN トンネルが起動しています。」	IPsec VPN セッションの構成を確認し、トンネル停止の理由に応じてエラーを解決します。
IPsec ルートベーストンネルの停止	Medium	ルートベース IPsec VPN トンネルが停止しています。イベントの検出時：「セッション `{entity_id}` で、1 つ以上のルートベース IPsec VPN トンネルが停止しています。」イベントの解決時：「セッション `{entity_id}` で、すべてのルートベース IPsec VPN トンネルが起動しています。」	IPsec VPN セッションの構成を確認し、トンネル停止の理由に応じてエラーを解決します。
L2VPN セッションの停止	Medium	L2VPN セッションが停止しています。イベントの検出時：「L2VPN セッション `{entity_id}` が停止しています。」イベントの解決時：「L2VPN セッション `{entity_id}` が起動しています。」	IPsec VPN セッションの構成を確認し、理由に応じてエラーを解決します。

Identity Firewall イベント

イベント名	重要度	アラートメッセージ	推奨アクション
Active Directory サーバとの接続	重大	AD サーバとの接続が切断されました。イベントの検出時：Identity Firewall の Active Directory サーバとの接続が停止しています。イベントの検出時：Identity Firewall の Active Directory サーバとの接続が動作しています。	NSX ノードから Active Directory サーバに到達可能です。 NSX で Active Directory サーバの詳細が正しく構成されています。 Active Directory サーバが正常に実行されています。 Active Directory サーバと NSX ノード間のアクセスをブロックするファイアウォールは存在しません。接続の問題を修正した後、LDAP サーバのユーザーインターフェイスで [接続のテスト] を使用して、Active Directory サーバとの接続をテストします。
差分同期エラー	重大	Active Directory サーバの `エラーの説明` を同期できませんでしたイベントの検出時：Identity Firewall Active Directory サーバで選択同期を実行中にエラーが発生しました。`エラーの詳細`。イベントの検出時：Identity Firewall Active Directory サーバの選択的同期のエラーが修正されました。	Edge ノードでロードバランササービスが実行されているかどうかを確認します。ロードバランササービスの状態が準備未完了の場合は、Edge ノードをメンテナンスモードに切り替えてからメンテナンスモードを終了します。ロードバランサの状態が回復しない場合は、syslog にエラーログがあるかどうかを確認してください。

イベント名

重要度

アラートメッセージ

推奨アクション

Active Directory サーバとの接続

重大

AD サーバとの接続が切断されました。

イベントの検出時：Identity Firewall の Active Directory サーバとの接続が停止しています。

イベントの検出時：Identity Firewall の Active Directory サーバとの接続が動作しています。

NSX ノードから Active Directory サーバに到達可能です。
NSX で Active Directory サーバの詳細が正しく構成されています。
Active Directory サーバが正常に実行されています。
Active Directory サーバと NSX ノード間のアクセスをブロックするファイアウォールは存在しません。

接続の問題を修正した後、LDAP サーバのユーザーインターフェイスで [接続のテスト] を使用して、Active Directory サーバとの接続をテストします。

差分同期エラー

重大

Active Directory サーバの エラーの説明 を同期できませんでした

イベントの検出時：Identity Firewall Active Directory サーバで選択同期を実行中にエラーが発生しました。エラーの詳細。

イベントの検出時：Identity Firewall Active Directory サーバの選択的同期のエラーが修正されました。

Edge ノードでロードバランササービスが実行されているかどうかを確認します。
ロードバランササービスの状態が準備未完了の場合は、Edge ノードをメンテナンスモードに切り替えてからメンテナンスモードを終了します。
ロードバランサの状態が回復しない場合は、syslog にエラーログがあるかどうかを確認してください。

アラーム管理イベント

証明書イベント

CNI 健全性イベント

DHCP イベント

分散ファイアウォール イベント

DNS イベント

Edge 健全性イベント

エンドポイント保護イベント

フェデレーション イベント

高可用性イベント

インフラストラクチャ通信イベント

インフラストラクチャ サービス イベント

Intelligence 通信イベント

Intelligence 健全性イベント

ライセンス イベント

ロード バランサ イベント

マネージャ健全性イベント

NCP イベント

ノード エージェント健全性イベント

パスワード管理イベント

ルーティング イベント

トランスポート ノードの健全性

VPN イベント

Identity Firewall イベント

分散ファイアウォールイベント

フェデレーションイベント

インフラストラクチャサービスイベント

ライセンスイベント

ロードバランサイベント

ノードエージェント健全性イベント

ルーティングイベント

トランスポートノードの健全性