次の表に、アラーム メッセージや解決の推奨アクションなど、アラームをトリガーするイベントについて説明します。重要度が「」より大きいイベントが発生すると、アラームがトリガーされます。

アラーム管理イベント

アラーム管理イベントは、NSX Manager ノードとグローバル マネージャ ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
アラーム サービスの過負荷状態 重大

アラーム サービスが過負荷状態になっています。

イベントの検出時:「大量のアラームが報告されたため、アラーム サービスが一時的に過負荷状態になっています。NSX UI と GET /api/v1/alarms NSX API が新しいアラームの報告を停止しました。Syslog エントリと SNMP トラップ(有効になっている場合)は引き続き送信され、基になるイベントの詳細を報告します。アラームの大量発生の原因となっている問題が解決されると、アラーム サービスが新しいアラームの報告を再開します。」

イベントの解決時:「アラームの大量発生が収まりました。新しいアラームの報告が再開されました。」

NSX UI の [アラーム] ページまたは GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED NSX API を使用して、すべてのアクティブ アラームを確認します。それぞれのアクティブ アラームに対して、アラームの推奨アクションに従い、根本原因を調査します。十分なアラームが解決されると、十分なアラームが解決されると、アラーム サービスが新しいアラームの報告を再開します。

大量のアラーム 重大

特定のタイプのアラームが大量に検出されました。

イベントの検出時:「{event_id} アラームが大量に発生しているため、アラーム サービスはこのタイプのアラームの報告を一時的に停止しています。NSX UI と GET /api/v1/alarms NSX API は、これらのアラームの新しいインスタンスを報告しません。Syslog エントリと SNMP トラップ(有効になっている場合)は引き続き送信され、基になるイベントの詳細を報告します。{event_id} アラームの大量発生の原因となっている問題が解決されると、アラーム サービスが新しい {event_id} アラームの報告を再開します。」

イベントの解決時:「{event_id} アラームの大量発生が収まりました。新しいアラームの報告が再開されました。」

NSX UI の [アラーム] ページまたは GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED NSX API を使用して、すべてのアクティブ アラームを確認します。それぞれのアクティブ アラームに対して、アラームの推奨アクションに従い、根本原因を調査します。十分なアラームが解決されると、十分なアラームが解決されると、アラーム サービスが新しい {event_id} アラームの報告を再開します。

証明書イベント

証明書イベントは、NSX Manager ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
期限切れの証明書 重大

証明書が期限切れです。

イベントの検出時:「証明書 {entity-id} が期限切れです。」

イベントの解決時:「期限切れの証明書 {entity-id} が削除されたか、有効期限の問題が解決されました。」

現在、証明書を使用しているサービスが、期限切れでない新しい証明書を使用するように更新されていることを確認します。たとえば、HTTP サービスに新しい証明書を適用するには、次の API 呼び出しを行います。

POST /api/v1/node/services/http?action=apply_certificate&certificate_id=<cert-id>

ここで、<cert-id> は、API 呼び出し GET /api/v1/trust-management/certificates によって報告される有効な証明書の ID です。

期限切れの証明書が使用中でなければ、次の API 呼び出しを使用して、この証明書を削除する必要があります。

DELETE /api/v1/trust-management/certificates/{entity_id}

証明書がまもなく期限切れ

証明書がまもなく期限切れになります。

イベントの検出時:「証明書 {entity-id} はまもなく期限切れになります。」

イベントの解決時:「有効期限の近い証明書 {entity-id} が削除されたか、有効期限の問題が解決されました。」

現在、証明書を使用しているサービスが、有効期限が近くない新しい証明書を使用するように更新されていることを確認します。たとえば、HTTP サービスに新しい証明書を適用するには、次の API 呼び出しを行います。

POST /api/v1/node/services/http?action=apply_certificate&certificate_id=<cert-id>

ここで、<cert-id> は、API 呼び出し GET /api/v1/trust-management/certificates によって報告される有効な証明書の ID です。

期限切れの近い証明書が使用中でなければ、API 呼び出しを使用して、この証明書を削除する必要があります。

DELETE /api/v1/trust-management/certificates/{entity_id}

証明書がまもなく期限切れ

証明書の期限切れが近づいています。

イベントの検出時:「証明書 {entity-id} の期限切れが近づいています。」

イベントの解決時:「有効期限の近い証明書 {entity-id} が削除されたか、有効期限の問題が解決されました。」

現在、証明書を使用しているサービスが、有効期限が近くない新しい証明書を使用するように更新されていることを確認します。たとえば、HTTP サービスに新しい証明書を適用するには、次の API 呼び出しを行います。

POST /api/v1/node/services/http?action=apply_certificate&certificate_id=<cert-id>

ここで、<cert-id> は、API 呼び出し GET /api/v1/trust-management/certificates によって報告される有効な証明書の ID です。

期限切れの近い証明書が使用中でなければ、API 呼び出しを使用して、この証明書を削除する必要があります。

DELETE /api/v1/trust-management/certificates/{entity_id}

CNI 健全性イベント

CNI 健全性イベントは、 ESXi ノードと KVM ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
Hyperbus マネージャの切断

Hyperbus がマネージャ ノードと通信できません。

イベントの検出時:「Hyperbus がマネージャ ノードと通信できません。」

イベントの解決時:「Hyperbus はマネージャ ノードと通信可能です。」

Hyperbus vmkernel インターフェイス (vmk50) が存在しない可能性があります。ナレッジベースの記事 KB67432を参照してください。

DHCP イベント

DHCP イベントは、NSX Edge ノードとパブリック ゲートウェイ ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
プール リースの割り当て失敗

IP プール内の IP アドレスが不足しています。

イベントの検出時:「DHCP サーバ {dhcp_server_id} の IP プール {entity_id} のアドレスがすべて使用されています。最後の DHCP 要求は失敗しています。以降の要求も失敗します。」

イベントの解決時:「DHCP サーバ {dhcp_server_id} の IP プール {entity_id} の問題が解決されました。前回の DHCP 要求にリースが正常に割り当てられています。」

NSX UI または DHCP プールの構成を確認します。あるいは、DHCP サーバが実行されている Edge ノードで NSX CLI コマンド get dhcp ip-pool を呼び出し、構成を確認します。

さらに、NSX CLI コマンド get dhcp lease を呼び出して、Edge ノードで現在アクティブなリースを確認します。

リースとアクティブな仮想マシンの数を比較します。アクティブなリースの数と比較して、仮想マシンの数が少ない場合は、DHCP サーバ構成でリース時間を短縮することを検討します。また、NSX UI で [ネットワーク] > [セグメント] > [セグメント] ページの順にアクセスして、DHCP サーバのプール範囲を拡張することを検討します。

プールの状態: 過負荷

IP プールが過負荷状態になっています。

イベントの検出時:「DHCP サーバ {dhcp_server_id} の IP プール {entity_id} の使用率が上限に近づいています。{dhcp_pool_usage}% の IP が割り当てられています。」

イベントの解決時:「DHCP サーバ {dhcp_server_id} の IP プール {entity_id} が使用率の高しきい値を下回りました。」

NSX UI または DHCP プールの構成を確認します。あるいは、DHCP サーバが実行されている Edge ノードで NSX CLI コマンド get dhcp ip-pool を呼び出し、構成を確認します。

さらに、NSX CLI コマンド get dhcp lease を呼び出して、Edge ノードで現在アクティブなリースを確認します。

リースとアクティブな仮想マシンの数を比較します。アクティブなリースの数と比較して、仮想マシンの数が少ない場合は、DHCP サーバ構成でリース時間を短縮することを検討します。また、NSX UI で [ネットワーク] > [セグメント] > [セグメント] ページの順にアクセスして、DHCP サーバのプール範囲を拡張することを検討します。

分散ファイアウォール イベント

分散ファイアウォールイベントは、NSX Manager ノードまたは ESXi ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
分散ファイアウォールの CPU 使用率が非常に高い 重大

分散ファイアウォールの CPU 使用率が非常に高くなっています。

イベントの検出時:「トランスポート ノード {entity_id} の DFW の CPU 使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値に達しているか、超えています。」

イベントの解決時:「DNS フォワーダ {entity_id} が再度実行されています。」

このホストと他のホストの間で仮想マシン ワークロードのリバランシングを行うことを検討してください。

最適化でのセキュリティ設計を確認してください。たとえば、ルールがデータセンター全体に適用されない場合は、適用先の構成を使用します。

分散ファイアウォールのメモリ使用率が非常に高い 重大

分散ファイアウォールのメモリ使用率が非常に高くなっています。

イベントの検出時:「トランスポート ノード {entity_id} の DFW のメモリ使用率 {heap_type}{system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値に達しているか、超えています。」

イベントの解決時:「トランスポート ノード {entity_id} の DFW のメモリ使用率 {heap_type}{system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値を下回っています。」

ホストで NSX CLI コマンド get firewall thresholds を呼び出して、現在の DFW のメモリ使用率を確認します。

このホストと他のホストの間でワークロードのリバランシングを行うことを検討してください。

DNS イベント

DNS イベントは、NSX Edge ノードとパブリック ゲートウェイ ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
フォワーダ: 停止

DNS フォワーダが停止しています。

イベントの検出時:「DNS フォワーダ {entity_id} が実行されていません。これは、現在有効になっている設定済みのすべての DNS フォワーダに影響します。」

イベントの解決時:「DNS フォワーダ {entity_id} が再度実行されています。」

  1. NSX CLI コマンド get dns-forwarders status を呼び出し、DNS フォワーダが停止状態かどうかを確認します。
  2. /var/log/syslog で、エラーが報告されているかどうか確認します。
  3. サポート バンドルを収集して、NSX サポート チームに連絡してください。
フォワーダ: 無効

DNS フォワーダが無効になっています。

イベントの検出時:「DNS フォワーダ {entity_id} が無効になっています。」

イベントの解決時:「DNS フォワーダ {entity_id} が有効になっています。」

  1. NSX CLI コマンド get dns-forwarders status を呼び出し、DNS フォワーダが無効になっているかどうかを確認します。
  2. NSX ポリシー API またはマネージャ API を使用して、DNS フォワーダを有効にします。これは、無効な状態にしておくことはできません。

Edge 健全性イベント

Edge 健全性イベントは、NSX Edge ノードとパブリック ゲートウェイ ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
Edge の CPU 使用率が非常に高い 重大

Edge ノードの CPU 使用率が非常に高くなっています。

イベントの検出時:「Edge ノード {entity_id} の CPU 使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値に達しているか、超えています。」

イベントの解決時:「Edge ノード {entity_id} の CPU 使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値を下回っています。」

この Edge ノードの構成、実行中のサービス、サイズを確認してください。ワークロードに合わせて Edge アプライアンスのフォーム ファクタのサイズを調整するか、他の Edge ノードの間でサービスのリバランシングを行うことを検討してください。
Edge の CPU 使用率が高い

Edge ノードの CPU 使用率が高くなっています。

イベントの検出時:「Edge ノード {entity-id} の CPU 使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値に達しているか、超えています。」

イベントの解決時:「Edge ノード {entity_id} の CPU 使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値を下回っています。」

この Edge ノードの構成、実行中のサービス、サイズを確認してください。ワークロードに合わせて Edge アプライアンスのフォーム ファクタのサイズを調整するか、他の Edge ノードの間でサービスのリバランシングを行うことを検討してください。
Edge データパスの設定エラー

Edge ノードのデータパスの設定に失敗しました。

イベントの検出時:「3 回試行しましたが、Edge ノードでデータパスを有効にできませんでした。」

イベントの解決時:「Edge ノードのデータパスが有効になりました。」

マネージャ ノードと Edge ノードの接続が良好であることを確認します。

サービスの健全性を確認するには、Edge ノードの NSX CLI から get services コマンドを呼び出します。

データプレーン サービスが停止している場合は、start service dataplane コマンドを呼び出してサービスを再起動します。

Edge データパスの CPU 使用率が非常に高い 重大

Edge ノードのデータパスの CPU 使用率が非常に高くなっています。

イベントの検出時:「Edge ノード {entity-id} でデータパスの CPU 使用率が {datapath_resource_usage}% になりました。超高しきい値に達しているか、超えている状態が少なくとも 2 分間続いています。」

イベントの解決時:「Edge ノード {entity-id} でデータパスの CPU 使用率が許容しきい値より低くなっています。」

NSX CLI コマンド get dataplane cpu stats を呼び出して CPU コアあたりのパケット レートを表示し、Edge ノードの CPU 統計情報を確認します。

パケット レートが高いと CPU 使用率が高い可能性があります。

Edge アプライアンスのフォーム ファクタのサイズを大きくし、同じクラスタの他の Edge ノードまたは別の Edge クラスタとの間でこの Edge ノードのサービスをリバランシングすることを検討してください。

Edge データパスの CPU 使用率が高い

Edge ノードのデータパスの CPU 使用率が高くなっています。

イベントの検出時:「Edge ノード {entity-id} でデータパスの CPU 使用率が {datapath_resource_usage}% になりました。高しきい値に達しているか、超えている状態が少なくとも 2 分間続いています。」

イベントの解決時:「Edge ノード {entity-id} の CPU 使用率が高しきい値を下回りました。」

NSX CLI コマンド get dataplane cpu stats を呼び出して CPU コアあたりのパケット レートを表示し、Edge ノードの CPU 統計情報を確認します。

パケット レートが高いと CPU 使用率が高い可能性があります。

Edge アプライアンスのフォーム ファクタのサイズを大きくし、同じクラスタの他の Edge ノードまたは別の Edge クラスタとの間でこの Edge ノードのサービスをリバランシングすることを検討してください。

Edge データバスの暗号ドライバが停止 重大

Edge ノードでデータパスの暗号ドライバが停止しています。

イベントの検出時:「Edge ノードの暗号ドライバが停止しています。」

イベントの解決時:「Edge ノードの暗号ドライバが起動しています。」

必要に応じて、Edge ノードをアップグレードします。

Edge データパスのメモリ プールの使用率が高い

Edge ノードのデータパス メモリ プールの使用率が高くなっています。

イベントの検出時:「Edge ノード {entity-id}{mempool_name} のデータパス メモリ プールの使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値に達しているか、超えています。」

イベントの解決時:「Edge ノード {entity-id}{mempool_name} のデータパス メモリ プールの使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値を下回っています。」

root ユーザーとしてログインし、edge-appctl -t /var/run/vmware/edge/dpd.ctl mempool/show コマンドと edge-appctl -t /var/run/vmware/edge/dpd.ctl memory/show malloc_heap コマンドを呼び出して、DPDK のメモリ使用率を確認します。
Edge のディスク使用率が非常に高い 重大

Edge ノードのディスク使用率が非常に高くなっています。

イベントの検出時:「Edge ノードのディスク パーティション {disk_partition_name} のディスク使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値に達しているか、超えています。」

イベントの解決時:「Edge ノードのディスク パーティション {disk_partition_name} のディスク使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値を下回っています。」

使用率の高いパーティションを調べ、削除可能なサイズの大きいファイルがあるか確認します。
Edge のディスク使用率が高い

Edge ノードのディスク使用率が高くなっています。

イベントの検出時:「Edge ノードのディスク パーティション {disk_partition_name} のディスク使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値に達しているか、超えています。」

イベントの解決時:「Edge ノードのディスク パーティション {disk_partition_name} のディスク使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値を下回っています。」

使用率の高いパーティションを調べ、削除可能なサイズの大きいファイルがあるか確認します。
Edge グローバル ARP テーブルの使用率が高い

Edge ノードのグローバル ARP テーブルの使用率が高くなっています。

イベントの検出時:「Edge ノード {entity-id} でグローバル ARP テーブルの使用率が {datapath_resource_usage}% になりました。高しきい値に達しているか、超えている状態が 2 分以上続いています。」

イベントの解決時:「Edge ノード {entity-id} でグローバル ARP テーブルの使用率が高しきい値を下回りました。」

ARP テーブル サイズを大きくします。
  1. root ユーザーとしてログインします。
  2. edge-appctl -t /var/run/vmware/edge/dpd.ctl neigh/show コマンドを呼び出します。
  3. neigh キャッシュの使用率が正常かどうか確認します。
    1. 正常な場合は、edge-appctl -t /var/run/vmware/edge/dpd.ctl neigh/set_param max_entries コマンドを呼び出し、ARP テーブル サイズを大きくします。
Edge のメモリ使用率が非常に高い 重大

Edge ノードのメモリ使用率が非常に高くなっています。

イベントの検出時:「Edge ノード {entity_id} のメモリ使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値に達しているか、超えています。」

イベントの解決時:「Edge ノード {entity_id} のメモリ使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値を下回っています。」

この Edge ノードの構成、実行中のサービス、サイズを確認してください。ワークロードに合わせて Edge アプライアンスのフォーム ファクタのサイズを調整するか、他の Edge ノードの間でサービスのリバランシングを行うことを検討してください。
Edge のメモリ使用率が高い

Edge ノードのメモリ使用率が高くなっています。

イベントの検出時:「Edge ノード {entity-id} のメモリ使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値に達しているか、超えています。」

イベントの解決時:「Edge ノード {entity_id} のメモリ使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値を下回っています。」

この Edge ノードの構成、実行中のサービス、サイズを確認してください。ワークロードに合わせて Edge アプライアンスのフォーム ファクタのサイズを調整するか、他の Edge ノードの間でサービスのリバランシングを行うことを検討してください。
Edge NIC リンクの停止状態 重大

Edge ノードの NIC リンクが停止しています。

イベントの検出時:「Edge ノードの NIC {edge_nic_name} リンクが停止しています。」

イベントの解決時:「Edge ノードの NIC {edge_nic_name} リンクが稼動しています。」

NSX CLI コマンド get interfaces を呼び出し、Edge ノードで NIC リンクが物理的に停止しているかどうかを確認します。

停止している場合は、ケーブル接続を確認します。

Edge NIC の受信バッファの不足 重大

Edge ノードの NIC 受信記述子リング バッファに空き容量がありません。

イベントの検出時:「Edge ノード {entity-id} で Edge NIC {edge_nic_name} の受信リング バッファが 60 秒以上 {rx_ring_buffer_overflow_percentage}% オーバーフローしています。」

イベントの解決時:「Edge ノード {entity-id} で Edge NIC {edge_nic_name} の受信リング バッファのオーバーフローが解決されました。」

NSX CLI コマンド get dataplane を呼び出し、次の操作を行います。
  1. PPS と CPU 使用率が高いかどうか確認します。get dataplane ring-size rx を使用して、RX リング サイズを確認します。
    • PPS と CPU の値が高く、RX リングのサイズが小さい場合は set dataplane ring-size rx <ring-size> を呼び出します。たとえば、受信パケットを格納できるように <ring-size> に高い値を設定します。
    • 上の条件を満たしていない場合(リング サイズが大きく、CPU 使用率も高い場合)、データプレーン処理のオーバーヘッドによる遅延が原因になっている可能性があります。
Edge NIC の送信バッファの不足 重大

Edge ノードの NIC 送信記述子リング バッファに空き容量がありません。

イベントの検出時:「Edge ノード {entity-id} で Edge NIC {edge_nic_name} の送信リング バッファが 60 秒以上 {tx_ring_buffer_overflow_percentage}% オーバーフローしています。」

イベントの解決時:「Edge ノード {entity-id} で Edge NIC {edge_nic_name} の送信リング バッファのオーバーフローが解決されました。」

NSX CLI コマンド get dataplane を呼び出し、次の操作を行います。
  1. PPS と CPU 使用率が高いかどうか確認します。get dataplane ring-size tx を使用して、RX リング サイズを確認します。
    • PPS と CPU の値が高く、RX リングのサイズが小さい場合は set dataplane ring-size tx <ring-size> を呼び出します。たとえば、送信パケットを格納できるように <ring-size> に高い値を設定します。
    • 上の条件を満たしていない場合(リング サイズが大きく、CPU 使用率が低いか通常の場合)、ハイパーバイザーの送信リング サイズの設定が原因になっている可能性があります。
ストレージ エラー 重大

NSX-T Data Center 3.0.1 で開始。

Edge ノードの次のディスク パーティションは読み取り専用モードです: {disk_partition_name}

再起動で問題が解決されたかどうか読み取り専用パーティションを確認します。問題が解決していない場合は、ディスクの交換が必要になります。ナレッジベースの記事 https://kb.vmware.com/s/article/2146870 を参照してください。

エンドポイント保護イベント

エンドポイント保護イベントは、NSX Manager ノードまたは ESXi ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
EAM の状態: 停止 重大

コンピュート マネージャの ESX Agent Manager (EAM) サービスが停止しています。

イベントの検出時:「コンピュート マネージャ {entity_id} の ESX Agent Manager (EAM) サービスが停止しています。」

イベントの解決時:「コンピュート マネージャ {entity_id} の ESX Agent Manager (EAM) サービスが起動しているか、コンピュート マネージャ {entity_id} が削除されています。」

ESX Agent Manager (EAM) サービスを再起動します。
  • SSH で vCenter Server ノードに接続し、次のコマンドを実行します。
    service vmware-eam start
パートナー チャネル: 停止 重大

ホスト モジュールとパートナー サービス仮想マシンの接続が停止しています。

イベントの検出時:「ホスト モジュールとパートナー SVM {entity_id} の接続が停止しています。」

イベントの解決時:「ホスト モジュールとパートナー SVM {entity_id} の接続が開始しています。」

ナレッジベースの記事 KB2148821Troubleshooting NSX Guest Introspectionを参照して、{entity_id} で識別されるパートナー サービス仮想マシンがホスト モジュールに再接続されていることを確認してください。

フェデレーション イベント

フェデレーション イベントは、NSX ManagerNSX Edge、およびパブリック ゲートウェイのノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション

LM から LM への同期エラー

NSX-T Data Center 3.0.1 で開始。

{site_name}({site_id}{remote_site_name}({remote_site_id} 間の同期が 5 分以上失敗しています。

  1. NSX CLI コマンド get site-replicator remote-sites を呼び出して、リモートの場所間の接続状態を取得します。リモートの場所が接続されていて、同期されていない場合は、その場所でのマスター解決のプロセスが実行中である可能性があります。この場合は、約 10 秒待ってから、もう一度 CLI を呼び出し、リモートの場所の状態を確認します。場所が切断されている場合は、次の手順を実行します。

  2. ping を使用して、場所 {site_name}{site_id} のローカル マネージャ (LM) から、場所 {remote_site_name}{remote_site_id} の LM への接続を確認します。ping できない場合は、WAN 接続が切断されやすいかを確認します。物理ネットワーク接続の問題がない場合は、次の手順を実行します。

  3. アラームをトリガした場所 {site_name}({site_id} のローカル クラスタのマネージャ ノードで /var/log/cloudnet/nsx-ccp.log ファイルをチェックし、サイト間通信エラーが発生しているかどうかを確認します。さらに、/var/log/syslog 内の nsx-appl-proxy サブコンポーネントによってログに記録されたエラーも確認します。

LM から LM への同期に関する警告

NSX-T Data Center 3.0.1 で開始。

{site_name}({site_id}{remote_site_name}({remote_site_id} 間の同期に失敗しました。

  1. NSX CLI コマンド get site-replicator remote-sites を呼び出して、リモートの場所間の接続状態を取得します。リモートの場所が接続されていて、同期されていない場合は、その場所でのマスター解決のプロセスが実行中である可能性があります。この場合は、約 10 秒待ってから、もう一度 CLI を呼び出し、リモートの場所の状態を確認します。場所が切断されている場合は、次の手順を実行します。

  2. ping を使用して、場所 {site_name}{site_id} のローカル マネージャ (LM) から、場所 {remote_site_name}{remote_site_id} の LM への接続を確認します。ping できない場合は、WAN 接続が切断されやすいかを確認します。物理ネットワーク接続の問題がない場合は、次の手順を実行します。

  3. アラームをトリガした場所 {site_name}({site_id} のローカル クラスタのマネージャ ノードで /var/log/cloudnet/nsx-ccp.log ファイルをチェックし、サイト間通信エラーが発生しているかどうかを確認します。さらに、/var/log/syslog 内の nsx-appl-proxy サブコンポーネントによってログに記録されたエラーも確認します。

RTEP BGP が停止しています

NSX-T Data Center 3.0.1 で開始。

送信元 IP アドレス {bgp_source_ip} からリモートの場所 {remote_site_name} のネイバー IP アドレス {bgp_neighbor_ip} への RTEP BGP セッションが停止しています。原因: {failure_reason}

  1. 影響を受ける Edge ノードで NSX CLI コマンド get logical-routers を呼び出します。

  2. REMOTE_TUNNEL_VRF コンテキストに切り替えます。
  3. NSX CLI コマンド get bgp neighbor を呼び出して、BGP ネイバーを確認します。
  4. または、NSX API GET /api/v1/transport-nodes/<transport-node-id>/inter-site/bgp/summary を呼び出して、BGP ネイバーのステータスを取得します。
  5. NSX CLI コマンド get interfaces を呼び出し、正しい RTEP IP アドレスが remote-tunnel-endpoint という名前のインターフェイスに割り当てられているかどうかを確認します。
  6. 。割り当てられた RTEP IP アドレス {bgp_source_ip} およびリモートの場所 {remote_site_name} のネイバー IP アドレス {bgp_neighbor_ip} 間で ping が正常に機能しているかどうかを確認します。
  7. /var/log/syslog で BGP に関連するエラーを確認します。
  8. API GET または PUT /api/v1/transport-nodes/<transport-node-id> を呼び出して、Edge ノードの remote_tunnel_endpoint 構成を取得/更新します。これにより、影響を受ける Edge ノードに割り当てられた RTEP IP アドレスが更新されます。

高可用性イベント

高可用性イベントは、NSX Edge ノードと Public Cloud Gateway ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
Tier-0 ゲートウェイのフェイルオーバー

Tier-0 ゲートウェイがフェイルオーバーしました。

イベントの検出時:「Tier-0 ゲートウェイ {entity-id} は、{previous_gateway_state} から {current_gateway_state} にフェイルオーバーされました。」

イベントの解決時:「Tier-0 ゲートウェイ {entity-id} が起動しました。」

停止しているサービスを確認して再起動します。
  1. NSX CLI コマンド get logical-routers を実行して、Tier-0 VRF ID を特定します。
  2. vrf <vrf-id> を実行して、VRF コンテキストに切り替えます。
  3. get high-availability status を実行して、停止しているサービスを確認します。
Tier-1 ゲートウェイのフェイルオーバー

Tier-1 ゲートウェイがフェイルオーバーしました。

イベントの検出時:「Tier-1 ゲートウェイ {entity-id} は、{previous_gateway_state} から {current_gateway_state} にフェイルオーバーされました。」

イベントの解決時:「Tier-1 ゲートウェイ {entity-id} が起動しました。」

停止しているサービスを確認して再起動します。
  1. NSX CLI コマンド get logical-routers を実行して、Tier-1 VRF ID を特定します。
  2. vrf <vrf-id> を実行して、VRF コンテキストに切り替えます。
  3. get high-availability status を実行して、停止しているサービスを確認します。

インフラストラクチャ通信イベント

インフラストラクチャ通信イベントは、NSX Edge、KVM、ESXi、パブリック ゲートウェイのノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
Edge トンネル: 停止 重大

Edge ノードのトンネル状態が「停止」になっています。

イベントの検出時:「Edge ノード {entity_id} のトンネルの全体的な状態が「停止」となっています。」

イベントの解決時:「Edge ノード {entity_id} のトンネルがリストアされました。」

  1. SSH を使用して、Edge ノードにログインします。
  2. 状態を取得します。
    nsxcli get tunnel-ports
  3. 各トンネルで、ドロップの統計を確認します。
    get tunnel-port <UUID> stats
  4. Syslog ファイルでトンネル関連のエラーを確認します。

インフラストラクチャ サービス イベント

インフラストラクチャ サービス イベントは、NSX Edge ノードとパブリック ゲートウェイ ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
Edge サービスの状態: 停止 重大

Edge サービスが少なくとも 1 分間停止しています。

イベントの検出時:「サービス {edge_service_name} が少なくとも 1 分間停止しています。」

イベントの解決時:「サービス {edge_service_name} は起動しています。」

Edge ノードで、/var/log/core ディレクトリにあるコア ダンプ ファイルをチェックし、エラーが原因でサービスが終了していないことを確認します。

サービスが停止しているかどうかを確認するには、NSX CLI コマンド get services を呼び出します。

停止している場合は、start service <service-name> を実行してサービスを再起動します。

Edge サービスの状態変更 Low

Edge サービスの状態が変更されました。

イベントの検出時:「サービス {edge_service_name}{previous_service_state} から {current_service_state} に変更されました。」

イベントの解決時:「サービス {edge_service_name}{previous_service_state} から {current_service_state} に変更されました。」

Edge ノードで、/var/log/core ディレクトリにあるコア ダンプ ファイルをチェックし、エラーが原因でサービスが終了していないことを確認します。

サービスが停止しているかどうかを確認するには、NSX CLI コマンド get services を呼び出します。

停止している場合は、start service <service-name> を実行してサービスを再起動します。

Intelligence 通信イベント

NSX Intelligence 通信イベントは、NSX Manager ノード、ESXi ノード、NSX Intelligence アプライアンスで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
トランスポート ノードのフロー エクスポータの切断

トランスポート ノードは、Intelligence ノードのメッセージング ブローカから切断されています。データ収集が影響を受けます。

イベントの検出時:「トランスポート ノード {entity-id} のフロー エクスポータが Intelligence ノードのメッセージング ブローカから切断されています。データ収集が影響を受けます。」

イベントの解決時:「トランスポート ノード {entity-id} 上のフロー エクスポータが、Intelligence ノードのメッセージング ブローカに再接続しました。」

  1. NSX Intelligence ノードで実行されていない場合は、メッセージング サービスを再起動します。
  2. トランスポート ノードのフロー エクスポータと NSX Intelligence ノード間のネットワーク接続の障害を解決します。

Intelligence 健全性イベント

NSX Intelligence 健全性イベントは、NSX Manager ノードと NSX Intelligence アプライアンスで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
CPU 使用率が非常に高い 重大

Intelligence ノードの CPU 使用率が非常に高くなっています。

イベントの検出時:「NSX Intelligence ノード {intelligence_node_id} の CPU 使用率が {system_usage_threshold}% の超高しきい値を超えています。」

イベントの解決時:「NSX Intelligence ノード {intelligence_node_id} の CPU 使用率が {system_usage_threshold}% の超高しきい値を下回っています。」

top コマンドを使用して、メモリ使用率が最も高いプロセスを確認します。次に、/var/log/syslog とこれらのプロセスのローカル ログを確認して、未解決のエラーがないか確認します。

CPU 使用率が高い

Intelligence ノードの CPU 使用率が高くなっています。

イベントの検出時:「NSX Intelligence ノード {intelligence_node_id} の CPU 使用率が {system_usage_threshold}% の高しきい値を超えています。」

イベントの解決時:「NSX Intelligence ノード {intelligence_node_id} の CPU 使用率が {system_usage_threshold}% の高しきい値を下回っています。」

top コマンドを使用して、メモリ使用率が最も高いプロセスを確認します。次に、/var/log/syslog とこれらのプロセスのローカル ログを確認して、未解決のエラーがないか確認します。

メモリ使用率が非常に高い 重大

Intelligence ノードのメモリ使用率が非常に高くなっています。

イベントの検出時:「NSX Intelligence ノード {intelligence_node_id} のメモリ使用率が {system_usage_threshold}% の超高しきい値を超えています。」

イベントの解決時:「NSX Intelligence ノード {intelligence_node_id} のメモリ使用率が {system_usage_threshold}% の超高しきい値を下回っています。」

top コマンドを使用して、メモリ使用率が最も高いプロセスを確認します。次に、/var/log/syslog とこれらのプロセスのローカル ログを確認して、未解決のエラーがないか確認します。

メモリ使用率が高い

Intelligence ノードのメモリ使用率が高くなっています。

イベントの検出時:「NSX Intelligence ノード {intelligence_node_id} のメモリ使用率が {system_usage_threshold}% の高しきい値を超えています。」

イベントの解決時:「NSX Intelligence ノード {intelligence_node_id} のメモリ使用率が {system_usage_threshold}% の高しきい値を下回っています。」

top コマンドを使用して、メモリ使用率が最も高いプロセスを確認します。次に、/var/log/syslog とこれらのプロセスのローカル ログを確認して、未解決のエラーがないか確認します。

ディスク使用率が非常に高い 重大

Intelligence ノードのディスク使用率が非常に高くなっています。

イベントの検出時:「NSX Intelligence ノード {intelligence_node_id} で、ディスク パーティション {disk_partition_name} のディスク使用率が {system_usage_threshold}% の超高しきい値を超えています。」

イベントの解決時:「NSX Intelligence ノード {intelligence_node_id} で、ディスク パーティション {disk_partition_name} のディスク使用率が {system_usage_threshold}% の超高しきい値を下回っています。」

ディスク パーティション {disk_partition_name} を調べ、削除可能なサイズの大きいファイルがあるか確認します。
ディスク使用率が高い

Intelligence ノードのディスク使用率が高くなっています。

イベントの検出時:「NSX Intelligence ノード {intelligence_node_id} で、ディスク パーティション {disk_partition_name} のディスク使用率が {system_usage_threshold}% の高しきい値を超えています。」

イベントの解決時:「NSX Intelligence ノード {intelligence_node_id} で、ディスク パーティション {disk_partition_name} のディスク使用率が {system_usage_threshold}% の高しきい値を下回っています。」

ディスク パーティション {disk_partition_name} を調べ、削除可能なサイズの大きいファイルがあるか確認します。
データ ディスク パーティションの使用率が非常に高い 重大

Intelligence ノードのデータ ディスク パーティションの使用率が非常に高くなっています。

イベントの検出時:「NSX Intelligence ノード {intelligence_node_id} で、ディスク パーティション /data のディスク使用率が {system_usage_threshold}% の超高しきい値を超えています。」

イベントの解決時:「NSX Intelligence ノード {intelligence_node_id} で、ディスク パーティション /data のディスク使用率が {system_usage_threshold}% の超高しきい値を下回っています。」

ディスク使用率がしきい値を下回るまで NSX Intelligence のデータ収集を停止します。

NSX UI で、[システム] > [アプライアンス] > [NSX Intelligence アプライアンス] の順に移動します。次に [アクション] > [データ収集の停止] の順に選択します。

データ ディスク パーティションの使用率が高い

Intelligence ノードのデータ ディスク パーティションの使用率が高くなっています。

イベントの検出時:「NSX Intelligence ノード {intelligence_node_id} で、ディスク パーティション /data のディスク使用率が {system_usage_threshold}% の高しきい値を超えています。」

イベントの解決時:「NSX Intelligence ノード {intelligence_node_id} で、ディスク パーティション /data のディスク使用率が {system_usage_threshold}% の高しきい値を下回っています。」

ディスク使用率がしきい値を下回るまで NSX Intelligence のデータ収集を停止します。

/data パーティションを調べ、削除可能なサイズの大きいファイルがあるか確認します。

ノードの状態:劣化

Intelligence ノードの状態が「劣化」になっています。

イベントの検出時:「NSX Intelligence ノード {intelligence_node_id} のサービス {service_name} が実行されていません。」

イベントの解決時:「NSX Intelligence ノード {intelligence_node_id} のサービス {service_name} が正常に実行されています。」

NSX Intelligence ノードで NSX CLI コマンド get services を実行し、サービスの状態と健全性情報を確認します。

NSX CLI コマンド restart service <service-name> を使用して、予期せず停止したサービスを再起動します。

ライセンス イベント

ライセンス イベントは、NSX Manager ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
ライセンスの期限切れ 重大

ライセンスが期限切れです。

イベントの検出時:「タイプ {license_edition_type} のライセンスが期限切れです。」

イベントの解決時:「タイプ {license_edition_type} の期限切れ証明書が削除されたか、有効期限の問題が解決されました。」

期限切れでない新しいライセンスを追加します。
  1. NSX UI で、[システム] > [ライセンス] の順に移動します。
  2. [追加] をクリックして、新しいライセンスのキーを指定します。
  3. チェックボックスをオンにして [割り当て解除] をクリックし、期限切れライセンスを削除します。
ライセンスがまもなく期限切れ

イベントの検出時:「タイプ {license_edition_type} のライセンスがまもなく期限切れになります。」

イベントの解決時:「{license_edition_type} の有効期限の近いライセンスが削除されたか、有効期限の問題が解決されました。」

期限切れでない新しいライセンスを追加します。
  1. NSX UI で、[システム] > [ライセンス] の順に移動します。
  2. [追加] をクリックして、新しいライセンスのキーを指定します。
  3. チェックボックスをオンにして [割り当て解除] をクリックし、期限切れライセンスを削除します。

ロード バランサ イベント

ロード バランサ イベントは、NSX Edge ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
ロード バランサの CPU 使用率が非常に高い

ロード バランサの CPU 使用率が非常に高くなっています。

イベントの検出時:「ロード バランサ {entity_id} の CPU 使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値を超えています。」

イベントの解決時:「ロード バランサ {entity_id} の CPU 使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値を下回っています。」

ロード バランサの CPU 使用率が {system_usage_threshold}% を超えている場合、このロード バランサのワークロードが高すぎます。

ロード バランサのサイズを small から medium または medium から large に変更して、ロードバランサ サービスのサイズを変更します。

このロード バランサの CPU 使用率が高い場合は、ワークロードに合わせて Edge アプライアンスのフォーム ファクタのサイズを調整するか、ロード バランサ サービスを他の Edge ノードに移動することを検討してください。

ロード バランサの状態:停止

ロード バランサ サービスが停止しています。

イベントの検出時:「ロード バランサ サービス {entity_id} が停止しています。」

イベントの解決時:「ロード バランサ サービス {entity_id} が起動しています。」

Edge ノードでロード バランサ サービスが実行されているかどうかを確認します。

ロード バランサ サービスの状態が準備未完了の場合は、Edge ノードをメンテナンス モードに切り替えてからメンテナンス モードを終了します。

ロード バランサの状態が回復しない場合は、syslog にエラー ログがあるかどうかを確認してください。

仮想サーバの状態: 停止

ロード バランサの仮想サービスが停止しています。

イベントの検出時:「ロード バランサの仮想サーバ {entity_id} が停止しています。」

イベントの解決時:「ロード バランサの仮想サーバ {entity_id} が起動しています。」

ロード バランサ プールの状態と設定を確認します。

正しく設定されていない場合は、再設定を行い、仮想サーバからロード バランサ プールを削除し、仮想サーバに再度追加します。

プールの状態: 停止

イベントの検出時:「ロード バランサ プール {entity_id} の状態が「停止」になっています。」

イベントの解決時:「ロード バランサ プール {entity_id} の状態が「起動中」になっています。」

  1. ロード バランサ プールで停止しているメンバーを確認します。
  2. ロード バランサから問題のプール メンバーへのネットワーク接続を確認します。
  3. 各プール メンバーのアプリケーションの健全性を確認します。
  4. 設定済みのモニターを使用して、各プール メンバーの健全性を確認します。

メンバーの健全性が確認されると、モニターの「起動回数」構成に基づいて、プール メンバーの健全性の状態が更新されます。

マネージャ健全性イベント

NSX Manager 健全性イベントは、NSX Manager ノード クラスタで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
重複した IP アドレス

マネージャ ノードの IP アドレスが別のデバイスによって使用されています。

イベントの検出時:「マネージャ ノード {entity_id} の IP アドレス {duplicate_ip_address} は、ネットワーク内の別のデバイスで使用されています。」

イベントの解決時:「マネージャ ノード {entity_id}{duplicate_ip_address} を使用していません。」

  1. マネージャの IP アドレスを使用しているデバイスを特定し、デバイスに新しい IP アドレスを割り当てます。
    注: 新しい IP アドレスを使用するようにマネージャを再構成することはできません。
  2. 固定 IP アドレス プール/DHCP サーバが正しく構成されていることを確認します。
  3. デバイスの IP アドレスが手動で割り当てられている場合は、その IP アドレスを修正します。
マネージャの CPU 使用率が非常に高い 重大

マネージャ ノードの CPU 使用率が非常に高くなっています。

イベントの検出時:「マネージャ ノード {entity_id} の CPU 使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値に達しているか、超えています。」

イベントの解決時:「マネージャ ノード {entity_id} の CPU 使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値を下回っています。」

このマネージャ ノードの構成、実行中のサービス、サイズを確認してください。

Manager アプライアンスのフォーム ファクタのサイズを調整することを検討してください。

マネージャーの CPU 使用率が高い

NSX-T Data Center 3.0.1 で開始。

マネージャ ノードの CPU 使用率が高くなっています。

イベントの検出時:「マネージャ ノード {entity_id} の CPU 使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値に達しているか、超えています。」

イベントの解決時:「マネージャ ノード {entity_id} の CPU 使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値を下回っています。」

このマネージャ ノードの構成、実行中のサービス、サイズを確認してください。

Manager アプライアンスのフォーム ファクタのサイズを調整することを検討してください。

マネージャのメモリ使用率が非常に高い 重大

NSX-T Data Center 3.0.1 で開始。

マネージャ ノードのメモリ使用率が非常に高くなっています。

イベントの検出時:「マネージャ ノード {entity_id} のメモリ使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値に達しているか、超えています。」

イベントの解決時:「マネージャ ノード {entity_id} のメモリ使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値を下回っています。」

このマネージャ ノードの構成、実行中のサービス、サイズを確認してください。

Manager アプライアンスのフォーム ファクタのサイズを調整することを検討してください。

マネージャーのメモリ使用率が高い

マネージャ ノードのメモリ使用率が高くなっています。

イベントの検出時:「マネージャ ノード {entity_id} のメモリ使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値に達しているか、超えています。」

イベントの解決時:「マネージャ ノード {entity_id} のメモリ使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値を下回っています。」

このマネージャ ノードの構成、実行中のサービス、サイズを確認してください。

Manager アプライアンスのフォーム ファクタのサイズを調整することを検討してください。

マネージャのディスク使用率が非常に高い 重大

マネージャ ノードのディスクの使用率が非常に高くなっています。

イベントの検出時:「マネージャ ノードのディスク パーティション {disk_partition_name} のディスク使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値に達しているか、超えています。」

イベントの解決時:「マネージャ ノードのディスク パーティション {disk_partition_name} のディスク使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値を下回っています。」

使用率の高いパーティションを調べ、削除可能なサイズの大きいファイルがあるか確認します。
マネージャのディスク使用率が高い

マネージャ ノードのディスク使用率が高くなっています。

イベントの検出時:「マネージャ ノードのディスク パーティション {disk_partition_name} のディスク使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値に達しているか、超えています。」

イベントの解決時:「マネージャ ノードのディスク パーティション {disk_partition_name} のディスク使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値を下回っています。」

使用率の高いパーティションを調べ、削除可能なサイズの大きいファイルがあるか確認します。
マネージャの構成ディスクの使用率が非常に高い 重大

マネージャ ノードの config ディスクの使用率が非常に高くなっています。

イベントの検出時:「マネージャ ノードのディスク パーティション /config のディスク使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値に達しているか、超えています。/config/corfu ディレクトリで NSX Datastore サービスが大量のディスクを使用している可能性があります。」

イベントの解決時:「マネージャ ノードのディスク パーティション /config のディスク使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値を下回っています。」

/config パーティションを調べ、削除可能なサイズの大きいファイルがあるか確認します。
マネージャの構成ディスクの使用率が高い

マネージャ ノードの config ディスクの使用率が高くなっています。

イベントの検出時:「マネージャ ノードのディスク パーティション /config のディスク使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値に達しているか、超えています。/config/corfu ディレクトリで NSX Datastore サービスのディスク使用量が増加している可能性があります。」

イベントの解決時:「マネージャ ノードのディスク パーティション /config のディスク使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値を下回っています。」

/config パーティションを調べ、削除可能なサイズの大きいファイルがあるか確認します。

オペレーション DB のディスク使用率が高い

マネージャ ノードのディスク パーティション「/nonconfig」のディスク使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値に達しているか、超えています。/nonconfig/corfu ディレクトリで NSX Datastore サービスのディスク使用量が増加している可能性があります。

/opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig を実行して問題が報告された場合は、VMware サポートにお問い合わせください。

オペレーション DB のディスク使用率が非常に高い 重大

マネージャ ノードのディスク パーティション「/nonconfig」のディスク使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値に達しているか、超えています。/nonconfig/corfu ディレクトリで NSX Datastore サービスのディスク使用量が増加している可能性があります。

/opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig を実行して問題が報告された場合は、VMware サポートにお問い合わせください。

NCP イベント

NSX Container Plug-in (NCP) イベントは、 ESXi ノードと KVM ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
NCP プラグイン停止 重大

マネージャ ノードで NCP がダウンしているか、不良な状態になっています。

イベントの検出時:「マネージャ ノードで NCP がダウンしているか、不良な状態になっています。」

イベントの解決時:「マネージャ ノードで NCP が起動しているか、再び良好な状態になっています。」

問題のあるクラスタを検索するには、NSX API GET /api/v1/systemhealth/container-cluster/ncp/status を呼び出し、すべてのクラスタの状態を取得して、「停止」または「不明」状態のクラスタ名を確認します。

NSX UI で [インベントリ] > [コンテナ] > [クラスタ] ページの順に移動して、「停止」または「不明」状態のクラスタ名を確認し、[ノード] タブをクリックします。ここに、すべての Kubernetes クラスタと PAS クラスタのメンバーが表示されます。

Kubernetes クラスタの場合:
  1. NCP Pod の稼動状態を確認します。クラスタ メンバーから K8s マスター ノードを探してそのノードにログインします。

    kubectl コマンド kubectl get pods --all-namespaces を呼び出します。NCP ポッドに問題がある場合は、kubectl logs コマンドを実行して問題を確認し、エラーを修正してください。

  2. NCP と Kubernetes API サーバの接続を確認します。
    NCP ポッド内で NSX CLI を使用すると、この接続状態を確認できます。確認するには、マスター仮想マシンから次のコマンドを実行します。
    kubectl exec -it <NCP-Pod-Name> -n nsx-system bash
    nsxcli
    get ncp-k8s-api-server status
    接続に問題がある場合は、ネットワークと NCP の両方の構成を確認してください。
  3. NCP と NSX Manager の接続を確認します。
    NCP ポッド内で NSX CLI を使用すると、この接続状態を確認できます。確認するには、マスター仮想マシンから次のコマンドを呼び出します。
    kubectl exec -it <NCP-Pod-Name> -n nsx-system bash nsxcli get ncp-nsx status
    接続に問題がある場合は、ネットワークと NCP の両方の構成を確認してください。
PAS クラスタの場合:
  1. 仮想マシン間のネットワーク接続を確認して、ネットワークの問題を修正します。
  2. ノードとサービスの両方の状態を確認して、クラッシュしたノードまたはサービスを修正します。

    ノードとサービスの状態を確認するには、bosh vms コマンドと bosh instances -p コマンドを呼び出します。

ノード エージェント健全性イベント

ノードエージェント健全性イベントは、 ESXi ノードと KVM ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
ノード エージェント停止

ノード仮想マシン内で実行されているエージェントが停止している可能性があります。

イベントの検出時:「ノード仮想マシン内で実行されているエージェントが停止している可能性があります。」

イベントの解決時:「ノード仮想マシン内のエージェントが実行されています。」

ESX の場合:

  1. Vmk50 が見つからない場合は、ナレッジベースの記事 KB67432を参照してください。
  2. Hyperbus 4094 が見つからない場合:nsx-cfgagent を再起動するか、コンテナ ホスト仮想マシンを再起動すると、問題が解決する場合があります。
  3. コンテナ ホスト VIF がブロックされている場合:接続を確認し、すべての設定が送信されていることを確認してください。
  4. nsx-cfgagent が停止している場合:nsx-cfgagent を再起動してください。

KVM の場合:

  1. Hyperbus 名前空間が見つからない場合:nsx-opsagent を再起動すると、名前空間が再作成される場合があります。
  2. hyperbus 名前空間内に Hyperbus インターフェイスが見つからない場合:nsx-opsagent を再起動すると、問題が解決する場合があります。
  3. nsx-agent が停止している場合:nsx-agentを再起動してください。

ESX と KVM の場合:

  1. node-agent パッケージが見つからない場合:コンテナ ホスト仮想マシンに node-agent パッケージが正常にインストールされていることを確認してください。
  2. コンテナ ホスト仮想マシンで node-agent インターフェイスが停止している場合:コンテナ ホスト仮想マシンの eth1 インターフェイスの状態を確認してください。

パスワード管理イベント

パスワード管理イベントは、NSX ManagerNSX Edge、パブリック ゲートウェイのノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
パスワードの期限切れ 重大

ユーザー パスワードが期限切れです。

イベントの検出時:「ユーザー {username} のパスワードは期限切れになっています。」

イベントの解決時:「ユーザー {username} のパスワードが正常に変更されたか、有効期限の問題が解決されました。」

システムにアクセスするには、ユーザー {username} のパスワードを今すぐ変更する必要があります。たとえば、ユーザーに新しいパスワードを適用するには、要求の本文に有効なパスワードを指定して次の NSX API を呼び出します。

PUT /api/v1/node/users/<userid>

<userid> はユーザーの ID です。管理者ユーザー(<userid> が 10000)のパスワードが期限切れになっている場合は、管理者が SSH(有効な場合)またはコンソールからシステムにログインして、パスワードを変更する必要があります。期限切れのパスワードを入力すると、新しいパスワードを入力するように求められます。

パスワードがまもなく期限切れ

ユーザー パスワードがまもなく期限切れになります。

イベントの検出時:「ユーザー {username} のパスワードはあと {password_expiration_days} 日で期限切れになります。」

イベントの解決時:「ユーザー {username} のパスワードが正常に変更されたか、有効期限の問題が解決されました。」

システムにアクセスするには、{username} で識別されるユーザーのパスワードを今すぐ変更する必要があります。たとえば、ユーザーに新しいパスワードを適用するには、要求の本文に有効なパスワードを指定して次の NSX API を呼び出します。

PUT /api/v1/node/users/<userid>

<userid> はユーザーの ID です。

パスワードがまもなく期限切れ

ユーザー パスワードの期限切れが近づいています。

イベントの検出時:「ユーザー {username} のパスワードはあと {password_expiration_days} 日で期限切れになります。」

イベントの解決時:「ユーザー {username} のパスワードが正常に変更されたか、有効期限の問題が解決されました。」

{username} で識別されるユーザーのパスワードをすぐに変更する必要があります。たとえば、ユーザーに新しいパスワードを適用するには、要求の本文に有効なパスワードを指定して次の NSX API を呼び出します。

PUT /api/v1/node/users/<userid>

<userid> はユーザーの ID です。

ルーティング イベント

イベント名 重要度 アラート メッセージ 推奨アクション
BGP 停止

BGP ネイバーが停止しています。

イベントの検出時:「ルーター {entity_id} で、BGP ネイバー {bgp_neighbor_ip} が停止しています。理由:{failure_reason}。」

イベントの解決時:「ルーター {entity_id} で、BGP ネイバー {bgp_neighbor_ip} が稼動しています。」

  1. SSH で Edge ノードに接続します。
  2. NSX CLI コマンド get logical-routers を呼び出します。
  3. サービス ルーター {sr_id} に切り替えます。
  4. /var/log/syslog で、BGP 接続関連のエラーが報告されているかどうか確認します。

外部インターフェイスの双方向フォワーディング検出 (BFD) 停止

BFD セッションが停止しています。

イベントの検出時:「ルーター {entity_id} で、ピア {peer_address} の BFD セッションが停止しています。」

イベントの解決時:「ルーター {entity_id} で、ピア {peer_address} の BFD セッションが起動しています。」

  1. SSH で Edge ノードに接続します。
  2. NSX CLI コマンド get logical-routers を呼び出します。
  3. サービス ルーター {sr_id} に切り替えます。
  4. NSX CLI コマンド ping <peer_address> を呼び出して、接続を確認します。
ルーティングの停止

すべての BGP/BFD セッションが停止しています。

イベントの検出時:「すべての BGP/BFD セッションが停止しています。」

イベントの解決時:「1 つ以上の BGP/BFD セッションが起動しています。」

  1. NSX CLI コマンド get logical-routers を呼び出して、Tier-0 サービス ルーターを取得します。
  2. Tier-0 サービス ルーターの VRF に切り替えてから、次の NSX CLI コマンドを呼び出します。
    • 接続を確認します。ping <BFD peer IP address>
    • BFD の健全性を確認します。
      get bfd-config 
      get bfd-sessions
    • BGP の健全性を確認します。get bgp neighbor summary
      get bfd neconfig 
      get bfd-sessions
    /var/log/syslog で、BGP 接続関連のエラーが報告されているかどうか確認します。
スタティック ルートの削除

スタティック ルートが削除されました。

イベントの検出時:「ルーター {entity_id} で BFD が停止しているため、スタティック ルート {static_address} が削除されました。」

イベントの解決時:「BFD がリカバリされたため、ルーター {entity_id} でスタティック ルート {static_address} が再度追加されました。」

  1. SSH で Edge ノードに接続します。
  2. NSX CLI コマンド get logical-routers を呼び出します。
  3. サービス ルーター {sr_id} に切り替えます。
  4. NSX CLI コマンドを呼び出して、接続を確認します。
    get bgp neighbor summary
  5. また、NSX と BFD ピアの両方の構成を調べて、タイマーが変更されていないことを確認します。

トランスポート ノードの健全性

トランスポート ノード健全性イベントは、KVM ノードと ESXi ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
LAG メンバーの停止

LACP レポーティング メンバーが停止しています。

イベントの検出時:「LACP レポーティング メンバーが停止しています。」

イベントの解決時:「LACP レポーティング メンバーが起動しています。」

ホストの LAG メンバーの接続状態を確認します。
  1. NSX UI で、[ファブリック] > [ノード] > [トランスポート ノード] > [ホスト トランスポート ノード] の順に移動します。
  2. [ホスト トランスポート ノード] リストで、[ノードの状態] 列を確認します。

    ノードの状態が劣化か停止のトランスポート ノードを特定します。

  3. [<トランスポート ノード>] > [監視] の順に選択します。

    劣化または停止が報告されているボンディング(アップリンク)を確認します。

  4. 障害の発生したホストにログインして、次のコマンドを実行し、LACP メンバーの状態を確認します。
    • ESXi の場合:esxcli network vswitch dvs vmware lacp status get
    • KVM の場合:ovs-appctl bond/showovs-appctl lacp/show
N-VDS アップリンク停止

アップリンクが停止しています。

イベントの検出時:「アップリンクが停止しています。」

イベントの解決時:「アップリンクが起動しています。」

ホストのアップリンクの物理 NIC の状態を確認します。
  1. NSX UI で、[ファブリック] > [ノード] > [トランスポート ノード] > [ホスト トランスポート ノード] の順に移動します。
  2. [ホスト トランスポート ノード] リストで、[ノードの状態] 列を確認します。

    ノードの状態が劣化か停止のトランスポート ノードを特定します。

  3. [<トランスポート ノード>] > [監視] の順に選択します。

    劣化または停止が報告されているボンディング(アップリンク)の状態を確認します。

    劣化状態を回避するには、使用中かどうかにかかわらず、すべてのアップリンク インターフェイスが接続され、稼動状態になっている必要があります。

VPN イベント

VPN イベントは、NSX Edge ノードとパブリック ゲートウェイ ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
IPsec ポリシー ベース セッションの停止

ポリシー ベース IPsec VPN セッションが停止しています。

イベントの検出時:「ポリシー ベース IPsec VPN セッション {entity_id} が停止しています。理由:{session_down_reason}。」

イベントの解決時:「ポリシー ベース IPsec VPN セッション {entity_id} が起動しています。」

IPsec VPN セッションの構成を確認し、セッション停止の理由に応じてエラーを解決します。

IPsec ルート ベース セッションの停止

ルート ベース IPsec VPN セッションが停止しています。

イベントの検出時:「ルート ベース IPsec VPN セッション {entity_id} が停止しています。理由:{session_down_reason}。」

イベントの解決時:「ルート ベース IPsec VPN セッション {entity_id} が起動しています。」

IPsec VPN セッションの構成を確認し、セッション停止の理由に応じてエラーを解決します。

IPsec ポリシー ベース トンネルの停止

ポリシー ベース IPsec VPN トンネルが停止しています。

イベントの検出時:「セッション {entity_id} で、1 つ以上のポリシー ベース IPsec VPN トンネルが停止しています。」

イベントの解決時:「セッション {entity_id} で、すべてのポリシー ベース IPsec VPN トンネルが起動しています。」

IPsec VPN セッションの構成を確認し、トンネル停止の理由に応じてエラーを解決します。

IPsec ルート ベース トンネルの停止

ルート ベース IPsec VPN トンネルが停止しています。

イベントの検出時:「セッション {entity_id} で、1 つ以上のルート ベース IPsec VPN トンネルが停止しています。」

イベントの解決時:「セッション {entity_id} で、すべてのルート ベース IPsec VPN トンネルが起動しています。」

IPsec VPN セッションの構成を確認し、トンネル停止の理由に応じてエラーを解決します。

L2VPN セッションの停止

L2VPN セッションが停止しています。

イベントの検出時:「L2VPN セッション {entity_id} が停止しています。」

イベントの解決時:「L2VPN セッション {entity_id} が起動しています。」

IPsec VPN セッションの構成を確認し、理由に応じてエラーを解決します。