次の表に、アラーム メッセージや解決の推奨アクションなど、アラームをトリガーするイベントについて説明します。重要度が「」より大きいイベントが発生すると、アラームがトリガーされます。

アラーム管理イベント

アラーム管理イベントは、NSX Manager ノードとグローバル マネージャ ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
アラーム サービスの過負荷状態 重大

アラーム サービスが過負荷状態になっています。

イベントの検出時:「大量のアラームが報告されたため、アラーム サービスが一時的に過負荷状態になっています。NSX ユーザー インターフェイスと GET /api/v1/alarm NSX API が新しいアラームの報告を停止しました。Syslog エントリと SNMP トラップ(有効になっている場合)は引き続き送信され、基になるイベントの詳細を報告します。アラームの大量発生の原因となっている問題が解決されると、アラーム サービスが新しいアラームの報告を再開します。」

イベントの解決時:「アラームの大量発生が収まりました。新しいアラームの報告が再開されました。」

NSX ユーザー インターフェイスの [アラーム] ページまたは GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED NSX API を使用して、すべてのアクティブ アラームを確認します。それぞれのアクティブ アラームに対して、アラームの推奨アクションに従い、根本原因を調査します。十分なアラームが解決されると、十分なアラームが解決されると、アラーム サービスが新しいアラームの報告を再開します。

大量のアラーム 重大

特定のタイプのアラームが大量に検出されました。

イベントの検出時:「{event_id} アラームが大量に発生しているため、アラーム サービスはこのタイプのアラームの報告を一時的に停止しています。NSX ユーザー インターフェイスと GET /api/v1/alarms NSX API は、これらのアラームの新しいインスタンスを報告しません。Syslog エントリと SNMP トラップ(有効になっている場合)は引き続き送信され、基になるイベントの詳細を報告します。{event_id} アラームの大量発生の原因となっている問題が解決されると、アラーム サービスが新しい {event_id} アラームの報告を再開します。」

イベントの解決時:「{event_id} アラームの大量発生が収まりました。新しいアラームの報告が再開されました。」

NSX ユーザー インターフェイスの [アラーム] ページまたは GET /api/v1/alarms?status=OPEN,ACKNOWLEDGED,SUPPRESSED NSX API を使用して、すべてのアクティブ アラームを確認します。それぞれのアクティブ アラームに対して、アラームの推奨アクションに従い、根本原因を調査します。十分なアラームが解決されると、十分なアラームが解決されると、アラーム サービスが新しい {event_id} アラームの報告を再開します。

容量イベント

現在のインベントリの特定のカテゴリのオブジェクトが特定のレベルに達すると、次のイベントによってアラームがトリガされることがあります。詳細については、カテゴリごとのオブジェクトの使用量と容量の表示を参照してください。

イベント名 重要度 アラート メッセージ 推奨アクション
最大キャパシティ 重大

オブジェクトのカテゴリの最大キャパシティに達しました。アラームの詳細に、オブジェクトの特定のカテゴリが示されています。

関連する構成を調整して、悪影響を及ぼす可能性のあるものを回避します。

最大キャパシティのしきい値

オブジェクトのカテゴリの最大キャパシティしきい値に達しました。アラームの詳細に、オブジェクトの特定のカテゴリが示されています。

これが予想されるアラームの場合は、関連する構成を調整してアラームを解決してください。予期しないアラームの場合は、オブジェクト カテゴリのしきい値を調整します。

最小キャパシティのしきい値

オブジェクトのカテゴリの最少キャパシティしきい値に達しました。アラームの詳細に、オブジェクトの特定のカテゴリが示されています。

このアラームが予想される場合は、必要に応じて、関連する構成を調整してアラームを解決してください。予期しないアラームの場合は、オブジェクト カテゴリのしきい値を調整します。

証明書イベント

証明書イベントは、NSX Manager ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
期限切れの証明書 重大

証明書が期限切れです。

イベントの検出時:「証明書 {entity-id} が期限切れです。」

イベントの解決時:「期限切れの証明書 {entity-id} が削除されたか、有効期限の問題が解決されました。」

現在、証明書を使用しているサービスが、期限切れでない新しい証明書を使用するように更新されていることを確認します。たとえば、HTTP サービスに新しい証明書を適用するには、次の API 呼び出しを行います。

POST /api/v1/node/services/http?action=apply_certificate&certificate_id=<cert-id>

ここで、<cert-id> は、API 呼び出し GET /api/v1/trust-management/certificates によって報告される有効な証明書の ID です。

期限切れの証明書が使用中でなければ、次の API 呼び出しを使用して、この証明書を削除する必要があります。

DELETE /api/v1/trust-management/certificates/{entity_id}

証明書がまもなく期限切れ

証明書がまもなく期限切れになります。

イベントの検出時:「証明書 {entity-id} はまもなく期限切れになります。」

イベントの解決時:「有効期限の近い証明書 {entity-id} が削除されたか、有効期限の問題が解決されました。」

現在、証明書を使用しているサービスが、有効期限が近くない新しい証明書を使用するように更新されていることを確認します。たとえば、HTTP サービスに新しい証明書を適用するには、次の API 呼び出しを行います。

POST /api/v1/node/services/http?action=apply_certificate&certificate_id=<cert-id>

ここで、<cert-id> は、API 呼び出し GET /api/v1/trust-management/certificates によって報告される有効な証明書の ID です。

期限切れの近い証明書が使用中でなければ、API 呼び出しを使用して、この証明書を削除する必要があります。

DELETE /api/v1/trust-management/certificates/{entity_id}

証明書がまもなく期限切れ

証明書の期限切れが近づいています。

イベントの検出時:「証明書 {entity-id} の期限切れが近づいています。」

イベントの解決時:「有効期限の近い証明書 {entity-id} が削除されたか、有効期限の問題が解決されました。」

現在、証明書を使用しているサービスが、有効期限が近くない新しい証明書を使用するように更新されていることを確認します。たとえば、HTTP サービスに新しい証明書を適用するには、次の API 呼び出しを行います。

POST /api/v1/node/services/http?action=apply_certificate&certificate_id=<cert-id>

ここで、<cert-id> は、API 呼び出し GET /api/v1/trust-management/certificates によって報告される有効な証明書の ID です。

期限切れの近い証明書が使用中でなければ、API 呼び出しを使用して、この証明書を削除する必要があります。

DELETE /api/v1/trust-management/certificates/{entity_id}

CNI 健全性イベント

CNI 健全性イベントは、 ESXi ノードと KVM ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
Hyperbus マネージャの切断

Hyperbus がマネージャ ノードと通信できません。

イベントの検出時:「Hyperbus がマネージャ ノードと通信できません。」

イベントの解決時:「Hyperbus はマネージャ ノードと通信可能です。」

Hyperbus vmkernel インターフェイス (vmk50) が存在しない可能性があります。ナレッジベースの記事 KB67432を参照してください。

DHCP イベント

DHCP イベントは、NSX Edge ノードとパブリック ゲートウェイ ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
プール リースの割り当て失敗

IP プール内の IP アドレスが不足しています。

イベントの検出時:「DHCP サーバ {dhcp_server_id} の IP プール {entity_id} のアドレスがすべて使用されています。最後の DHCP 要求は失敗しています。以降の要求も失敗します。」

イベントの解決時:「DHCP サーバ {dhcp_server_id} の IP プール {entity_id} の問題が解決されました。前回の DHCP 要求にリースが正常に割り当てられています。」

NSX ユーザー インターフェイスまたは DHCP プールの構成を確認します。あるいは、DHCP サーバが実行されている Edge ノードで NSX CLI コマンド get dhcp ip-pool を呼び出し、構成を確認します。

さらに、NSX CLI コマンド get dhcp lease を呼び出して、Edge ノードで現在アクティブなリースを確認します。

リースとアクティブな仮想マシンの数を比較します。アクティブなリースの数と比較して、仮想マシンの数が少ない場合は、DHCP サーバ構成でリース時間を短縮することを検討します。また、NSX ユーザー インターフェイスで [ネットワーク] > [セグメント] > [セグメント] ページの順にアクセスして、DHCP サーバのプール範囲を拡張することを検討します。

プールの状態: 過負荷

IP プールが過負荷状態になっています。

イベントの検出時:「DHCP サーバ {dhcp_server_id} の IP プール {entity_id} の使用率が上限に近づいています。{dhcp_pool_usage}% の IP が割り当てられています。」

イベントの解決時:「DHCP サーバ {dhcp_server_id} の IP プール {entity_id} が使用率の高しきい値を下回りました。」

NSX ユーザー インターフェイスまたは DHCP プールの構成を確認します。あるいは、DHCP サーバが実行されている Edge ノードで NSX CLI コマンド get dhcp ip-pool を呼び出し、構成を確認します。

さらに、NSX CLI コマンド get dhcp lease を呼び出して、Edge ノードで現在アクティブなリースを確認します。

リースとアクティブな仮想マシンの数を比較します。アクティブなリースの数と比較して、仮想マシンの数が少ない場合は、DHCP サーバ構成でリース時間を短縮することを検討します。また、NSX ユーザー インターフェイスで [ネットワーク] > [セグメント] > [セグメント] ページの順にアクセスして、DHCP サーバのプール範囲を拡張することを検討します。

分散ファイアウォール イベント

分散ファイアウォールイベントは、NSX Manager ノードまたは ESXi ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
分散ファイアウォールの CPU 使用率が非常に高い 重大

分散ファイアウォールの CPU 使用率が非常に高くなっています。

イベントの検出時:「トランスポート ノード {entity_id} の DFW の CPU 使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値に達しているか、超えています。」

イベントの解決時:「DNS フォワーダ {entity_id} が再度実行されています。」

このホストと他のホストの間で仮想マシン ワークロードのリバランシングを行うことを検討してください。

最適化でのセキュリティ設計を確認してください。たとえば、ルールがデータセンター全体に適用されない場合は、適用先の構成を使用します。

分散ファイアウォールのメモリ使用率が非常に高い 重大

分散ファイアウォールのメモリ使用率が非常に高くなっています。

イベントの検出時:「トランスポート ノード {entity_id} の DFW のメモリ使用率 {heap_type}{system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値に達しているか、超えています。」

イベントの解決時:「トランスポート ノード {entity_id} の DFW のメモリ使用率 {heap_type}{system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値を下回っています。」

ホストで NSX CLI コマンド get firewall thresholds を呼び出して、現在の DFW のメモリ使用率を確認します。

このホストと他のホストの間でワークロードのリバランシングを行うことを検討してください。

DNS イベント

DNS イベントは、NSX Edge ノードとパブリック ゲートウェイ ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
フォワーダ: 停止

DNS フォワーダが停止しています。

イベントの検出時:「DNS フォワーダ {entity_id} が実行されていません。これは、現在有効になっている構成済みのすべての DNS フォワーダに影響します。」

イベントの解決時:「DNS フォワーダ {entity_id} が再度実行されています。」

  1. NSX CLI コマンド get dns-forwarders status を呼び出し、DNS フォワーダが停止状態かどうかを確認します。
  2. /var/log/syslog で、エラーが報告されているかどうか確認します。
  3. サポート バンドルを収集して、NSX サポート チームに連絡してください。
フォワーダ: 無効

DNS フォワーダが無効になっています。

イベントの検出時:「DNS フォワーダ {entity_id} が無効になっています。」

イベントの解決時:「DNS フォワーダ {entity_id} が有効になっています。」

  1. NSX CLI コマンド get dns-forwarders status を呼び出し、DNS フォワーダが無効になっているかどうかを確認します。
  2. NSX ポリシー API またはマネージャ API を使用して、DNS フォワーダを有効にします。これは、無効な状態にしておくことはできません。

Edge 健全性イベント

Edge 健全性イベントは、NSX Edge ノードとパブリック ゲートウェイ ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
Edge の CPU 使用率が非常に高い 重大

Edge ノードの CPU 使用率が非常に高くなっています。

イベントの検出時:「Edge ノード {entity_id} の CPU 使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値に達しているか、超えています。」

イベントの解決時:「Edge ノード {entity_id} の CPU 使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値を下回っています。」

この Edge ノードの構成、実行中のサービス、サイズを確認してください。ワークロードに合わせて Edge アプライアンスのフォーム ファクタのサイズを調整するか、他の Edge ノードの間でサービスのリバランシングを行うことを検討してください。
Edge の CPU 使用率が高い

Edge ノードの CPU 使用率が高くなっています。

イベントの検出時:「Edge ノード {entity-id} の CPU 使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値に達しているか、超えています。」

イベントの解決時:「Edge ノード {entity_id} の CPU 使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値を下回っています。」

この Edge ノードの構成、実行中のサービス、サイズを確認してください。ワークロードに合わせて Edge アプライアンスのフォーム ファクタのサイズを調整するか、他の Edge ノードの間でサービスのリバランシングを行うことを検討してください。
Edge データパスの構成エラー

Edge ノードのデータパスの構成に失敗しました。

イベントの検出時:「3 回試行しましたが、Edge ノードでデータパスを有効にできませんでした。」

イベントの解決時:「Edge ノードのデータパスが有効になりました。」

マネージャ ノードと Edge ノードの接続が良好であることを確認します。

サービスの健全性を確認するには、Edge ノードの NSX CLI から get services コマンドを呼び出します。

データプレーン サービスが停止している場合は、start service dataplane コマンドを呼び出してサービスを再起動します。

Edge データパスの CPU 使用率が非常に高い 重大

Edge ノードのデータパスの CPU 使用率が非常に高くなっています。

イベントの検出時:「Edge ノード {entity-id} でデータパスの CPU 使用率が {datapath_resource_usage}% になりました。超高しきい値に達しているか、超えている状態が少なくとも 2 分間続いています。」

イベントの解決時:「Edge ノード {entity-id} でデータパスの CPU 使用率が許容しきい値より低くなっています。」

NSX CLI コマンド get dataplane cpu stats を呼び出して CPU コアあたりのパケット レートを表示し、Edge ノードの CPU 統計情報を確認します。

パケット レートが高いと CPU 使用率が高い可能性があります。

Edge アプライアンスのフォーム ファクタのサイズを大きくし、同じクラスタの他の Edge ノードまたは別の Edge クラスタとの間でこの Edge ノードのサービスをリバランシングすることを検討してください。

Edge データパスの CPU 使用率が高い

Edge ノードのデータパスの CPU 使用率が高くなっています。

イベントの検出時:「Edge ノード {entity-id} でデータパスの CPU 使用率が {datapath_resource_usage}% になりました。高しきい値に達しているか、超えている状態が少なくとも 2 分間続いています。」

イベントの解決時:「Edge ノード {entity-id} の CPU 使用率が高しきい値を下回りました。」

NSX CLI コマンド get dataplane cpu stats を呼び出して CPU コアあたりのパケット レートを表示し、Edge ノードの CPU 統計情報を確認します。

パケット レートが高いと CPU 使用率が高い可能性があります。

Edge アプライアンスのフォーム ファクタのサイズを大きくし、同じクラスタの他の Edge ノードまたは別の Edge クラスタとの間でこの Edge ノードのサービスをリバランシングすることを検討してください。

Edge データバスの暗号ドライバが停止 重大

Edge ノードでデータパスの暗号ドライバが停止しています。

イベントの検出時:「Edge ノードの暗号ドライバが停止しています。」

イベントの解決時:「Edge ノードの暗号ドライバが起動しています。」

必要に応じて、Edge ノードをアップグレードします。

Edge データパスのメモリ プールの使用率が高い

Edge ノードのデータパス メモリ プールの使用率が高くなっています。

イベントの検出時:「Edge ノード {entity-id}{mempool_name} のデータパス メモリ プールの使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値に達しているか、超えています。」

イベントの解決時:「Edge ノード {entity-id}{mempool_name} のデータパス メモリ プールの使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値を下回っています。」

root ユーザーとしてログインし、edge-appctl -t /var/run/vmware/edge/dpd.ctl mempool/show コマンドと edge-appctl -t /var/run/vmware/edge/dpd.ctl memory/show malloc_heap コマンドを呼び出して、DPDK のメモリ使用率を確認します。
Edge のディスク使用率が非常に高い 重大

Edge ノードのディスク使用率が非常に高くなっています。

イベントの検出時:「Edge ノードのディスク パーティション {disk_partition_name} のディスク使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値に達しているか、超えています。」

イベントの解決時:「Edge ノードのディスク パーティション {disk_partition_name} のディスク使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値を下回っています。」

使用率の高いパーティションを調べ、削除可能なサイズの大きいファイルがあるか確認します。
Edge のディスク使用率が高い

Edge ノードのディスク使用率が高くなっています。

イベントの検出時:「Edge ノードのディスク パーティション {disk_partition_name} のディスク使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値に達しているか、超えています。」

イベントの解決時:「Edge ノードのディスク パーティション {disk_partition_name} のディスク使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値を下回っています。」

使用率の高いパーティションを調べ、削除可能なサイズの大きいファイルがあるか確認します。
Edge グローバル ARP テーブルの使用率が高い

Edge ノードのグローバル ARP テーブルの使用率が高くなっています。

イベントの検出時:「Edge ノード {entity-id} でグローバル ARP テーブルの使用率が {datapath_resource_usage}% になりました。高しきい値に達しているか、超えている状態が 2 分以上続いています。」

イベントの解決時:「Edge ノード {entity-id} でグローバル ARP テーブルの使用率が高しきい値を下回りました。」

ARP テーブル サイズを大きくします。
  1. root ユーザーとしてログインします。
  2. edge-appctl -t /var/run/vmware/edge/dpd.ctl neigh/show コマンドを呼び出します。
  3. neigh キャッシュの使用率が正常かどうか確認します。
    1. 正常な場合は、edge-appctl -t /var/run/vmware/edge/dpd.ctl neigh/set_param max_entries コマンドを呼び出し、ARP テーブル サイズを大きくします。
Edge のメモリ使用率が非常に高い 重大

Edge ノードのメモリ使用率が非常に高くなっています。

イベントの検出時:「Edge ノード {entity_id} のメモリ使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値に達しているか、超えています。」

イベントの解決時:「Edge ノード {entity_id} のメモリ使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値を下回っています。」

この Edge ノードの構成、実行中のサービス、サイズを確認してください。ワークロードに合わせて Edge アプライアンスのフォーム ファクタのサイズを調整するか、他の Edge ノードの間でサービスのリバランシングを行うことを検討してください。
Edge のメモリ使用率が高い

Edge ノードのメモリ使用率が高くなっています。

イベントの検出時:「Edge ノード {entity-id} のメモリ使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値に達しているか、超えています。」

イベントの解決時:「Edge ノード {entity_id} のメモリ使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値を下回っています。」

この Edge ノードの構成、実行中のサービス、サイズを確認してください。ワークロードに合わせて Edge アプライアンスのフォーム ファクタのサイズを調整するか、他の Edge ノードの間でサービスのリバランシングを行うことを検討してください。
Edge NIC リンクの停止状態 重大

Edge ノードの NIC リンクが停止しています。

イベントの検出時:「Edge ノードの NIC {edge_nic_name} リンクが停止しています。」

イベントの解決時:「Edge ノードの NIC {edge_nic_name} リンクが稼動しています。」

NSX CLI コマンド get interfaces を呼び出し、Edge ノードで NIC リンクが物理的に停止しているかどうかを確認します。

停止している場合は、ケーブル接続を確認します。

Edge NIC の受信バッファの不足 重大

Edge ノードの NIC 受信記述子リング バッファに空き容量がありません。

イベントの検出時:「Edge ノード {entity-id} で Edge NIC {edge_nic_name} の受信リング バッファが 60 秒以上 {rx_ring_buffer_overflow_percentage}% オーバーフローしています。」

イベントの解決時:「Edge ノード {entity-id} で Edge NIC {edge_nic_name} の受信リング バッファのオーバーフローが解決されました。」

NSX CLI コマンド get dataplane を呼び出し、次の操作を行います。
  1. PPS と CPU 使用率が高いかどうか確認します。get dataplane | find ring-size rx を使用して、RX リング サイズを確認します。
    • PPS と CPU の値が高く、RX リングのサイズが小さい場合は set dataplane ring-size rx <ring-size> を呼び出し、着信パケットを格納できるように set <ring-size> に高い値を設定します。
    • 上の条件を満たしていない場合(リング サイズが大きく、CPU 使用率も高い場合)、データプレーン処理のオーバーヘッドによる遅延が原因になっている可能性があります。
Edge NIC の送信バッファの不足 重大

Edge ノードの NIC 送信記述子リング バッファに空き容量がありません。

イベントの検出時:「Edge ノード {entity-id} で Edge NIC {edge_nic_name} の送信リング バッファが 60 秒以上 {tx_ring_buffer_overflow_percentage}% オーバーフローしています。」

イベントの解決時:「Edge ノード {entity-id} で Edge NIC {edge_nic_name} の送信リング バッファのオーバーフローが解決されました。」

NSX CLI コマンド get dataplane を呼び出し、次の操作を行います。
  1. PPS と CPU 使用率が高いかどうか確認します。get dataplane | find ring-size tx を使用して、RX リング サイズを確認します。
    • PPS と CPU の値が高く、RX リングのサイズが小さい場合は set dataplane ring-size tx <ring-size> を呼び出し、発信パケットを格納できるように set <ring-size> に高い値を設定します。
    • 上の条件を満たしていない場合(リング サイズが大きく、CPU 使用率が低いか通常の場合)、ハイパーバイザーの送信リング サイズの設定が原因になっている可能性があります。
ストレージ エラー 重大

NSX-T Data Center 3.0.1 で開始。

Edge ノードの次のディスク パーティションは読み取り専用モードです: {disk_partition_name}

再起動で問題が解決されたかどうか読み取り専用パーティションを確認します。問題が解決していない場合は、ディスクの交換が必要になります。ナレッジベースの記事 https://kb.vmware.com/s/article/2146870 を参照してください。

エンドポイント保護イベント

エンドポイント保護イベントは、NSX Manager ノードまたは ESXi ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
EAM の状態: 停止 重大

コンピュート マネージャの ESX Agent Manager (EAM) サービスが停止しています。

イベントの検出時:「コンピュート マネージャ {entity_id} の ESX Agent Manager (EAM) サービスが停止しています。」

イベントの解決時:「コンピュート マネージャ {entity_id} の ESX Agent Manager (EAM) サービスが起動しているか、コンピュート マネージャ {entity_id} が削除されています。」

ESX Agent Manager (EAM) サービスを再起動します。
  • SSH で vCenter Server ノードに接続し、次のコマンドを実行します。
    service vmware-eam start
パートナー チャネル: 停止 重大

ホスト モジュールとパートナー サービス仮想マシンの接続が停止しています。

イベントの検出時:「ホスト モジュールとパートナー SVM {entity_id} の接続が停止しています。」

イベントの解決時:「ホスト モジュールとパートナー SVM {entity_id} の接続が開始しています。」

ナレッジベースの記事 KB2148821Troubleshooting NSX Guest Introspectionを参照して、{entity_id} で識別されるパートナー サービス仮想マシンがホスト モジュールに再接続されていることを確認してください。

高可用性イベント

高可用性イベントは、NSX Edge ノードと Public Cloud Gateway ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
Tier-0 ゲートウェイのフェイルオーバー

Tier-0 ゲートウェイがフェイルオーバーしました。

イベントの検出時:「Tier-0 ゲートウェイ {entity-id} は、{previous_gateway_state} から {current_gateway_state} にフェイルオーバーされました。」

イベントの解決時:「Tier-0 ゲートウェイ {entity-id} が起動しました。」

停止しているサービスを確認して再起動します。
  1. NSX CLI コマンド get logical-routers を実行して、Tier-0 VRF ID を特定します。
  2. vrf <vrf-id> を実行して、VRF コンテキストに切り替えます。
  3. get high-availability status を実行して、停止しているサービスを確認します。
Tier-1 ゲートウェイのフェイルオーバー

Tier-1 ゲートウェイがフェイルオーバーしました。

イベントの検出時:「Tier-1 ゲートウェイ {entity-id} は、{previous_gateway_state} から {current_gateway_state} にフェイルオーバーされました。」

イベントの解決時:「Tier-1 ゲートウェイ {entity-id} が起動しました。」

停止しているサービスを確認して再起動します。
  1. NSX CLI コマンド get logical-routers を実行して、Tier-1 VRF ID を特定します。
  2. vrf <vrf-id> を実行して、VRF コンテキストに切り替えます。
  3. get high-availability status を実行して、停止しているサービスを確認します。

インフラストラクチャ通信イベント

インフラストラクチャ通信イベントは、NSX Edge、KVM、ESXi、パブリック ゲートウェイのノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
Edge トンネル: 停止 重大

Edge ノードのトンネル状態が「停止」になっています。

イベントの検出時:「Edge ノード {entity_id} のトンネルの全体的な状態が「停止」となっています。」

イベントの解決時:「Edge ノード {entity_id} のトンネルがリストアされました。」

  1. SSH を使用して、Edge ノードにログインします。
  2. 状態を取得します。
    nsxcli get tunnel-ports
  3. 各トンネルで、ドロップの統計を確認します。
    get tunnel-port <UUID> stats
  4. Syslog ファイルでトンネル関連のエラーを確認します。

インフラストラクチャ サービス イベント

インフラストラクチャ サービス イベントは、NSX Edge ノードとパブリック ゲートウェイ ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
Edge サービスの状態: 停止 重大

Edge サービスが少なくとも 1 分間停止しています。

イベントの検出時:「サービス {edge_service_name} が少なくとも 1 分間停止しています。」

イベントの解決時:「サービス {edge_service_name} は起動しています。」

Edge ノードで、/var/log/core ディレクトリにあるコア ダンプ ファイルをチェックし、エラーが原因でサービスが終了していないことを確認します。

サービスが停止しているかどうかを確認するには、NSX CLI コマンド get services を呼び出します。

停止している場合は、start service <service-name> を実行してサービスを再起動します。

Edge サービスの状態変更 Low

Edge サービスの状態が変更されました。

イベントの検出時:「サービス {edge_service_name}{previous_service_state} から {current_service_state} に変更されました。」

イベントの解決時:「サービス {edge_service_name}{previous_service_state} から {current_service_state} に変更されました。」

Edge ノードで、/var/log/core ディレクトリにあるコア ダンプ ファイルをチェックし、エラーが原因でサービスが終了していないことを確認します。

サービスが停止しているかどうかを確認するには、NSX CLI コマンド get services を呼び出します。

停止している場合は、start service <service-name> を実行してサービスを再起動します。

Intelligence 通信イベント

NSX Intelligence 通信イベントは、NSX Manager ノード、ESXi ノード、NSX Intelligence アプライアンスで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
トランスポート ノードのフロー エクスポータの切断

トランスポート ノードは、Intelligence ノードのメッセージング ブローカから切断されています。データ収集が影響を受けます。

イベントの検出時:「トランスポート ノード {entity-id} のフロー エクスポータが Intelligence ノードのメッセージング ブローカから切断されています。データ収集が影響を受けます。」

イベントの解決時:「トランスポート ノード {entity-id} 上のフロー エクスポータが、Intelligence ノードのメッセージング ブローカに再接続しました。」

  1. NSX Intelligence ノードで実行されていない場合は、メッセージング サービスを再起動します。
  2. トランスポート ノードのフロー エクスポータと NSX Intelligence ノード間のネットワーク接続の障害を解決します。
制御チャネルからトランスポート ノードへの接続が停止 重大 制御チャネルからトランスポート ノードへの接続が停止しています。

イベントの検出時:コントローラ サービス central_control_plane_id からトランスポート ノード {entity-id} への接続が停止しています。コントローラ サービス側からみると、少なくとも 3 分間停止しています。

イベントの解決時:コントローラ サービス central_control_plane_id で、トランスポート ノード {entity-id} との接続がリストアされました。

  1. ping コマンドを実行して、コントローラ サービス central_control_plane_id からトランスポート ノード {entity-id} インターフェイスへの接続を確認します。ping に失敗した場合は、ネットワーク接続を確認します。
  2. netstat の出力で、コントローラ サービス {central_control_plane_id} がポート 1235 で接続を待機しているかどうか確認し、TCP 接続が確立しているかどうか調べます。確立していない場合は、ファイアウォール ルールまたは iptables ルールを調べて、ポート 1235 でトランスポート ノード {entity_id} の接続要求がブロックされているかどうか確認します。アンダーレイのホスト ファイアウォールまたはネットワーク ファイアウォールによって、マネージャ ノードとトランスポート ノード間で必要な IP ポートがブロックされていないことを確認します。ポートとプロトコル ツールの詳細については、https://ports.vmware.com/を参照してください。
  3. トランスポート ノード {entity_id} がまだメンテナンス モードになっている可能性があります。トランスポート ノードがメンテナンス モードかどうか確認するには、次の API を使用します。

    GET https://<nsx-mgr>/api/v1/transport-nodes/<tn-uuid>

    メンテナンス モードになっていると、トランスポート ノードはコントローラ サービスに接続しません。通常、ホストのアップグレードが進行中の場合、このモードに設定されています。数分たってから、接続を再度確認してください。
    注: このアラームは重大で、解決する必要があります。しばらくしても解決されない場合は、このアラームの通知を VMware のサポートに連絡してください。

制御チャネルからトランスポート ノードへの接続が長時間停止

警告

制御チャネルからトランスポート ノードへの接続が長時間停止しています。

イベントの検出時:コントローラ サービス central_control_plane_id からトランスポート ノード {entity-id} への接続が停止しています。コントローラ サービス側からみると、少なくとも 15 分間停止しています。

イベントの解決時:コントローラ サービス central_control_plane_id で、トランスポート ノード {entity-id} との接続がリストアされました。

  1. ping コマンドを実行して、コントローラ サービス central_control_plane_id からトランスポート ノード {entity-id} インターフェイスへの接続を確認します。ping に失敗した場合は、ネットワーク接続が不安定かどうか確認します。
  2. netstat の出力で、コントローラ サービス {central_control_plane_id} がポート 1235 で接続を待機しているかどうか確認し、TCP 接続が確立しているかどうか調べます。確立していない場合は、ファイアウォール ルールまたは iptables ルールを調べて、ポート 1235 でトランスポート ノード {entity_id} の接続要求がブロックされているかどうか確認します。アンダーレイのホスト ファイアウォールまたはネットワーク ファイアウォールによって、マネージャ ノードとトランスポート ノード間で必要な IP ポートがブロックされていないことを確認します。ポートとプロトコル ツールの詳細については、https://ports.vmware.com/を参照してください。
  3. トランスポート ノード {entity_id} がまだメンテナンス モードになっている可能性があります。トランスポート ノードがメンテナンス モードかどうか確認するには、次の API を使用します。

    GET https://<nsx-mgr>/api/v1/transport-nodes/<tn-uuid>

    メンテナンス モードになっていると、トランスポート ノードはコントローラ サービスに接続しません。通常、ホストのアップグレードが進行中の場合、このモードに設定されています。数分たってから、接続を再度確認してください。

Intelligence 健全性イベント

NSX Intelligence 健全性イベントは、NSX Manager ノードと NSX Intelligence アプライアンスで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
CPU 使用率が非常に高い 重大

Intelligence ノードの CPU 使用率が非常に高くなっています。

イベントの検出時:「NSX Intelligence ノード {intelligence_node_id} の CPU 使用率が {system_usage_threshold}% の超高しきい値を超えています。」

イベントの解決時:「NSX Intelligence ノード {intelligence_node_id} の CPU 使用率が {system_usage_threshold}% の超高しきい値を下回っています。」

top コマンドを使用して、メモリ使用率が最も高いプロセスを確認します。次に、/var/log/syslog とこれらのプロセスのローカル ログを確認して、未解決のエラーがないか確認します。

CPU 使用率が高い

Intelligence ノードの CPU 使用率が高くなっています。

イベントの検出時:「NSX Intelligence ノード {intelligence_node_id} の CPU 使用率が {system_usage_threshold}% の高しきい値を超えています。」

イベントの解決時:「NSX Intelligence ノード {intelligence_node_id} の CPU 使用率が {system_usage_threshold}% の高しきい値を下回っています。」

top コマンドを使用して、メモリ使用率が最も高いプロセスを確認します。次に、/var/log/syslog とこれらのプロセスのローカル ログを確認して、未解決のエラーがないか確認します。

メモリ使用率が非常に高い 重大

Intelligence ノードのメモリ使用率が非常に高くなっています。

イベントの検出時:「NSX Intelligence ノード {intelligence_node_id} のメモリ使用率が {system_usage_threshold}% の超高しきい値を超えています。」

イベントの解決時:「NSX Intelligence ノード {intelligence_node_id} のメモリ使用率が {system_usage_threshold}% の超高しきい値を下回っています。」

top コマンドを使用して、メモリ使用率が最も高いプロセスを確認します。次に、/var/log/syslog とこれらのプロセスのローカル ログを確認して、未解決のエラーがないか確認します。

メモリ使用率が高い

Intelligence ノードのメモリ使用率が高くなっています。

イベントの検出時:「NSX Intelligence ノード {intelligence_node_id} のメモリ使用率が {system_usage_threshold}% の高しきい値を超えています。」

イベントの解決時:「NSX Intelligence ノード {intelligence_node_id} のメモリ使用率が {system_usage_threshold}% の高しきい値を下回っています。」

top コマンドを使用して、メモリ使用率が最も高いプロセスを確認します。次に、/var/log/syslog とこれらのプロセスのローカル ログを確認して、未解決のエラーがないか確認します。

ディスク使用率が非常に高い 重大

Intelligence ノードのディスク使用率が非常に高くなっています。

イベントの検出時:「NSX Intelligence ノード {intelligence_node_id} で、ディスク パーティション {disk_partition_name} のディスク使用率が {system_usage_threshold}% の超高しきい値を超えています。」

イベントの解決時:「NSX Intelligence ノード {intelligence_node_id} で、ディスク パーティション {disk_partition_name} のディスク使用率が {system_usage_threshold}% の超高しきい値を下回っています。」

ディスク パーティション {disk_partition_name} を調べ、削除可能なサイズの大きいファイルがあるか確認します。
ディスク使用率が高い

Intelligence ノードのディスク使用率が高くなっています。

イベントの検出時:「NSX Intelligence ノード {intelligence_node_id} で、ディスク パーティション {disk_partition_name} のディスク使用率が {system_usage_threshold}% の高しきい値を超えています。」

イベントの解決時:「NSX Intelligence ノード {intelligence_node_id} で、ディスク パーティション {disk_partition_name} のディスク使用率が {system_usage_threshold}% の高しきい値を下回っています。」

ディスク パーティション {disk_partition_name} を調べ、削除可能なサイズの大きいファイルがあるか確認します。
データ ディスク パーティションの使用率が非常に高い 重大

Intelligence ノードのデータ ディスク パーティションの使用率が非常に高くなっています。

イベントの検出時:「NSX Intelligence ノード {intelligence_node_id} で、ディスク パーティション /data のディスク使用率が {system_usage_threshold}% の超高しきい値を超えています。」

イベントの解決時:「NSX Intelligence ノード {intelligence_node_id} で、ディスク パーティション /data のディスク使用率が {system_usage_threshold}% の超高しきい値を下回っています。」

ディスク使用率がしきい値を下回るまで NSX Intelligence のデータ収集を停止します。

NSX ユーザー インターフェイスで、[システム] > [アプライアンス] > [NSX Intelligence アプライアンス] の順に移動します。次に [アクション] > [データ収集の停止] の順に選択します。

データ ディスク パーティションの使用率が高い

Intelligence ノードのデータ ディスク パーティションの使用率が高くなっています。

イベントの検出時:「NSX Intelligence ノード {intelligence_node_id} で、ディスク パーティション /data のディスク使用率が {system_usage_threshold}% の高しきい値を超えています。」

イベントの解決時:「NSX Intelligence ノード {intelligence_node_id} で、ディスク パーティション /data のディスク使用率が {system_usage_threshold}% の高しきい値を下回っています。」

ディスク使用率がしきい値を下回るまで NSX Intelligence のデータ収集を停止します。

/data パーティションを調べ、削除可能なサイズの大きいファイルがあるか確認します。

ノードの状態:劣化

Intelligence ノードの状態が「劣化」になっています。

イベントの検出時:「NSX Intelligence ノード {intelligence_node_id} のサービス {service_name} が実行されていません。」

イベントの解決時:「NSX Intelligence ノード {intelligence_node_id} のサービス {service_name} が正常に実行されています。」

NSX Intelligence ノードで NSX CLI コマンド get services を実行し、サービスの状態と健全性情報を確認します。

NSX CLI コマンド restart service <service-name> を使用して、予期せず停止したサービスを再起動します。

IP アドレス管理イベント

IP アドレス管理 (IPAM) イベントは NSX Manager ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
IP ブロックの使用率が非常に高い 警告

IP ブロックの IP サブネットの使用率が 90% に達しました。

イベントの検出時:「<intent_path> の IP ブロック使用率が非常に高くなっています。IP ブロックの合計容量に近づいています。IP ブロックを使用したサブネットの作成が失敗する可能性があります。」

イベントの解決時:

メッセージはありません。

  • IP ブロックの使用状況を確認します。リソースの作成に新しい IP ブロックを使用するか、IP ブロックから未使用の IP サブネットを削除します。IP ブロックで使用されているサブネットを確認するには:
    1. NSX UI で [ネットワーク] > [IP アドレス プール] > [IP アドレス プール] タブの順に移動します。
    2. IP ブロックが使用されている IP プールを選択します。[サブネット][割り当てられた IP] 列を確認します。
    3. 割り当てがなく、今後使用する予定がない場合は、サブネットまたは IP プールを削除します。
  • 次の API を使用して、IP ブロックが IP プールで使用中かどうか確認します。また、IP の割り当ても確認します。
    • IP プールの構成済みサブネットを取得するには、次の NSX API を呼び出します。

      GET /policy/api/v1/infra/ip-pools/<ip-pool>/ip-subnets

    • IP 割り当てを取得するには、次の NSX API を呼び出します。

      GET /policy/api/v1/infra/ip-pools/<ip-pool>/ip-allocations

注: IP プールまたはサブネットの削除は、割り当て済みの IP がなく、今後使用する予定がない場合にのみ行ってください。
IP プールの使用率が非常に高い 警告

IP プールの IP 割り当ての使用率が 90% に達しました。

イベントの検出時:「<intent_path> の IP プール使用率が非常に高くなっています。IP プールの合計容量に近づいています。IP プールから割り振られた IP に依存するエンティティ/サービスの作成が失敗する可能性があります。」

イベントの解決時:

メッセージはありません。

IP プールの使用状況を確認します。IP プールから未使用の IP 割り当てを解放するか、新しい IP プールを作成します。

  1. NSX UI で [ネットワーク] > [IP アドレス プール] > [IP アドレス プール] タブの順に移動します。
  2. IP プールを選択して、[割り当てられた IP] 列を確認します。ここには、IP プールから割り当てられた IP が表示されます。

未使用の IP は解放できます。未使用の IP 割り当てを解放するには、次の NSX API を呼び出します。

DELETE /policy/api/v1/infra/ip-pools/<ip-pool>/ip-allocations/<ip-allocation>

ライセンス イベント

ライセンス イベントは、NSX Manager ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
ライセンスの期限切れ 重大

ライセンスが期限切れです。

イベントの検出時:「タイプ {license_edition_type} のライセンスが期限切れです。」

イベントの解決時:「タイプ {license_edition_type} の期限切れ証明書が削除されたか、有効期限の問題が解決されました。」

期限切れでない新しいライセンスを追加します。
  1. NSX ユーザー インターフェイスで、[システム] > [ライセンス] の順に移動します。
  2. [追加] をクリックして、新しいライセンスのキーを指定します。
  3. チェックボックスをオンにして [割り当て解除] をクリックし、期限切れライセンスを削除します。
ライセンスがまもなく期限切れ

イベントの検出時:「タイプ {license_edition_type} のライセンスがまもなく期限切れになります。」

イベントの解決時:「{license_edition_type} の有効期限の近いライセンスが削除されたか、有効期限の問題が解決されました。」

期限切れでない新しいライセンスを追加します。
  1. NSX ユーザー インターフェイスで、[システム] > [ライセンス] の順に移動します。
  2. [追加] をクリックして、新しいライセンスのキーを指定します。
  3. チェックボックスをオンにして [割り当て解除] をクリックし、期限切れライセンスを削除します。

ロード バランサ イベント

ロード バランサ イベントは、NSX Edge ノードまたは NSX Manager ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
LB の CPU 使用率が非常に高い

ロード バランサの CPU 使用率が非常に高くなっています。

イベントの検出時:「ロード バランサ {entity_id} の CPU 使用率が非常に高くなっています。しきい値は {system_usage_threshold}% です。」

イベントの解決時:「ロード バランサ {entity_id} の CPU 使用率が十分に低くなっています。しきい値は {system_usage_threshold}% です。」

ロード バランサの CPU 使用率が {system_usage_threshold}% を超えている場合、このロード バランサのワークロードが高すぎます。

ロード バランサのサイズを small から medium または medium から large に変更して、ロードバランサ サービスのサイズを変更します。

このロード バランサの CPU 使用率が高い場合は、ワークロードに合わせて Edge アプライアンスのフォーム ファクタのサイズを調整するか、ロード バランサ サービスを他の Edge ノードに移動することを検討してください。

仮想サーバの状態: 停止

ロード バランサの仮想サービスが停止しています。

イベントの検出時:「ロード バランサの仮想サーバ {entity_id} が停止しています。」

イベントの解決時:「ロード バランサの仮想サーバ {entity_id} が起動しています。」

ロード バランサ プールの状態と構成を確認します。

正しく設定されていない場合は、再設定を行い、仮想サーバからロード バランサ プールを削除し、仮想サーバに再度追加します。

プールの状態: 停止

イベントの検出時:「ロード バランサ プール {entity_id} の状態が「停止」になっています。」

イベントの解決時:「ロード バランサ プール {entity_id} の状態が「起動中」になっています。」

  1. ロード バランサ プールで停止しているメンバーを確認します。
  2. ロード バランサから問題のプール メンバーへのネットワーク接続を確認します。
  3. 各プール メンバーのアプリケーションの健全性を確認します。
  4. 構成済みのモニターを使用して、各プール メンバーの健全性を確認します。

メンバーの健全性が確認されると、モニターの「起動回数」構成に基づいて、プール メンバーの健全性の状態が更新されます。

LB の状態: 劣化

イベントの検出時:「ロード バランサ サービス {entity_id} が劣化しています。」

イベントの解決時:「ロード バランサ サービス {entity_id} は劣化していません。」

  • 中央のロード バランサの場合:
    1. スタンバイ Edge ノードで、次の NSX CLI コマンドを呼び出して、ロード バランサの状態を確認します。

      get load-balancer <lb-uuid> status
    2. ロード バランサ サービスの LB 状態が not_ready の場合、または出力がない場合は、Edge ノードをメンテナンス モードに切り替え、その後、メンテナンス モードを終了します。
  • 分散ロード バランサの場合:
  1. 次の NSX API を呼び出して、詳細な状態を取得します。

    GET /policy/api/v1/infra/lb-services/<LBService>/detailed-status?source=realtime
  2. API の出力から、状態が NOT_READY または CONFLICT で instance_number が 0 以外の ESXi ホストを探します。
  3. ESXi ホスト ノードで、次の NSX CLI コマンドを呼び出します。

    get load-balancer <lb-uuid> status

    LSP の競合が報告された場合は、この LSP が別のロード バランサ サービスに接続しているかどうか確認し、この競合が許容されるかどうか判断します。

    「Not Ready LSP」が返されている場合は、次の NSX CLI コマンドを呼び出して、この LSP の状態を確認します。

    get logical-switch-port status

DLB の状態:停止

重大

イベントの検出時:「分散ロード バランサ サービス {entity_id} が停止しています。」

イベントの解決時:「分散ロード バランサ サービス {entity_id} が起動しています。」

  1. ESXi ホスト ノードで、次の NSX CLI コマンドを呼び出します。

    get load-balancer <lb-uuid> status
  2. LSP の競合状態が報告された場合は、この LSP が別のロード バランサ サービスに接続しているかどうか確認し、この競合が許容されるかどうか判断します。「Not Ready LSP」が返されている場合は、次の NSX CLI コマンドを呼び出して、この LSP の状態を確認します。

    get logical-switch-port status

LB の状態:停止

重大

イベントの検出時:「中央の分散ロード バランサ サービス {entity_id} が停止しています。」

イベントの解決時:「中央のロード バランサ サービス {entity_id} が起動しています。」

  1. アクティブな Edge ノードで、次の NSX CLI コマンドを呼び出して、ロード バランサの状態を確認します。

    get load-balancer <lb-uuid> status
  2. ロード バランサ サービスの LB 状態が not_ready の場合、または出力がない場合は、Edge ノードをメンテナンス モードに切り替え、その後、メンテナンス モードを終了します。

LB Edge の使用容量が多い

重大

イベントの検出時:「Edge ノード {entity_id} のロード バランサ サービスの使用率が高くなっています。しきい値は {system_usage_threshold}% です。」

イベントの解決時:「Edge ノード {entity_id} のロード バランサ サービスの使用率が十分に低くなっています。しきい値は {system_usage_threshold}% です。」

新しい Edge ノードを展開し、ロード バランサ サービスを既存の Edge ノードから新たに展開した Edge ノードに移動します。

LB プール メンバーの使用容量が非常に多い

重大

イベントの検出時:「Edge ノード {entity_id} のプール メンバーの使用率が非常に高くなっています。しきい値は {system_usage_threshold}% です。」

イベントの解決時:「Edge ノード {entity_id} のプール メンバーの使用率が十分に低くなっています。しきい値は {system_usage_threshold}% です。」

新しい Edge ノードを展開し、ロード バランサ サービスを既存の Edge ノードから新たに展開した Edge ノードに移動します。

マネージャ健全性イベント

NSX Manager 健全性イベントは、NSX Manager ノード クラスタで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
重複した IP アドレス

マネージャ ノードの IP アドレスが別のデバイスによって使用されています。

イベントの検出時:「マネージャ ノード {entity_id} の IP アドレス {duplicate_ip_address} は、ネットワーク内の別のデバイスで使用されています。」

イベントの解決時:「マネージャ ノード {entity_id}{duplicate_ip_address} を使用していません。」

  1. マネージャの IP アドレスを使用しているデバイスを特定し、デバイスに新しい IP アドレスを割り当てます。
    注: 新しい IP アドレスを使用するようにマネージャを再構成することはできません。
  2. 静的 IP アドレス プール/DHCP サーバが正しく構成されていることを確認します。
  3. デバイスの IP アドレスが手動で割り当てられている場合は、その IP アドレスを修正します。
マネージャの CPU 使用率が非常に高い 重大

マネージャ ノードの CPU 使用率が非常に高くなっています。

イベントの検出時:「マネージャ ノード {entity_id} の CPU 使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値に達しているか、超えています。」

イベントの解決時:「マネージャ ノード {entity_id} の CPU 使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値を下回っています。」

このマネージャ ノードの構成、実行中のサービス、サイズを確認してください。

Manager アプライアンスのフォーム ファクタのサイズを調整することを検討してください。

マネージャーの CPU 使用率が高い

NSX-T Data Center 3.0.1 で開始。

マネージャ ノードの CPU 使用率が高くなっています。

イベントの検出時:「マネージャ ノード {entity_id} の CPU 使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値に達しているか、超えています。」

イベントの解決時:「マネージャ ノード {entity_id} の CPU 使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値を下回っています。」

このマネージャ ノードの構成、実行中のサービス、サイズを確認してください。

Manager アプライアンスのフォーム ファクタのサイズを調整することを検討してください。

マネージャのメモリ使用率が非常に高い 重大

NSX-T Data Center 3.0.1 で開始。

マネージャ ノードのメモリ使用率が非常に高くなっています。

イベントの検出時:「マネージャ ノード {entity_id} のメモリ使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値に達しているか、超えています。」

イベントの解決時:「マネージャ ノード {entity_id} のメモリ使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値を下回っています。」

このマネージャ ノードの構成、実行中のサービス、サイズを確認してください。

Manager アプライアンスのフォーム ファクタのサイズを調整することを検討してください。

マネージャーのメモリ使用率が高い

マネージャ ノードのメモリ使用率が高くなっています。

イベントの検出時:「マネージャ ノード {entity_id} のメモリ使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値に達しているか、超えています。」

イベントの解決時:「マネージャ ノード {entity_id} のメモリ使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値を下回っています。」

このマネージャ ノードの構成、実行中のサービス、サイズを確認してください。

Manager アプライアンスのフォーム ファクタのサイズを調整することを検討してください。

マネージャのディスク使用率が非常に高い 重大

マネージャ ノードのディスクの使用率が非常に高くなっています。

イベントの検出時:「マネージャ ノードのディスク パーティション {disk_partition_name} のディスク使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値に達しているか、超えています。」

イベントの解決時:「マネージャ ノードのディスク パーティション {disk_partition_name} のディスク使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値を下回っています。」

使用率の高いパーティションを調べ、削除可能なサイズの大きいファイルがあるか確認します。
マネージャのディスク使用率が高い

マネージャ ノードのディスク使用率が高くなっています。

イベントの検出時:「マネージャ ノードのディスク パーティション {disk_partition_name} のディスク使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値に達しているか、超えています。」

イベントの解決時:「マネージャ ノードのディスク パーティション {disk_partition_name} のディスク使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値を下回っています。」

使用率の高いパーティションを調べ、削除可能なサイズの大きいファイルがあるか確認します。
マネージャの構成ディスクの使用率が非常に高い 重大

マネージャ ノードの config ディスクの使用率が非常に高くなっています。

イベントの検出時:「マネージャ ノードのディスク パーティション /config のディスク使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値に達しているか、超えています。/config/corfu ディレクトリで NSX Datastore サービスが大量のディスクを使用している可能性があります。」

イベントの解決時:「マネージャ ノードのディスク パーティション /config のディスク使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値を下回っています。」

/config パーティションを調べ、削除可能なサイズの大きいファイルがあるか確認します。
マネージャの構成ディスクの使用率が高い

マネージャ ノードの config ディスクの使用率が高くなっています。

イベントの検出時:「マネージャ ノードのディスク パーティション /config のディスク使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値に達しているか、超えています。/config/corfu ディレクトリで NSX Datastore サービスのディスク使用量が増加している可能性があります。」

イベントの解決時:「マネージャ ノードのディスク パーティション /config のディスク使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値を下回っています。」

/config パーティションを調べ、削除可能なサイズの大きいファイルがあるか確認します。

オペレーション DB のディスク使用率が高い

マネージャ ノードのディスク パーティション「/nonconfig」のディスク使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の高しきい値に達しているか、超えています。/nonconfig/corfu ディレクトリで NSX Datastore サービスのディスク使用量が増加している可能性があります。

/opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig を実行して問題が報告された場合は、VMware サポートにお問い合わせください。

オペレーション DB のディスク使用率が非常に高い 重大

マネージャ ノードのディスク パーティション「/nonconfig」のディスク使用率が {system_resource_usage}% になりました。これは、{system_usage_threshold}% の超高しきい値に達しているか、超えています。/nonconfig/corfu ディレクトリで NSX Datastore サービスのディスク使用量が増加している可能性があります。

/opt/vmware/tools/support/inspect_checkpoint_issues.py --nonconfig を実行して問題が報告された場合は、VMware サポートにお問い合わせください。

NCP イベント

NSX Container Plug-in (NCP) イベントは、 ESXi ノードと KVM ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
NCP プラグイン停止 重大

マネージャ ノードで NCP がダウンしているか、不良な状態になっています。

イベントの検出時:「マネージャ ノードで NCP がダウンしているか、不良な状態になっています。」

イベントの解決時:「マネージャ ノードで NCP が起動しているか、再び良好な状態になっています。」

問題のあるクラスタを検索するには、NSX API GET /api/v1/systemhealth/container-cluster/ncp/status を呼び出し、すべてのクラスタの状態を取得して、「停止」または「不明」状態のクラスタ名を確認します。

NSX ユーザー インターフェイスで [インベントリ] > [コンテナ] > [クラスタ] ページの順に移動して、「停止」または「不明」状態のクラスタ名を確認し、[ノード] タブをクリックします。ここに、すべての Kubernetes クラスタと PAS クラスタのメンバーが表示されます。

Kubernetes クラスタの場合:
  1. NCP Pod の稼動状態を確認します。クラスタ メンバーから K8s マスター ノードを探してそのノードにログインします。

    kubectl コマンド kubectl get pods --all-namespaces を呼び出します。NCP ポッドに問題がある場合は、kubectl logs コマンドを実行して問題を確認し、エラーを修正してください。

  2. NCP と Kubernetes API サーバの接続を確認します。
    NCP ポッド内で NSX CLI を使用すると、この接続状態を確認できます。確認するには、マスター仮想マシンから次のコマンドを実行します。
    kubectl exec -it <NCP-Pod-Name> -n nsx-system bash
    nsxcli
    get ncp-k8s-api-server status
    接続に問題がある場合は、ネットワークと NCP の両方の構成を確認してください。
  3. NCP と NSX Manager の接続を確認します。
    NCP ポッド内で NSX CLI を使用すると、この接続状態を確認できます。確認するには、マスター仮想マシンから次のコマンドを呼び出します。
    kubectl exec -it <NCP-Pod-Name> -n nsx-system bash nsxcli get ncp-nsx status
    接続に問題がある場合は、ネットワークと NCP の両方の構成を確認してください。
PAS クラスタの場合:
  1. 仮想マシン間のネットワーク接続を確認して、ネットワークの問題を修正します。
  2. ノードとサービスの両方の状態を確認して、クラッシュしたノードまたはサービスを修正します。

    ノードとサービスの状態を確認するには、bosh vms コマンドと bosh instances -p コマンドを呼び出します。

ノード エージェント健全性イベント

ノードエージェント健全性イベントは、 ESXi ノードと KVM ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
ノード エージェント停止

ノード仮想マシン内で実行されているエージェントが停止している可能性があります。

イベントの検出時:「ノード仮想マシン内で実行されているエージェントが停止している可能性があります。」

イベントの解決時:「ノード仮想マシン内のエージェントが実行されています。」

ESX の場合:

  1. Vmk50 が見つからない場合は、ナレッジベースの記事 KB67432を参照してください。
  2. Hyperbus 4094 が見つからない場合:nsx-cfgagent を再起動するか、コンテナ ホスト仮想マシンを再起動すると、問題が解決する場合があります。
  3. コンテナ ホスト VIF がブロックされている場合:接続を確認し、すべての設定が送信されていることを確認してください。
  4. nsx-cfgagent が停止している場合:nsx-cfgagent を再起動してください。

KVM の場合:

  1. Hyperbus 名前空間が見つからない場合:nsx-opsagent を再起動すると、名前空間が再作成される場合があります。
  2. hyperbus 名前空間内に Hyperbus インターフェイスが見つからない場合:nsx-opsagent を再起動すると、問題が解決する場合があります。
  3. nsx-agent が停止している場合:nsx-agentを再起動してください。

ESX と KVM の場合:

  1. node-agent パッケージが見つからない場合:コンテナ ホスト仮想マシンに node-agent パッケージが正常にインストールされていることを確認してください。
  2. コンテナ ホスト仮想マシンで node-agent インターフェイスが停止している場合:コンテナ ホスト仮想マシンの eth1 インターフェイスの状態を確認してください。

NSX フェデレーション イベント

NSX フェデレーション イベントは、NSX ManagerNSX Edge、およびパブリック ゲートウェイのノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション

LM から LM への同期エラー

NSX-T Data Center 3.0.1 で開始。

{site_name}({site_id}{remote_site_name}({remote_site_id} 間の同期が 5 分以上失敗しています。

  1. NSX CLI コマンド get site-replicator remote-sites を呼び出して、リモートの場所間の接続状態を取得します。リモートの場所が接続されていて、同期されていない場合は、その場所でのマスター解決のプロセスが実行中である可能性があります。この場合は、約 10 秒待ってから、もう一度 CLI を呼び出し、リモートの場所の状態を確認します。場所が切断されている場合は、次の手順を実行します。

  2. ping を使用して、場所 {site_name}{site_id} のローカル マネージャ (LM) から、場所 {remote_site_name}{remote_site_id} の LM への接続を確認します。ping できない場合は、WAN 接続が切断されやすいかを確認します。物理ネットワーク接続の問題がない場合は、次の手順を実行します。

  3. アラームをトリガした場所 {site_name}({site_id} のローカル クラスタのマネージャ ノードで /var/log/cloudnet/nsx-ccp.log ファイルをチェックし、サイト間通信エラーが発生しているかどうかを確認します。さらに、/var/log/syslog 内の nsx-appl-proxy サブコンポーネントによってログに記録されたエラーも確認します。

LM から LM への同期に関する警告

NSX-T Data Center 3.0.1 で開始。

{site_name}({site_id}{remote_site_name}({remote_site_id} 間の同期に失敗しました。

  1. NSX CLI コマンド get site-replicator remote-sites を呼び出して、リモートの場所間の接続状態を取得します。リモートの場所が接続されていて、同期されていない場合は、その場所でのマスター解決のプロセスが実行中である可能性があります。この場合は、約 10 秒待ってから、もう一度 CLI を呼び出し、リモートの場所の状態を確認します。場所が切断されている場合は、次の手順を実行します。

  2. ping を使用して、場所 {site_name}{site_id} のローカル マネージャ (LM) から、場所 {remote_site_name}{remote_site_id} の LM への接続を確認します。ping できない場合は、WAN 接続が切断されやすいかを確認します。物理ネットワーク接続の問題がない場合は、次の手順を実行します。

  3. アラームをトリガした場所 {site_name}({site_id} のローカル クラスタのマネージャ ノードで /var/log/cloudnet/nsx-ccp.log ファイルをチェックし、サイト間通信エラーが発生しているかどうかを確認します。さらに、/var/log/syslog 内の nsx-appl-proxy サブコンポーネントによってログに記録されたエラーも確認します。

RTEP BGP が停止しています

NSX-T Data Center 3.0.1 で開始。

送信元 IP アドレス {bgp_source_ip} からリモートの場所 {remote_site_name} のネイバー IP アドレス {bgp_neighbor_ip} への RTEP BGP セッションが停止しています。原因: {failure_reason}

  1. 影響を受ける Edge ノードで NSX CLI コマンド get logical-routers を呼び出します。

  2. REMOTE_TUNNEL_VRF コンテキストに切り替えます。
  3. NSX CLI コマンド get bgp neighbor を呼び出して、BGP ネイバーを確認します。
  4. または、NSX API GET /api/v1/transport-nodes/<transport-node-id>/inter-site/bgp/summary を呼び出して、BGP ネイバーのステータスを取得します。
  5. NSX CLI コマンド get interfaces を呼び出し、正しい RTEP IP アドレスが remote-tunnel-endpoint という名前のインターフェイスに割り当てられているかどうかを確認します。
  6. 。割り当てられた RTEP IP アドレス {bgp_source_ip} およびリモートの場所 {remote_site_name} のネイバー IP アドレス {bgp_neighbor_ip} 間で ping が正常に機能しているかどうかを確認します。
  7. /var/log/syslog で BGP に関連するエラーを確認します。
  8. API GET または PUT /api/v1/transport-nodes/<transport-node-id> を呼び出して、Edge ノードの remote_tunnel_endpoint 構成を取得/更新します。これにより、影響を受ける Edge ノードに割り当てられた RTEP IP アドレスが更新されます。

パスワード管理イベント

パスワード管理イベントは、NSX ManagerNSX Edge、パブリック ゲートウェイのノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
パスワードの期限切れ 重大

ユーザー パスワードが期限切れです。

イベントの検出時:「ユーザー {username} のパスワードは期限切れになっています。」

イベントの解決時:「ユーザー {username} のパスワードが正常に変更されたか、有効期限の問題が解決されました。」

システムにアクセスするには、ユーザー {username} のパスワードを今すぐ変更する必要があります。たとえば、ユーザーに新しいパスワードを適用するには、要求の本文に有効なパスワードを指定して次の NSX API を呼び出します。

PUT /api/v1/node/users/<userid>

<userid> はユーザーの ID です。管理者ユーザー(<userid> が 10000)のパスワードが期限切れになっている場合は、管理者が SSH(有効な場合)またはコンソールからシステムにログインして、パスワードを変更する必要があります。期限切れのパスワードを入力すると、新しいパスワードを入力するように求められます。

パスワードがまもなく期限切れ

ユーザー パスワードがまもなく期限切れになります。

イベントの検出時:「ユーザー {username} のパスワードはあと {password_expiration_days} 日で期限切れになります。」

イベントの解決時:「ユーザー {username} のパスワードが正常に変更されたか、有効期限の問題が解決されました。」

システムにアクセスするには、{username} で識別されるユーザーのパスワードを今すぐ変更する必要があります。たとえば、ユーザーに新しいパスワードを適用するには、要求の本文に有効なパスワードを指定して次の NSX API を呼び出します。

PUT /api/v1/node/users/<userid>

<userid> はユーザーの ID です。

パスワードがまもなく期限切れ

ユーザー パスワードの期限切れが近づいています。

イベントの検出時:「ユーザー {username} のパスワードはあと {password_expiration_days} 日で期限切れになります。」

イベントの解決時:「ユーザー {username} のパスワードが正常に変更されたか、有効期限の問題が解決されました。」

{username} で識別されるユーザーのパスワードをすぐに変更する必要があります。たとえば、ユーザーに新しいパスワードを適用するには、要求の本文に有効なパスワードを指定して次の NSX API を呼び出します。

PUT /api/v1/node/users/<userid>

<userid> はユーザーの ID です。

ルーティング イベント

イベント名 重要度 アラート メッセージ 推奨アクション
BGP 停止

BGP ネイバーが停止しています。

イベントの検出時:「ルーター {entity_id} で、BGP ネイバー {bgp_neighbor_ip} が停止しています。理由:{failure_reason}。」

イベントの解決時:「ルーター {entity_id} で、BGP ネイバー {bgp_neighbor_ip} が稼動しています。」

  1. SSH で Edge ノードに接続します。
  2. NSX CLI コマンド get logical-routers を呼び出します。
  3. サービス ルーター {sr_id} に切り替えます。
  4. /var/log/syslog で、BGP 接続関連のエラーが報告されているかどうか確認します。

外部インターフェイスの双方向フォワーディング検出 (BFD) 停止

BFD セッションが停止しています。

イベントの検出時:「ルーター {entity_id} で、ピア {peer_address} の BFD セッションが停止しています。」

イベントの解決時:「ルーター {entity_id} で、ピア {peer_address} の BFD セッションが起動しています。」

  1. SSH で Edge ノードに接続します。
  2. NSX CLI コマンド get logical-routers を呼び出します。
  3. サービス ルーター {sr_id} に切り替えます。
  4. NSX CLI コマンド ping <peer_address> を呼び出して、接続を確認します。
ルーティングの停止

すべての BGP/BFD セッションが停止しています。

イベントの検出時:「すべての BGP/BFD セッションが停止しています。」

イベントの解決時:「1 つ以上の BGP/BFD セッションが起動しています。」

  1. NSX CLI コマンド get logical-routers を呼び出して、Tier-0 サービス ルーターを取得します。
  2. Tier-0 サービス ルーターの VRF に切り替えてから、次の NSX CLI コマンドを呼び出します。
    • 接続を確認します。ping <BFD peer IP address>
    • BFD の健全性を確認します。
      get bfd-config 
      get bfd-sessions
    • BGP の健全性を確認します。get bgp neighbor summary
      get bfd neconfig 
      get bfd-sessions
    /var/log/syslog で、BGP 接続関連のエラーが報告されているかどうか確認します。
スタティック ルートの削除

スタティック ルートが削除されました。

イベントの検出時:「ルーター {entity_id} で BFD が停止しているため、スタティック ルート {static_address} が削除されました。」

イベントの解決時:「BFD がリカバリされたため、ルーター {entity_id} でスタティック ルート {static_address} が再度追加されました。」

  1. SSH で Edge ノードに接続します。
  2. NSX CLI コマンド get logical-routers を呼び出します。
  3. サービス ルーター {sr_id} に切り替えます。
  4. NSX CLI コマンドを呼び出して、接続を確認します。
    get bgp neighbor summary
  5. また、NSX と BFD ピアの両方の構成を調べて、タイマーが変更されていないことを確認します。

トランスポート ノードの健全性

トランスポート ノード健全性イベントは、KVM ノードと ESXi ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
LAG メンバーの停止

LACP レポーティング メンバーが停止しています。

イベントの検出時:「LACP レポーティング メンバーが停止しています。」

イベントの解決時:「LACP レポーティング メンバーが起動しています。」

ホストの LAG メンバーの接続状態を確認します。
  1. NSX ユーザー インターフェイスで、[ファブリック] > [ノード] > [トランスポート ノード] > [ホスト トランスポート ノード] の順に移動します。
  2. [ホスト トランスポート ノード] リストで、[ノードの状態] 列を確認します。

    ノードの状態が劣化か停止のトランスポート ノードを特定します。

  3. [<トランスポート ノード>] > [監視] の順に選択します。

    劣化または停止が報告されているボンディング(アップリンク)を確認します。

  4. 障害の発生したホストにログインして、次のコマンドを実行し、LACP メンバーの状態を確認します。
    • ESXi の場合:esxcli network vswitch dvs vmware lacp status get
    • KVM の場合:ovs-appctl bond/showovs-appctl lacp/show
N-VDS アップリンク停止

アップリンクが停止しています。

イベントの検出時:「アップリンクが停止しています。」

イベントの解決時:「アップリンクが起動しています。」

ホストのアップリンクの物理 NIC の状態を確認します。
  1. NSX ユーザー インターフェイスで、[ファブリック] > [ノード] > [トランスポート ノード] > [ホスト トランスポート ノード] の順に移動します。
  2. [ホスト トランスポート ノード] リストで、[ノードの状態] 列を確認します。

    ノードの状態が劣化か停止のトランスポート ノードを特定します。

  3. [<トランスポート ノード>] > [監視] の順に選択します。

    劣化または停止が報告されているボンディング(アップリンク)の状態を確認します。

    劣化状態を回避するには、使用中かどうかにかかわらず、すべてのアップリンク インターフェイスが接続され、稼動状態になっている必要があります。

VPN イベント

VPN イベントは、NSX Edge ノードとパブリック ゲートウェイ ノードで発生します。

イベント名 重要度 アラート メッセージ 推奨アクション
IPsec ポリシー ベース セッションの停止

ポリシー ベース IPsec VPN セッションが停止しています。

イベントの検出時:「ポリシー ベース IPsec VPN セッション {entity_id} が停止しています。理由:{session_down_reason}。」

イベントの解決時:「ポリシー ベース IPsec VPN セッション {entity_id} が起動しています。」

IPsec VPN セッションの構成を確認し、セッション停止の理由に応じてエラーを解決します。

IPsec ルート ベース セッションの停止

ルート ベース IPsec VPN セッションが停止しています。

イベントの検出時:「ルート ベース IPsec VPN セッション {entity_id} が停止しています。理由:{session_down_reason}。」

イベントの解決時:「ルート ベース IPsec VPN セッション {entity_id} が起動しています。」

IPsec VPN セッションの構成を確認し、セッション停止の理由に応じてエラーを解決します。

IPsec ポリシー ベース トンネルの停止

ポリシー ベース IPsec VPN トンネルが停止しています。

イベントの検出時:「セッション {entity_id} で、1 つ以上のポリシー ベース IPsec VPN トンネルが停止しています。」

イベントの解決時:「セッション {entity_id} で、すべてのポリシー ベース IPsec VPN トンネルが起動しています。」

IPsec VPN セッションの構成を確認し、トンネル停止の理由に応じてエラーを解決します。

IPsec ルート ベース トンネルの停止

ルート ベース IPsec VPN トンネルが停止しています。

イベントの検出時:「セッション {entity_id} で、1 つ以上のルート ベース IPsec VPN トンネルが停止しています。」

イベントの解決時:「セッション {entity_id} で、すべてのルート ベース IPsec VPN トンネルが起動しています。」

IPsec VPN セッションの構成を確認し、トンネル停止の理由に応じてエラーを解決します。

L2VPN セッションの停止

L2VPN セッションが停止しています。

イベントの検出時:「L2VPN セッション {entity_id} が停止しています。」

イベントの解決時:「L2VPN セッション {entity_id} が起動しています。」

IPsec VPN セッションの構成を確認し、理由に応じてエラーを解決します。

Identity Firewall イベント

イベント名 重要度 アラート メッセージ 推奨アクション
LDAP サーバとの接続の切断

重大

LDAP サーバとの接続が切断されました。

イベントの検出時:LDAP サーバとの接続に失敗しました。

イベントの検出時: LDAP サーバに正常に接続しました。

LDAP サーバの接続を確認するには、次の操作を行います。

  1. NSX ノードから LDAP サーバに到達可能です。
  2. NSX で LDAP サーバの詳細が正しく構成されています。
  3. LDAP サーバが正常に実行されています。
  4. LDAP サーバと NSX ノード間のアクセスをブロックするファイアウォールは存在しません。

接続の問題を修正した後、LDAP サーバのユーザー インターフェイスで [接続のテスト] を使用して、LDAP サーバとの接続をテストします。

差分同期エラー

重大

Active Directory ドメインとの差分同期の実行中にエラーが発生しました。

イベントの検出時:差分同期がエラーで終了しました。

イベントの検出時:差分同期がエラーなしで終了しました。

LDAP サーバとの接続の切断
アラームが発生した場合は、そのアラームを解決します。

LDAP サーバとの接続が開始している場合は、ログのエラー メッセージを参照して、Active Directory サーバで関連する変更を確認します。