たとえば、NSX Intelligence アプライアンスが応答しなくなった場合は、NSX Intelligence サービスの状態を確認します。

問題

NSX Intelligence アプライアンスが応答しなくなりました。あるいは、アプライアンスが予期したとおりに機能していないことを示すエラー メッセージが表示されました。

原因

基盤となる 1 つ以上の NSX Intelligence サービスが停止しているか、良好な状態でない可能性があります。

解決方法

  1. エンタープライズ管理者ロールを持つアカウントを使用して、NSX Intelligence アプライアンスの CLI ホストにログインします。
  2. get services コマンドを使用して、NSX Intelligence の状態を確認します。
    すべての NSX Intelligence サービスが正常に機能している場合は、次のような出力が表示されます。
    my_nsx-intel> get services
    Service name:                  druid
    Service state:                 running
    Coordinator health:            good
    Broker health:                 good
    Historical health:             good
    Overlord health:               good
    MiddleManager health:          good
    
    Service name:                  http
    Service state:                 running
    Session timeout:               1800
    Connection timeout:            30
    Redirect host:                 (not configured)
    Client API rate limit:         100 requests/sec
    Client API concurrency limit:  40
    Global API concurrency limit:  199
    
    Service name:                  kafka
    Service state:                 running
    Service health:                good
    
    Service name:                  liagent
    Service state:                 stopped
    
    Service name:                  mgmt-plane-bus
    Service state:                 stopped
    
    Service name:                  node-mgmt
    Service state:                 running
    
    Service name:                  nsx-config
    Service state:                 running
    
    Service name:                  nsx-message-bus
    Service state:                 stopped
    
    Service name:                  nsx-upgrade-agent
    Service state:                 running
    
    Service name:                  ntp
    Service state:                 running
    Start on boot:                 True
    
    Service name:                  pace-server
    Service state:                 running
    
    Service name:                  postgres
    Service state:                 running
    Service health:                good
    
    Service name:                  processing
    Service state:                 running
    
    Service name:                  snmp
    Service state:                 stopped
    Start on boot:                 False
    
    Service name:                  spark
    Service state:                 running
    Service health:                good
    
    Service name:                  spark-job-scheduler
    Service state:                 running
    
    Service name:                  ssh
    Service state:                 running
    Start on boot:                 True
    
    Service name:                  syslog
    Service state:                 running
    
    Service name:                  ui-service
    Service state:                 running
    
    Service name:                  zookeeper
    Service state:                 running
    Service health:                good
    
    my_nsx-intel>

    サービスの状態は、runningstopped のいずれかです。サービスの健全性は、good または degraded です。

  3. また、syslog ファイルで pace-monitor.sh サービスの健全性チェック スクリプトの出力を検索できます。このスクリプトは、NSX Intelligence サービスの健全性を syslog ファイルに記録します。
    すべてのサービスが予期したとおり機能している場合は、 get log-file syslog | find pace-monitor コマンドを実行した後に次のような出力が表示されます。
    my_nsx-intel> get log-file syslog | find pace-monitor
    <13>1 2019-08-30T03:19:20.409899+00:00 my_nsx-intel pace-monitor.sh - - -    "_self": {
    <13>1 2019-08-30T03:19:20.410253+00:00 my_nsx-intel pace-monitor.sh - - -      "href": "/node/pace/appliance-health",
    <13>1 2019-08-30T03:19:20.410623+00:00 my_nsx-intel pace-monitor.sh - - -      "rel": "self"
    <13>1 2019-08-30T03:19:20.410908+00:00 my_nsx-intel pace-monitor.sh - - -    },
    <13>1 2019-08-30T03:19:20.411162+00:00 my_nsx-intel pace-monitor.sh - - -    "appliance-health": {
    <13>1 2019-08-30T03:19:20.411416+00:00 my_nsx-intel pace-monitor.sh - - -      "status": "Following NSX Intelligence first boot services are either PENDING or FAILED - Token-Registration",
    <13>1 2019-08-30T03:19:20.411668+00:00 my_nsx-intel pace-monitor.sh - - -      "sub-system-status": {
    <13>1 2019-08-30T03:19:20.411923+00:00 my_nsx-intel pace-monitor.sh - - -        "app-services": {
    <13>1 2019-08-30T03:19:20.412280+00:00 my_nsx-intel pace-monitor.sh - - -          "services": [],
    <13>1 2019-08-30T03:19:20.412528+00:00 my_nsx-intel pace-monitor.sh - - -          "status": ""
    <13>1 2019-08-30T03:19:20.412807+00:00 my_nsx-intel pace-monitor.sh - - -        },
    <13>1 2019-08-30T03:19:20.413075+00:00 my_nsx-intel pace-monitor.sh - - -        "base-infra-services": {
    <13>1 2019-08-30T03:19:20.413303+00:00 my_nsx-intel pace-monitor.sh - - -          "services": [
    <13>1 2019-08-30T03:19:20.413613+00:00 my_nsx-intel pace-monitor.sh - - -            {
    <13>1 2019-08-30T03:19:20.413848+00:00 my_nsx-intel pace-monitor.sh - - -              "druid-health": {
    <13>1 2019-08-30T03:19:20.414146+00:00 my_nsx-intel pace-monitor.sh - - -                "broker": "good",
    <13>1 2019-08-30T03:19:20.414473+00:00 my_nsx-intel pace-monitor.sh - - -                "coordinator": "good",
    <13>1 2019-08-30T03:19:20.414717+00:00 my_nsx-intel pace-monitor.sh - - -                "historical": "good",
    <13>1 2019-08-30T03:19:20.414979+00:00 my_nsx-intel pace-monitor.sh - - -                "middlemanager": "good",
    <13>1 2019-08-30T03:19:20.415295+00:00 my_nsx-intel pace-monitor.sh - - -                "overlord": "good"
    <13>1 2019-08-30T03:19:20.415533+00:00 my_nsx-intel pace-monitor.sh - - -              },
    <13>1 2019-08-30T03:19:20.415762+00:00 my_nsx-intel pace-monitor.sh - - -              "service-name": "druid"
    <13>1 2019-08-30T03:19:20.415982+00:00 my_nsx-intel pace-monitor.sh - - -            },
    <13>1 2019-08-30T03:19:20.416269+00:00 my_nsx-intel pace-monitor.sh - - -            {
    <13>1 2019-08-30T03:19:20.416539+00:00 my_nsx-intel pace-monitor.sh - - -              "health": "good",
    <13>1 2019-08-30T03:19:20.416772+00:00 my_nsx-intel pace-monitor.sh - - -              "service-name": "kafka"
    <13>1 2019-08-30T03:19:20.416991+00:00 my_nsx-intel pace-monitor.sh - - -            },
    <13>1 2019-08-30T03:19:20.417204+00:00 my_nsx-intel pace-monitor.sh - - -            {
    <13>1 2019-08-30T03:19:20.417510+00:00 my_nsx-intel pace-monitor.sh - - -              "health": "good",
    <13>1 2019-08-30T03:19:20.417745+00:00 my_nsx-intel pace-monitor.sh - - -              "service-name": "postgres"
    <13>1 2019-08-30T03:19:20.418133+00:00 my_nsx-intel pace-monitor.sh - - -            },
    <13>1 2019-08-30T03:19:20.418389+00:00 my_nsx-intel pace-monitor.sh - - -            {
    <13>1 2019-08-30T03:19:20.418626+00:00 my_nsx-intel pace-monitor.sh - - -              "health": "good",
    <13>1 2019-08-30T03:19:20.418855+00:00 my_nsx-intel pace-monitor.sh - - -              "service-name": "spark"
    <13>1 2019-08-30T03:19:20.419157+00:00 my_nsx-intel pace-monitor.sh - - -            },
    <13>1 2019-08-30T03:19:20.419435+00:00 my_nsx-intel pace-monitor.sh - - -            {
    <13>1 2019-08-30T03:19:20.419684+00:00 my_nsx-intel pace-monitor.sh - - -              "health": "good",
    <13>1 2019-08-30T03:19:20.419928+00:00 my_nsx-intel pace-monitor.sh - - -              "service-name": "zookeeper"
    <13>1 2019-08-30T03:19:20.420165+00:00 my_nsx-intel pace-monitor.sh - - -            }
    <13>1 2019-08-30T03:19:20.420496+00:00 my_nsx-intel pace-monitor.sh - - -          ],
    <13>1 2019-08-30T03:19:20.420786+00:00 my_nsx-intel pace-monitor.sh - - -          "status": ""
    <13>1 2019-08-30T03:19:20.421022+00:00 my_nsx-intel pace-monitor.sh - - -        },
    <13>1 2019-08-30T03:19:20.421255+00:00 my_nsx-intel pace-monitor.sh - - -        "first-boot-services": {
    <13>1 2019-08-30T03:19:20.421539+00:00 my_nsx-intel pace-monitor.sh - - -          "services": [
    <13>1 2019-08-30T03:19:20.421777+00:00 my_nsx-intel pace-monitor.sh - - -            {
    <13>1 2019-08-30T03:19:20.422010+00:00 my_nsx-intel pace-monitor.sh - - -              "health": "degraded",
    <13>1 2019-08-30T03:19:20.422277+00:00 my_nsx-intel pace-monitor.sh - - -              "service-name": "token-registration"
    <13>1 2019-08-30T03:19:20.422512+00:00 my_nsx-intel pace-monitor.sh - - -            }
    <13>1 2019-08-30T03:19:20.422770+00:00 my_nsx-intel pace-monitor.sh - - -          ],
    <13>1 2019-08-30T03:19:20.423012+00:00 my_nsx-intel pace-monitor.sh - - -          "status": "Following NSX Intelligence first boot, services are either PENDING or FAILED - Token-Registration"
    <13>1 2019-08-30T03:19:20.423354+00:00 my_nsx-intel pace-monitor.sh - - -        }
    <13>1 2019-08-30T03:19:20.423601+00:00 my_nsx-intel pace-monitor.sh - - -      }
    <13>1 2019-08-30T03:19:20.423882+00:00 my_nsx-intel pace-monitor.sh - - -    }
    <13>1 2019-08-30T03:19:20.424339+00:00 my_nsx-intel pace-monitor.sh - - -  }
    <13>1 2019-08-30T03:19:20.972629+00:00 my_nsx-intel pace-monitor.sh - - -  NSX Intelligence health OK.
    <30>1 2019-08-30T03:19:20.973076+00:00 my_nsx-intel pace-monitor 20804 - -  <13>Aug 30 03:19:19 pace-monitor.sh: NSX Intelligence health OK.
    <182>1 2019-08-30T03:23:23.857Z my_nsx-intel NSX 21752 - [nsx@6876 comp="nsx-cli" subcomp="node-mgmt" username="admin" level="INFO"] CMD: get log-file syslog | find pace-monitor
    
    いずれかのサービスに問題がある場合、 get log-file syslog | grep pace-monitor を実行すると、次の行が出力されることがあります。
    NSX Intelligence health DEGRADED. Return code not HTTP OK.
  4. 次のいずれかの出力が表示された場合、restart service service-name コマンドを実行してサービスを再起動します。
    • get services コマンドの実行後、サービスの 1 つが Service state: stopped または Service health: degraded になります。
    • get log-file syslog | grep pace-monitor コマンドの実行後、出力に PACE health DEGRADED.Return code not HTTP OK. というメッセージが表示されます。
    たとえば、 postgres サービスの状態が stopped または running で、サービスの健全性が degraded の場合は、次のコマンドを実行します。
    restart service postgres
    重要: NSX Intelligence サービスを再起動するには、 restart service service-name コマンドを使用する必要があります。 stop service service-namestart service service-name コマンドを使用する場合は、 service-name に依存するサービスを手動で再起動する必要があります。次のリストに、 NSX Intelligence サービスの再起動が必要な依存関係の順序を示します。
    zookeeper > druid > kafka > spark > spark-job-scheduler > nsx-config > processing > pace-server 
    たとえば、停止していた nsx-config サービスを stop|start service service-name コマンドで開始した場合、 restart service service-name コマンドを使用して processingpace-server サービスも再起動する必要があります。

    さらに、restart service service-name コマンドを使用して、依存関係の順序リストにあるサービスを spark-job-scheduler サービスより前に再起動する場合は、restart service spark-job-scheduler コマンドを使用して、spark-job-scheduler サービスを手動で再起動する必要があります。この操作を行わないと、spark-job-scheduler サービスが問題のある状態になります。