提供了云代理故障排除步骤,可帮助您轻松解决在 VMware Aria Operations 中可能遇到的问题。

继续进行故障排除之前,请参见云代理常见问题解答

安装和/或首次引导失败

To verify the issue, check if /var/log/firstboot contains a file named "Succeeded".

如果不包含,以下问题可能会导致 VMware Aria Operations 安装和/或首次引导失败:

  1. 在部署 Cloud Proxy 时使用的唯一注册密钥无效。要进行验证,请检查cloud proxy控制台。

    解决方案:重新部署cloud proxy

云代理虚拟机正在运行,但在 VMware Aria Operations 中状态为“脱机”。

云代理页面中云代理的状态为脱机。

要验证连接,请使用以下命令:(有关完整的命令列表,请参见 使用云代理命令行界面。)
# Overall status of cloud proxy:cprc-cli -s

# Ping itself:
ip addr
ping <address>


# Ping gateway:
ip route
ping <gateway>

# Verify the connection outside the cloud proxy,
ping 8.8.8.8

Note: If you are using a network proxy, 
use the /opt/vmware/share/vami/vami_config_net option#5 command 
to ensure you have the correct configuration for the testings.

以下问题可能会导致 VMware Aria Operationscloud proxy的状态显示为脱机。

  1. 云代理配置中的网络代理信息不正确。
    要通过网络代理验证连接,请使用以下命令:
    curl -vvv --proxy http(s)://proxy_user:proxy_pass@proxy_ip:proxy_port -H 'Accept: application/json' -H 'Content-Type: application/json' -X GET https://<gateway url>/casa/security/ping (gateway url example - 10238.gw.dev.vrops-ops.com)
     
    To ignore SSL validation for a proxy server, 
    use curl --proxy-insecure. With SSL validation the customer can provide Proxy Server certificate during cloud proxy deployment or re-configuration 
    so that provided certificate from customer can be used to check the connection with curl with SSL certificate validation.
    解决方案:
    1. 通过 SSH 访问Cloud Proxy虚拟机,然后在 /storage/db/vmware-vrops-cprc/configuration/cprc.configuration 中将 connectretry 设置为 0,以确保Cloud Proxy重试连接。
    2. 关闭Cloud Proxy虚拟机。
    3. 使用 vApp 选项更新 vCenter Server 虚拟机选项中的网络代理配置(编辑虚拟机的 OVF 详细信息)。
    4. 引导Cloud Proxy虚拟机。
  2. 防火墙设置不正确。
    要验证对外部 URL 的访问,请运行以下命令:
    # For URLs to allowlist, please refer to the prerequisite section in 在 VMware Aria Operations 中配置云代理.
    
    # ping s3-us-west-2.amazonaws.com
    
    # The Amazon VMware
    					Aria Operations instance can be found in this file: cat $VCOPS_BASE/user/conf/collector/collector.properties
    
    # Example row ttpRelayServerURL=https://10027.gw.staging.vrops-ops.com/suite-api
    wget <ttpRelayServerURL>
    解决方案:
    1. 通过 SSH 访问Cloud Proxy虚拟机,然后在 /storage/db/vmware-vrops-cprc/configuration/cprc.configuration 中将 connectretry 设置为 0,以确保Cloud Proxy重试连接。
    2. 关闭Cloud Proxy虚拟机。
    3. 在 VMware Aria Operations 中配置云代理的必备条件部分中提到的 URL 列入允许列表。
    4. 引导Cloud Proxy虚拟机。
  3. 所需端口未打开。
    要进行验证,请运行以下命令:
    openssl s_client -showcerts -connect {address}:443
     
    curl -v telnet://{address}:443
    
    # Or, change the address to the machine you want to check: 
    python -c "import socket; print(socket.socket(socket.AF_INET, socket.SOCK_STREAM).connect_ex(('127.0.0.1', 443)))"
    
    # If you get a !=0 response, the server is not listening to the port.
    解决方案:
    1. 通过 SSH 访问Cloud Proxy虚拟机,然后在 /storage/db/vmware-vrops-cprc/configuration/cprc.configuration 中将 connectretry 设置为 0,以确保Cloud Proxy重试连接。
    2. 提供在 在 VMware Aria Operations 中配置云代理的必备条件部分中所述的端口访问权限。
    3. 引导Cloud Proxy虚拟机。
  4. 证书无效。
    要进行验证,请运行以下命令:
    openssl s_client -showcerts -connect {address}:443
    解决方案:
    1. 通过 SSH 访问Cloud Proxy虚拟机,然后在 /storage/db/vmware-vrops-cprc/configuration/cprc.configuration 中将 connectretry 设置为 0,以确保Cloud Proxy重试连接。
    2. 按照 VMware 知识库文章 83698 中所述的步骤执行操作。
  5. 日志文件夹 /storage/log 即将耗尽分区空间。

    解决方案:移除日志文件以确保有足够的可用空间。请注意,这是一个例外情况。正常情况下,日志文件会自动存档。

  6. 以下一项或多项服务关闭:httpd-north.servicehaproxy.servicecollector.service
    解决方案:
    • 运行以下命令,检查服务状态:systemctl status <service name>
    • 要启动服务,请使用以下命令:systemctl start <service name>
  7. 唯一注册密钥已过期。

    解决方案:使用新的唯一注册密钥重新部署 Cloud Proxy

云代理处于联机状态,云帐户的状况为 Collecting,但状态为 Object Down

云代理正在收集数据,但对象已关闭,并且无法连接到 vCenter。

以下问题可能会导致 VMware Aria Operations 将云帐户的状况显示为 Collecting,而状态显示为 Object Down

  1. 帐户凭据不正确。

    解决方案:检查并更新设置云帐户时使用的凭据。

云代理状态停滞在 Going Online

云代理页面中云代理的状态为联机。

首次重新引导时,可能需要长达 20 分钟的时间才能注册cloud proxy并联机。等待指定的时间,以查看云代理是否联机。如果仍未联机,以下一项或多项服务将关闭:httpd-north.servicehaproxy.servicecollector.service

解决方案:
  1. 运行以下命令,检查服务状态:systemctl status <service name>
  2. 要启动服务,请使用以下命令:systemctl start <service name>

VMware Aria Operations 升级后,云代理不自动升级

VMware Aria Operations 升级后,云代理不自动升级的可能原因有几种。

  1. 网络延迟较高,导致 PAK 下载失败。不支持超过 500 毫秒的延迟。

    解决方案:有关如何通过 CLI 手动升级云代理的信息,请参见 VMWare 知识库文章 80590

  2. 由于上一次升级失败,升级状态停滞在 Running
    解决方案:按照下面提供的步骤更改升级状态。
    1. 停止 CaSA 服务:systemctl stop vmware-casa.service
    2. 在以下文件中将升级状态从 RUNNING 更改为 NONE
      ./storage/db/vmware-vrops-cprc/status/cprc.upgrade.status
      ./storage/db/vmware-vrops-cprc/status/cprc.pak.status
    3. 参见 VMware 知识库文章 80590 并运行手动升级。

云代理每隔一定时间断开连接

云代理定期断开连接的原因可能有几种,请执行以下操作。
  1. 检查网络连接和延迟。
  2. 检查云代理虚拟机是否可以访问 DNS,并使用 NSlookup 验证 DNS 连接情况。