提供了云代理故障排除步骤,可帮助您轻松解决在 vRealize Operations Cloud 中可能遇到的问题。

继续进行故障排除之前,请参见云代理常见问题解答

安装和/或首次引导失败

To verify the issue, check if /var/log/firstboot contains a file named "Succeeded".

如果不包含,以下问题可能会导致 vRealize Operations Cloud 安装和/或首次引导失败:

  1. 部署Cloud Proxy时使用的 OTK 无效。要进行验证,请检查cloud proxy控制台。

    解决方案:重新部署cloud proxy

  2. Cloud Proxy虚拟机中的某些分区空间不足 - 安装失败,并显示错误消息分区上没有空间 (No space on partition)

    解决方案:与 VMware 技术支持联系。

云代理虚拟机正在运行,但在 vRealize Operations Cloud 中状态为“脱机”。

要验证连接,请使用以下命令:(有关完整的命令列表,请参见 使用云代理命令行界面。)
# Overall status of cloud proxy:cprc-cli -s

# Ping itself:
ip addr
ping <address>


# Ping gateway:
ip route
ping <gateway>

# Verify the connection outside the cloud proxy,
ping 8.8.8.8

Note: If you are using a network proxy, 
use the /opt/vmware/share/vami/vami_config_net option#5 command 
to ensure you have the correct configuration for the testings.

以下问题可能会导致 vRealize Operations Cloudcloud proxy的状态显示为脱机。

  1. 云代理配置中的网络代理信息不正确。
    要通过网络代理验证连接,请使用以下命令:
    curl -vvv --proxy http(s)://proxy_user:proxy_pass@proxy_ip:proxy_port -H 'Accept: application/json' -H 'Content-Type: application/json' -X GET https://<gateway url>/casa/security/ping (gateway url example - 10238.gw.dev.vrops-ops.com)
     
    To ignore SSL validation for a proxy server, 
    use curl --proxy-insecure. With SSL validation the customer can provide Proxy Server certificate during cloud proxy deployment or re-configuration 
    so that provided certificate from customer can be used to check the connection with curl with SSL certificate validation.
    解决方案:
    1. 通过 SSH 访问Cloud Proxy虚拟机,然后在 /storage/db/vmware-vrops-cprc/configuration/cprc.configuration 中将 connectretry 设置为 0,以确保Cloud Proxy重试连接。
    2. 关闭Cloud Proxy虚拟机。
    3. 使用 vApp 选项更新 vCenter Server 虚拟机选项中的网络代理配置(编辑虚拟机的 OVF 详细信息)。
    4. 引导Cloud Proxy虚拟机。
  2. 防火墙设置不正确。
    要验证对外部 URL 的访问,请运行以下命令:
    # For URLs to whitelist, please refer to the prerequisite section in 在 vRealize Operations Cloud 中配置云代理.
    
    # ping s3-us-west-2.amazonaws.com
    
    # The Amazon vRealize Operations Cloud instance can be found in this file: cat $VCOPS_BASE/user/conf/collector/collector.properties
    
    # Example row ttpRelayServerURL=https://10027.gw.staging.vrops-ops.com/suite-api
    wget <ttpRelayServerURL>
    解决方案:
    1. 通过 SSH 访问Cloud Proxy虚拟机,然后在 /storage/db/vmware-vrops-cprc/configuration/cprc.configuration 中将 connectretry 设置为 0,以确保Cloud Proxy重试连接。
    2. 关闭Cloud Proxy虚拟机。
    3. 在 vRealize Operations Cloud 中配置云代理的必备条件部分中提到的 URL 列入白名单。
    4. 引导Cloud Proxy虚拟机。
  3. 所需端口未打开。
    要进行验证,请运行以下命令:
    openssl s_client -showcerts -connect {address}:443
     
    curl -v telnet://{address}:443
    
    # Or, change the address to the machine you want to check: 
    python -c "import socket; print(socket.socket(socket.AF_INET, socket.SOCK_STREAM).connect_ex(('127.0.0.1', 443)))"
    
    # If you get a !=0 response, the server is not listening to the port.
    解决方案:
    1. 通过 SSH 访问Cloud Proxy虚拟机,然后在 /storage/db/vmware-vrops-cprc/configuration/cprc.configuration 中将 connectretry 设置为 0,以确保Cloud Proxy重试连接。
    2. 提供在 在 vRealize Operations Cloud 中配置云代理的必备条件部分中所述的端口访问权限。
    3. 引导Cloud Proxy虚拟机。
  4. 证书无效。
    要进行验证,请运行以下命令:
    openssl s_client -showcerts -connect {address}:443
    解决方案:
    1. 通过 SSH 访问Cloud Proxy虚拟机,然后在 /storage/db/vmware-vrops-cprc/configuration/cprc.configuration 中将 connectretry 设置为 0,以确保Cloud Proxy重试连接。
    2. 按照 VMware 知识库文章 83698 中所述的步骤执行操作。
  5. 日志文件夹 /storage/log 即将耗尽分区空间。

    解决方案:移除日志文件以确保有足够的可用空间。请注意,这是一个例外情况。正常情况下,日志文件会自动存档。

  6. 以下一项或多项服务关闭:httpd-north.servicehaproxy.servicecollector.service
    解决方案:
    • 运行以下命令,检查服务状态:systemctl status <service name>
    • 要启动服务,请使用以下命令:systemctl start <service name>
  7. OTK 已过期。

    解决方案:使用全新的 OTK 重新部署Cloud Proxy

云代理处于联机状态,云帐户的状况为 Collecting,但状态为 Object Down

以下问题可能会导致 vRealize Operations Cloud 将云帐户的状况显示为 Collecting,而状态显示为 Object Down

  1. 帐户凭据不正确。

    解决方案:检查并更新设置云帐户时使用的凭据。

云代理状态停滞在 Going Online

首次重新引导时,可能需要长达 20 分钟的时间才能注册cloud proxy并联机。等待指定的时间,以查看云代理是否联机。如果仍未联机,以下一项或多项服务将关闭:httpd-north.servicehaproxy.servicecollector.service

解决方案:
  1. 运行以下命令,检查服务状态:systemctl status <service name>
  2. 要启动服务,请使用以下命令:systemctl start <service name>

vRealize Operations Cloud 升级后,云代理不自动升级

vRealize Operations Cloud 升级后,云代理不自动升级的可能原因有几种。

  1. 网络延迟较高,导致 PAK 下载失败。不支持超过 500 毫秒的延迟。

    解决方案:有关如何通过 CLI 手动升级云代理的信息,请参见 VMWare 知识库文章 80590

  2. 由于上一次升级失败,升级状态停滞在 Running
    解决方案:按照下面提供的步骤更改升级状态。
    1. 停止 CaSA 服务:systemctl stop vmare-casa.service
    2. 在以下文件中将升级状态从 RUNNING 更改为 NONE
      ./storage/db/vmware-vrops-cprc/status/cprc.upgrade.status
      ./storage/db/vmware-vrops-cprc/status/cprc.pak.status
    3. 参见 VMware 知识库文章 80590 并运行手动升级。

云代理每隔一定时间断开连接

这是与 DNS 解析失败相关的已知限制。与 VMware 技术支持联系。