本节提供了有关对安装问题进行故障排除的信息。
基本基础架构服务
以下服务必须在设备和 Hypervisor 上运行,此外,如果 vCenter Server 用作计算管理器,还必须在 vCenter Server 上运行。
- NTP
- DNS
确保防火墙未阻止 NSX-T Data Center 组件和 Hypervisor 之间的流量。确保已在组件之间打开所需端口。
要刷新 NSX Manager 上的 DNS 缓存,请以 root 用户身份通过 SSH 访问管理器并运行以下命令:
root@nsx-mgr-01:~# /etc/init.d/resolvconf restart [ ok ] Restarting resolvconf (via systemctl): resolvconf.service.
然后,可以检查 DNS 配置文件。
root@nsx-mgr-01:~# cat /etc/resolv.conf # Dynamic resolv.conf(5) file for glibc resolver(3) generated by resolvconf(8) # DO NOT EDIT THIS FILE BY HAND -- YOUR CHANGES WILL BE OVERWRITTEN nameserver 192.168.253.1 search mgt.sg.lab
以 root 用户身份登录并运行 su admin 以在 NSX Manager 上启动 nsxcli。作为 admin 用户,nsxcli 是默认提示符。
使用以下 nsxcli 命令检查 DNS 服务器:
get name-servers198.10.10.1 198.10.10.2 198.10.10.3
检查主机到控制器和管理器的通信
在 ESXi 主机上使用
NSX-T Data Center CLI 命令:
esxi-01.corp.local> get managers - 192.168.110.19 Connected esxi-01.corp.local> get controllers Controller IP Port SSL Status Is Physical Master Session State Controller FQDN 192.168.110.16 1235 enabled connected true up NA
在 KVM 主机上使用
NSX-T Data Center CLI 命令:
kvm-01> get managers - 192.168.110.19 Connected kvm-01> get controllers Controller IP Port SSL Status Is Physical Master Session State Controller FQDN 192.168.110.16 1235 enabled connected true up NA
在 ESXi 主机上使用主机 CLI 命令:
[root@esxi-01:~] esxcli network ip connection list | grep 1235 tcp 0 0 192.168.110.53:42271 192.168.110.16:1235 ESTABLISHED 67702 newreno nsx-proxy [root@esxi-01:~] [root@esxi-01:~] esxcli network ip connection list | grep 5671 tcp 0 0 192.168.110.253:11721 192.168.110.19:5671 ESTABLISHED 2103688 newreno mpa tcp 0 0 192.168.110.253:30977 192.168.110.19:5671 ESTABLISHED 2103688 newreno mpa
在 KVM 主机上使用主机 CLI 命令:
root@kvm-01:/home/vmware# netstat -nap | grep 1235 tcp 0 0 192.168.110.55:53686 192.168.110.16:1235 ESTABLISHED 2554/nsx-proxy root@kvm-01:/home/vmware# root@kvm-01:/home/vmware# root@kvm-01:/home/vmware# netstat -nap | grep 5671 tcp 0 0 192.168.110.55:50108 192.168.110.19:5671 ESTABLISHED 2870/mpa tcp 0 0 192.168.110.55:50110 192.168.110.19:5671 ESTABLISHED 2870/mpa root@kvm-01:/home/vmware# tcpdump -i ens32 port 1235 | grep kvm-01 tcpdump: verbose output suppressed, use -v or -vv for full protocol decode listening on ens32, link-type EN10MB (Ethernet), capture size 262144 bytes <truncated output> 03:46:27.040461 IP nsxcontroller01.corp.local.1235 > kvm-01.corp.local.38754: Flags [P.], seq 3315301231:3315301275, ack 2671171555, win 323, length 44 03:46:27.040509 IP kvm-01.corp.local.38754 > nsxcontroller01.corp.local.1235: Flags [.], ack 44, win 1002, length 0 ^C <truncated output> root@kvm-01:/home/vmware# root@kvm-01:/home/vmware# tcpdump -i ens32 port 5671 | grep kvm-01 tcpdump: verbose output suppressed, use -v or -vv for full protocol decode listening on ens32, link-type EN10MB (Ethernet), capture size 262144 bytes 03:51:16.802934 IP kvm-01.corp.local.58954 > nsxmgr01.corp.local.amqps: Flags [P.], seq 1153:1222, ack 1790, win 259, length 69 03:51:16.823328 IP nsxmgr01.corp.local.amqps > kvm-01.corp.local.58954: Flags [P.], seq 1790:1891, ack 1222, win 254, length 101 ^C <truncated output>
主机注册失败
如果
NSX-T Data Center 使用错误的 IP 地址,主机注册将失败。当主机有多个 IP 地址时,可能会发生这种情况。尝试删除传输节点将使其处于“孤立”状态。要解决此问题,请执行以下操作:
- 在 NSX-T Data Center UI 上,编辑主机并移除除管理 IP 地址之外的所有其他 IP 地址。
- 单击错误,然后选择解决。
KVM 主机问题
KVM 主机问题有时是由磁盘空间不足引起的。
/Boot 目录可能会快速填满并导致如下错误:
- 无法在主机上安装软件 (Failed to install software on host)
- 设备上没有剩余空间 (No space left on device)
您可以运行命令
df-h 检查可用存储。如果
/boot 目录达到 100%,可以执行以下操作:
- 运行 sudo dpkg --list 'linux-image*' | grep ^ii 以查看安装的所有内核。
- 运行 uname -r 以查看当前正在运行的内核。不要移除此内核 (linux-image)。
- 使用 apt-get purge 移除不再需要的映像。例如,运行 sudo apt-get purge linux-image-3.13.0-32-generic linux-image-3.13.0-33-generic。
- 重新引导主机。
- 在 NSX Manager 中,检查错误,然后选择解决。
- 确保虚拟机已打开电源。
部署 Edge 虚拟机时遇到配置错误
部署 Edge 虚拟机之后,NSX Manager 将虚拟机的状态显示为
配置错误。管理器日志包含类似于以下内容的消息:
nsx-manager NSX - FABRIC [nsx@6876 comp="nsx-manager" errorCode="MP16027" subcomp="manager"] Edge 758ad396-0754-11e8-877e-005056abf715 is not ready for configuration error occurred, error detail is NSX Edge configuration has failed. The host does not support required cpu features: ['aes'].
重新启动 Edge 数据路径服务,然后虚拟机应该能够解决该问题。
强制移除传输节点
您可以通过以下 API 调用移除停留在“孤立”状态的传输节点:
DELETE https://<NSX Manager>/api/v1/transport-nodes/<TN ID>?force=true
NSX Manager 将不对是否有任何活动虚拟机在主机上运行执行任何验证。您负责删除 N-VDS 和 VIB。如果您通过计算管理器添加了节点,请先删除计算管理器,然后再删除该节点。将同时删除传输节点。