- vCenter 升級/移轉預先檢查失敗,並顯示「未預期的錯誤 87」
如果 Security Token Service (STS) 憑證不包含主體別名 (SAN) 欄位,則 vCenter Server 升級/移轉預先檢查會失敗。當您已將 vCenter 5.5 Single Sign-On 憑證取代為不含 SAN 欄位的自訂憑證且嘗試升級至 vCenter Server 7.0 時,會發生此情況。升級會將 STS 憑證視為無效,並且預先檢查會阻止升級程序繼續進行。
因應措施:將 STS 憑證取代為包含 SAN 欄位的有效憑證,然後繼續執行 vCenter Server 7.0 升級/移轉。
- 透過預先存在的 CIM 提供者升級至 vSphere 7.0 時發生問題
升級後,先前安裝的 32 位元 CIM 提供者會停止運作,因為 ESXi 需要 64 位元 CIM 提供者。客戶可能會失去與 CIMPDK、NDDK (原生 DDK)、HEXDK、VAIODK (IO 篩選器) 相關的管理 API 功能,並看到與 uwglibc 相依性相關的錯誤。
Syslog 報告模組遺失「未載入 32 位元共用程式庫」。
因應措施:尚無因應措施。此修正的目的是從廠商下載新的 64 位元 CIM 提供者。
- 在 ESXi 7.0 主機上安裝 7.0 Update 1 驅動程式可能會失敗
您無法在執行 ESXi 7.0 或 7.0b 的主機上安裝適用於 ESXi 7.0 Update 1 的驅動程式。
作業失敗並顯示錯誤,例如:
VMW_bootbank_qedrntv_3.40.4.0-12vmw.701.0.0.xxxxxxx 需要 vmkapi_2_7_0_0,但在 ImageProfile 內無法滿足需求。
請參閱記錄檔以取得更多詳細資料。
因應措施:將 ESXi 主機更新至 7.0 Update 1。重試驅動程式安裝。
- 如果舊版 VIB 正在 ESXi 主機上使用,則 vSphere Lifecycle Manager 無法擷取所需的軟體規格以植入到新叢集
使用 vCenter Server 7.0 Update 2,您可以透過從單一參考主機匯入所需的軟體規格,建立新叢集。 但是,如果舊版 VIB 正在 ESXi 主機上使用,則 vSphere Lifecycle Manager 無法在從此類主機建立參考軟體規格的 vCenter Server 執行個體中擷取。在 /var/log/lifecycle.log
中,會顯示類似下列內容的訊息:
020-11-11T06:54:03Z lifecycle: 1000082644: HostSeeding:499 ERROR Extract depot failed: Checksum doesn't match.Calculated 5b404e28e83b1387841bb417da93c8c796ef2497c8af0f79583fd54e789d8826, expected: 0947542e30b794c721e21fb595f1851b247711d0619c55489a6a8cae6675e796 2020-11-11T06:54:04Z lifecycle: 1000082644: imagemanagerctl:366 ERROR Extract depot failed.2020-11-11T06:54:04Z lifecycle: 1000082644: imagemanagerctl:145 ERROR [VibChecksumError]
因應措施:請依照 VMware 知識庫文章 83042 中所述的步驟執行。
- 每次 ESXi 開機後,syslog.log 中都會出現記錄訊息短時間爆增的情況
更新至 ESXi 7.0 Update 2 後,在每次 ESXi 開機後都會出現記錄訊息短時間爆增的情況。
此類記錄並不表示 ESXi 出現任何問題,因此您可以忽略這些訊息。例如:
2021-01-19T22:44:22Z watchdog-vaai-nasd: '/usr/lib/vmware/nfs/bin/vaai-nasd -f' exited after 0 seconds (quick failure 127) 1
2021-01-19T22:44:22Z watchdog-vaai-nasd: Executing '/usr/lib/vmware/nfs/bin/vaai-nasd -f'
2021-01-19T22:44:22.990Z aainasd[1000051135]: Log for VAAI-NAS Daemon for NFS version=1.0 build=build-00000 option=DEBUG
2021-01-19T22:44:22.990Z vaainasd[1000051135]: DictionaryLoadFile: No entries loaded by dictionary.
2021-01-19T22:44:22.990Z vaainasd[1000051135]: DictionaryLoad: Cannot open file "/usr/lib/vmware/config": No such file or directory.
2021-01-19T22:44:22.990Z vaainasd[1000051135]: DictionaryLoad: Cannot open file "//.vmware/config": No such file or directory.
2021-01-19T22:44:22.990Z vaainasd[1000051135]: DictionaryLoad: Cannot open file "//.vmware/preferences": No such file or directory.
2021-01-19T22:44:22.990Z vaainasd[1000051135]: Switching to VMware syslog extensions
2021-01-19T22:44:22.992Z vaainasd[1000051135]: Loading VAAI-NAS plugin(s).
2021-01-19T22:44:22.992Z vaainasd[1000051135]: DISKLIB-PLUGIN : Not loading plugin /usr/lib/vmware/nas_plugins/lib64: Not a shared library.
因應措施:無
- 您可以在 vSphere Quick Boot 相容性檢查報告中看到遺失 VIB 的警告訊息
升級到 ESXi 7.0 Update 2 之後,如果您使用 /usr/lib/vmware/loadesx/bin/loadESXCheckCompat.py
命令檢查環境的 vSphere Quick Boot 相容性,則您可能會在 shell 中看到一些遺失 VIB 的警告訊息。例如:
在指定 VIB 集合中找不到 VIB。
忽略遺失的保留 VIB...,將從保留的 VIB 識別碼中移除這些 VIB。
此類警告並不表示存在相容性問題。
因應措施:可安全忽略遺失 VIB 的訊息,此訊息不會影響報告 vSphere Quick Boot 相容性。loadESXCheckCompat
命令的最後一個輸出行會明確地指出主機是否相容。
- 自動啟動載入使用 vSphere Lifecycle Manager 映像管理的叢集會失敗,並出現錯誤
如果您嘗試自動啟動載入使用 vSphere Lifecycle Manager 映像管理的叢集,以執行可設定狀態的安裝並覆寫 VMFS 磁碟分割,則作業會失敗並出現錯誤。在支援服務包中,會顯示類似下列內容的訊息:
2021-02-11T19:37:43Z Host Profiles[265671 opID=MainThread]: 錯誤: EngineModule::ApplyHostConfig。例外狀況: [錯誤 30] 唯讀檔案系統
因應措施:遵循廠商指引清理目標主機中的 VMFS 磁碟分割,然後重試該作業。或者,使用空白磁碟。如需有關 ESXi 上磁碟分割公用程式的詳細資訊,請參閱 VMware 知識庫文章 1036609。
- 由於空間限制,使用 ESXCLI 從 ESXi 6.5.x 和 6.7.0 升級至 ESXi 7.x 可能會失敗
使用 esxcli software profile update
或 esxcli software profile install
ESXCLI 命令從 ESXi 6.5.x 和 6.7.0 升級至 ESXi 7.x 可能會失敗,因為 ESXi 開機區可能小於映像設定檔的大小。在 ESXi Shell 或 PowerCLI Shell 中,會顯示類似下列內容的錯誤:
[安裝錯誤]
待處理交易需要 244 MB 的可用空間,但支援的大小上限為 239 MB。
請參閱記錄檔以取得更多詳細資料。
嘗試使用 ESXCLI 命令 esxcli software vib update
或 esxcli software vib install
升級 ESXi 主機時,也會發生此問題。
因應措施:您可以分兩個步驟執行升級,即使用 esxcli software profile update
命令將 ESXi 主機更新至 ESXi 6.7 Update 1 或更新版本,然後再更新至 7.0 Update 1c。或者,可以使用 ISO 映像和 vSphere Lifecycle Manager 執行升級。
- 升級至 vCenter Server 7.0 後,智慧卡和 RSA SecurID 驗證可能會停止運作
如果您已針對智慧卡或 RSA SecurID 驗證設定 vCenter Server,請參閱 VMware 知識庫文章 (網址為 https://kb.vmware.com/s/article/78057),然後再開始 vSphere 7.0 升級程序。如果您未依照知識庫中所述執行因應措施,則可能會看到下列錯誤訊息,且智慧卡或 RSA SecurID 驗證無法運作。
「智慧卡驗證可能會停止運作。智慧卡設定可能無法保留,並且智慧卡驗證可能會停止運作。」
或
「RSA SecurID 驗證可能會停止運作。RSA SecurID 設定可能無法保留,並且 RSA SecurID 驗證可能會停止運作。」
因應措施:在升級至 vSphere 7.0 之前,請參閱 VMware 知識庫文章,網址為 https://kb.vmware.com/s/article/78057。
- 將含外部 Platform Services Controller 的 vCenter Server 從 6.7u3 升級至 7.0 失敗,並顯示 VMAFD 錯誤
當您升級使用外部 Platform Services Controller 的 vCenter Server 部署時,可將 Platform Services Controller 聚合至 vCenter Server Appliance。如果升級失敗並顯示錯誤 install.vmafd.vmdir_vdcpromo_error_21
,則表示 VMAFD 首次開機程序失敗。VMAFD 首次開機程序會從來源 Platform Services Controller 和複寫合作夥伴 vCenter Server Appliance 複製 VMware Directory Service 資料庫 (data.mdb)。
因應措施:在升級含外部 Platform Services Controller 的 vCenter Server 之前,先在來源 Platform Services Controller 或複寫合作夥伴 vCenter Server Appliance 的乙太網路介面卡上停用 TCP 分割卸載 (TSO) 和一般分割卸載 (GSO)。請參閱知識庫文章:https://kb.vmware.com/s/article/74678。
- 在 vCenter Server 升級期間,可能不會保留智慧卡和 RSA SecurID 設定
升級至 vCenter Server 7.0 後,使用 RSA SecurID 的驗證將無法運作。嘗試使用 RSA SecurID 登入資訊進行登入時,會顯示一則錯誤訊息,提示您解決此問題。
因應措施:重新設定智慧卡或 RSA SecureID。
- 將 vCenter Server for Windows 移轉至 vCenter Server Appliance 7.0 失敗,並顯示網路錯誤訊息
將 vCenter Server for Windows 移轉至 vCenter Server Appliance 7.0 失敗,並顯示錯誤訊息 IP 已存在於網路中
。這會阻止移轉程序在新的 vCenter Server Appliance 上設定網路參數。如需詳細資訊,請檢查記錄檔:/var/log/vmware/upgrade/UpgradeRunner.log
因應措施:
- 確認已在來源 vCenter Server for Windows 執行個體上完成所有 Windows 更新,或停用自動 Windows 更新直到移轉完成為止。
- 重試將 vCenter Server for Windows 移轉至 vCenter Server Appliance 7.0。
- 當您使用 max_vfs 模組參數設定 SR-IOV 裝置的虛擬功能數目時,變更可能不會生效
在 vSphere 7.0 中,您可以使用虛擬基礎結構管理 (VIM) API (例如,透過 vSphere Client) 設定 SR-IOV 裝置的虛擬功能數目。此工作不需要將 ESXi 主機重新開機。使用 VIM API 組態後,如果您嘗試使用 max_vfs
模組參數設定 SR-IOV 虛擬功能的數目,則變更可能不會生效,因為這些變更已被 VIM API 組態覆寫。
因應措施:無。若要設定 SR-IOV 裝置的虛擬功能數目,請每次都使用相同的方法。使用 VIM API 或使用 max_vfs
模組參數,然後將 ESXi 主機重新開機。
- 升級後的 vCenter Server Appliance 執行個體不會保留來源執行個體中的所有次要網路 (NIC)
在主要升級期間,如果 vCenter Server Appliance 的來源執行個體設定了除 VCHA NIC 以外的多個次要網路,則目標 vCenter Server 執行個體將不會保留 VCHA NIC 以外的次要網路。如果來源執行個體設定了屬於 DVS 連接埠群組的多個 NIC,則在升級期間將不會保留 NIC 組態。將會保留屬於標準連接埠群組的 vCenter Server Appliance 執行個體的組態。
因應措施:無。在目標 vCenter Server Appliance 執行個體中手動設定次要網路。
- 在升級或移轉含外部 Platform Services Controller 的 vCenter Server 後,使用 Active Directory 進行驗證的使用者將失去對新升級的 vCenter Server 執行個體的存取權
在升級或移轉含外部 Platform Services Controller 的 vCenter Server 後,如果新升級的 vCenter Server 未加入至 Active Directory 網域,則使用 Active Directory 進行驗證的使用者將失去對 vCenter Server 執行個體的存取權。
因應措施:確認新的 vCenter Server 執行個體已加入至 Active Directory 網域。請參閱知識庫文章:https://kb.vmware.com/s/article/2118543
- 使用 Oracle 資料庫移轉含外部 Platform Services Controller 的 vCenter Server for Windows 失敗
匯出事件和工作資料時,如果 Oracle 事件和工作資料表中含有非 ASCII 字串,則移轉可能會失敗。將會提供下列錯誤訊息:UnicodeDecodeError
因應措施:無。
- 在 ESXi 主機升級後,主機設定檔符合性檢查會顯示不符合標準狀態,並且主機修復工作失敗
不符合標準狀態指出設定檔與主機之間發生不一致。
發生此不一致情況,可能是因為 ESXi 7.0 不允許重複的宣告規則,但您使用的設定檔包含重複的規則。例如,如果您先嘗試使用從主機擷取的主機設定檔,然後再將 ESXi 6.5 或 ESXi 6.7 升級至 7.0 版,並且主機設定檔包含系統預設規則的任何重複宣告規則,則您可能會遇到這些問題。
因應措施:
- 從主機設定檔文件中移除系統預設規則的任何重複宣告規則。
- 檢查符合性狀態。
- 修復主機。
- 如果先前的步驟沒有幫助,請將主機重新開機。
- vCenter Server 管理介面中顯示錯誤訊息
安裝或升級至 vCenter Server 7.0 後,當您導覽至 vCenter Server 管理介面內的 [更新] 面板時,會顯示錯誤訊息「檢查 URL,然後再試一次」。錯誤訊息不會阻止您使用 [更新] 面板內的功能,您可以查看、暫存和安裝任何可用的更新。
因應措施:無。
- Intel 82599/X540/X550 NIC 上網路效能的輸送量降低
與 vSphere 6.7 相比,在 vSphere 7.0 中為改善 Intel 82599EB/X540/X550 系列 NIC 上的網路效能而新增至 ixgben 驅動程式的新佇列配對功能,可能會降低某些工作負載下的輸送量。
因應措施:若要實現與 vSphere 6.7 相同的網路效能,您可以使用模組參數停用佇列配對。若要停用佇列配對,請執行下列命令:
# esxcli system module parameters set -p "QPair=0,0,0,0..."-m ixgben
執行命令後,請重新開機。
- 當 AMD IOMMU 正在使用時,一或多個 I/O 裝置不會產生中斷
如果 ESXi 主機上的 I/O 裝置提供總共超過 512 個不同的中斷來源,則會向某些來源錯誤地指派 AMD IOMMU 中超過最大值的中斷重新對應資料表項目 (IRTE) 索引。來自此類來源的中斷會遺失,因此對應 I/O 裝置的行為如同中斷已停用一樣。
因應措施:使用 ESXCLI 命令 esxcli system settings kernel set -s iovDisableIR -v true
停用 AMD IOMMU 中斷重新對應程式。將 ESXi 主機重新開機,以使此命令生效。
- 在網路介面卡上設定自動交涉時,裝置可能會失敗
在某些環境中,如果您使用命令 esxcli network nic set -a -n vmmicx
針對網路介面卡將連結速度設定為自動交涉,則裝置可能會失敗,且重新開機不會恢復連線。此問題特定於不支援自動交涉速度/雙工情況的某些 Intel X710/X722 網路介面卡、SFP+ 模組和實體交換器的組合。
因應措施:確定使用 Intel 品牌的 SFP+ 模組。或者,使用直接連接銅纜線 (DAC)。
- 半虛擬化 RDMA (PVRDMA) 網路介面卡不支援 NSX 網路原則
如果將 NSX 分散式虛擬連接埠設定為在 PVRDMA 流量中使用,則通過 PVRDMA 網路介面卡的 RDMA 通訊協定流量不符合 NSX 網路原則。
因應措施:請勿將 NSX 分散式虛擬連接埠設定為在 PVRDMA 流量中使用。
- 在 1x100G 連接埠模式下設定的 Solarflare x2542 和 x2541 網路介面卡在 vSphere 環境中最多可實現 70 Gbps 輸送量
vSphere 7.0 Update 2 支援在 1x100G 連接埠模式下設定的 Solarflare x2542 和 x2541 網路介面卡。但是,您可能會發現裝置中存在硬體限制,導致 vSphere 環境中的實際輸送量最多約為 70 Gbps。
因應措施:無
- 在 NIC 重設後,VLAN 流量可能會出現故障
PCI 裝置識別碼為 8086:1537 的 NIC 在重設後可能會停止傳送和接收標記 VLAN 的封包,例如,使用命令 vsish -e set /net/pNics/vmnic0/reset 1
。
因應措施:避免重設 NIC。如果您已面臨此問題,請使用下列命令還原 VLAN 功能,例如,在 vmnic0 中:
# esxcli network nic software set --tagging=1 -n vmnic0
# esxcli network nic software set --tagging=0 -n vmnic0
- NetQueue 平衡器設定的任何變更都會導致 NetQueue 在 ESXi 主機重新開機後處於停用狀態
使用命令 esxcli/localcli network nic queue loadbalancer set -n <nicname> --<lb_setting>
對 NetQueue 平衡器設定進行任何變更,均會導致 NetQueue (預設為啟用狀態) 在 ESXi 主機重新開機後處於停用狀態。
因應措施:在變更 NetQueue 平衡器設定且主機重新開機後,使用命令 configstorecli config current get -c esx -g network -k nics
擷取 ConfigStore 資料,以確認 /esx/network/nics/net_queue/load_balancer/enable
是否按預期運作。
執行命令後,會看到類似下列內容的輸出:
{
"mac": "02:00:0e:6d:14:3e",
"name": "vmnic1",
"net_queue": {
"load_balancer": {
"dynamic_pool": true,
"enable": true
}
},
"virtual_mac": "00:50:56:5a:21:11"
}
如果輸出與預期內容不同,例如 "load_balancer": "enable": false"
,請執行下列命令:
esxcli/localcli network nic queue loadbalancer state set -n <nicname> -e true
- 當 Network I/O Control (NetIOC) 啟用時,高輸送量虛擬機器可能會遇到網路效能降級的情況
從 vSphere 6.7 升級到已啟用 NetIOC 的 vSphere 7.0 時,需要高網路輸送量的虛擬機器可能會遇到輸送量降級的情況。
因應措施:調整 ethernetx.ctxPerDev
設定以啟用多個環境。
- IPv6 流量無法通過使用 IPsec 的 VMkernel 連接埠
當您將 VMkernel 連接埠從一個連接埠群組移轉到另一個連接埠群組時,IPv6 流量無法通過使用 IPsec 的 VMkernel 連接埠。
因應措施:從受影響的伺服器移除 IPsec 安全性關聯 (SA),然後重新套用 SA。若要瞭解如何設定和移除 IPsec SA,請參閱《vSphere 安全性》說明文件。
- CPU 使用率增加時 ESX 網路效能提升
ESX 網路效能可能會隨著 CPU 使用率的增加而提升。
因應措施:移除並新增僅具有 1 個 rx 分派佇列的網路介面。例如:
esxcli network ip interface remove --interface-name=vmk1
esxcli network ip interface add --interface-name=vmk1 --num-rxqueue=1
- 熱新增、熱移除或執行 Storage vMotion 後,虛擬機器可能會中斷乙太網路流量
熱新增、熱移除或執行 Storage vMotion 後,虛擬機器可能會停止接收乙太網路流量。此問題會影響 VNIC 的上行已啟用 SR-IOV 的虛擬機器。如果虛擬網路的上行是 Mellanox 之具備 RDMA 功能的 NIC 並且已設定 RDMA 命名空間,PVRDMA 虛擬 NIC 便會出現此問題。
因應措施:您可以熱移除和熱新增虛擬機器之受影響的乙太網路 NIC,以還原流量。在 Linux 客體作業系統上,重新啟動網路也可能解決此問題。如果這些因應措施不起作用,您可以將虛擬機器重新開機以還原網路連線。
- 變更使用靜態 IP 位址部署之 VCSA 的 IP 位址,需要您預先建立 DNS 記錄
採用 DDNS 後,DNS 記錄更新僅適用於使用 DHCP 設定之網路部署的 VCSA。透過 VAMI 變更 vCenter Server 的 IP 位址時,會顯示下列錯誤:
指定的 IP 位址未解析為指定的主機名稱。
因應措施:有兩種可行的因應措施。
- 使用相同的 FQDN 和所需的 IP 位址建立其他 DNS 項目。登入 VAMI,並遵循下列步驟來變更 IP 位址。
- 使用 ssh 登入 VCSA。執行下列指令碼:
./opt/vmware/share/vami/vami_config_net
使用選項 6 變更 eth0 的 IP 位址。變更後,請執行下列指令碼:
./opt/likewise/bin/lw-update-dns
重新啟動 VCSA 上的所有服務,以更新 DNS 伺服器上的 IP 資訊。
- 在 NSX Manager 中刪除對應的邏輯交換器後,可能需要幾秒的時間才能移除 NSX 分散式虛擬連接埠群組 (NSX DVPG)。
隨著邏輯交換器數目的增加,在刪除 NSX Manager 中對應的邏輯交換器後,可能需要更多的時間才能移除 vCenter Server 中的 NSX DVPG。在具有 12000 個邏輯交換器的環境中,需要大約 10 秒的時間才能從 vCenter Server 中刪除 NSX DVPG。
因應措施:無。
- 如果建立了大量 NSX 分散式虛擬連接埠群組,則 Hostd 會耗盡記憶體,並且失敗。
在 vSphere 7.0 中,NSX 分散式虛擬連接埠群組耗用的記憶體數量明顯大於不透明網路。基於此原因,NSX 分散式虛擬連接埠群組無法支援與提供給不透明網路相同數量記憶體的相同規模。
因應措施:若要支援使用 NSX 分散式虛擬連接埠群組,請增加 ESXi 主機中的記憶體數量。如果您確認系統有足夠的記憶體可支援您的虛擬機器,您可以使用下列命令,直接增加 hostd
的記憶體。
localcli --plugin-dir /usr/lib/vmware/esxcli/int/ sched group setmemconfig --group-path host/vim/vmvisor/hostd --units mb --min 2048 --max 2048
請注意,這將導致 hostd
使用一般為環境的虛擬機器保留的記憶體。這可能會導致減少 ESXi 主機可支援的虛擬機器數目。
- 如果在虛擬機器上設定了網路保留區,則 DRS 可能會不正確地啟動 vMotion
如果在虛擬機器上設定了網路保留區,則預期 DRS 僅會將該虛擬機器移轉至符合指定需求的主機。在具有 NSX 傳輸節點的叢集中,如果某些傳輸節點透過 NSX-T 虛擬分散式交換器 (N-VDS) 而其他傳輸節點透過 vSphere Distributed Switch (VDS) 7.0 加入傳輸區域,則 DRS 可能會不正確地啟動 vMotion。在下列情況下,您可能會遇到此問題:
- 虛擬機器連線至設定了網路保留區的 NSX 邏輯交換器。
- 某些傳輸節點使用 N-VDS 而其他傳輸節點使用 VDS 7.0 加入傳輸區域,或者,傳輸節點透過不同的 VDS 7.0 執行個體加入傳輸區域。
因應措施:使所有傳輸節點透過 N-VDS 或相同的 VDS 7.0 執行個體加入傳輸區域。
- 將 VMkernel NIC (vmknic) 新增至 NSX 連接埠群組時,vCenter Server 會報告此錯誤:「不支援將 VMKernel 介面卡連線到乏態主機上的 NSX 連接埠群組。請改用分散式連接埠群組。」
- 對於分散式虛擬交換器 (DVS) 上的乏態 ESXi,會封鎖 NSX 連接埠群組上的 vmknic。您必須改為使用分散式連接埠群組。
- 對於 DVS 上可設定狀態的 ESXi,支援 NSX 連接埠群組上的 vmknic,但如果在 NSX 連接埠群組上使用 vmknic,則 vSAN 可能會發生問題。
因應措施:在相同 DVS 上使用分散式連接埠群組。
- 從 vCenter for QLogic 4x10GE QL41164HFCU CNA 啟用 SRIOV 可能會失敗
如果您導覽至實體網路介面卡的編輯設定對話方塊,並嘗試啟用 SR-IOV,則在使用 QLogic 4x10GE QL41164HFCU CNA 時,該作業可能會失敗。嘗試啟用 SR-IOV 可能會導致 ESXi 主機的網路中斷。
因應措施:在 ESXi 主機上使用下列命令來啟用 SRIOV:
esxcfg-module
- 如果使用 Distributed Resource Scheduler (DRS) 的叢集中的主機透過不同的虛擬分散式交換器 (VDS) 或 NSX-T 虛擬分散式交換器 (NVDS) 和 VDS 的組合加入 NSX-T 網路,則 vCenter Server 會失敗
在 vSphere 7.0 中,在具有 DRS 叢集的 vSphere VDS 上使用 NSX-T 網路時,如果主機未透過相同的 VDS 或 NVDS 加入 NSX 傳輸區域,則可能會導致 vCenter Server 失敗。
因應措施:讓 DRS 叢集中的主機使用相同的 VDS 或 NVDS 加入 NSX 傳輸區域。
- 在具有 SmartPQI 控制器的 HPE Gen10 伺服器上進行磁碟熱移除和熱插入後,不會自動掛接 VMFS 資料存放區
如果將 HPE Gen10 伺服器 (具有不含延伸展開器的 SmartPQI 控制器) 上的 SATA 磁碟熱移除並重新熱插入同一機器的不同磁碟槽,或將多個磁碟熱移除並以不同的順序重新熱插入,有時會向該磁碟指派新的本機名稱。該磁碟上的 VMFS 資料存放區會顯示為快照,並且不會自動重新掛接,因為裝置名稱已變更。
因應措施:無。SmartPQI 控制器不支援未排序的熱移除和熱插入作業。
- 由於所有作用中路徑上的錯誤,ESXi 可能會終止 NVMeOF 裝置的 I/O
有時,由於連結問題或控制器狀態,NVMeOF 裝置的所有作用中路徑會登錄 I/O 錯誤。如果其中一個路徑的狀態變更為 [無作用],則高效能外掛程式 (HPP) 可能不會在顯示大量錯誤時選取其他路徑。因此,I/O 失敗。
因應措施:停用組態選項 /Misc/HppManageDegradedPaths,以取消封鎖 I/O。
- 針對以 NVMe 為基礎的 VMFS 資料存放區執行 VOMA 檢查失敗,並顯示錯誤
以 NVMe 為基礎的 VMFS 資料存放區不支援 VOMA 檢查,將會失敗並顯示錯誤:
ERROR: 無法保留裝置。功能未實作
範例:
# voma -m vmfs -f check -d /vmfs/devices/disks/: <partition#>
正在檢查模式下執行 VMFS 檢查程式版本 2.1
正在初始化 LVM 中繼資料,基本檢查將會完成
正在檢查檔案系統活動
正在執行檔案系統運作情況檢查..|正在掃描 VMFS-6 主機活動 (4096 位元組/HB,1024 HBs)。
ERROR: 無法保留裝置。功能未實作
正在中止 VMFS 磁碟區檢查
VOMA 無法檢查裝置: 一般錯誤
因應措施:無。如果需要分析 VMFS 中繼資料,請使用 -l
選項進行收集,然後傳遞至 VMware 客戶支援部門。用於收集傾印的命令為:
voma -l -f dump -d /vmfs/devices/disks/:<partition#>
- 使用虛擬機器重新設定 API 將已加密的第一級磁碟連結至加密的虛擬機器可能會失敗,並顯示錯誤
如果使用不同的密碼編譯金鑰加密 FCD 和虛擬機器,則嘗試使用虛擬機器重新設定 API
將已加密的 FCD 連結至加密的虛擬機器可能會失敗,並顯示錯誤訊息:
由於金鑰或密碼錯誤,無法對磁碟進行解密。
因應措施:使用 attachDisk API
而非虛擬機器重新設定 API
,將已加密的 FCD 連結至加密的虛擬機器。
- 如果 ESXi 主機的合併 VMFS 資料存放區的非主要範圍進入永久裝置遺失 (PDL) 狀態,則 ESXi 主機可能會處於無回應狀態
當合併 VMFS 資料存放區的非主要範圍與主要範圍一起出現故障時,不會發生此問題。在此情況下,整個資料存放區將變得無法存取,且不再允許 I/O。
反之,如果只有非主要範圍出現故障,而主要範圍仍然可供存取,則資料存放區活動訊號顯示為正常。主機與資料存放區之間的 I/O 會繼續。但是,任何依賴出現故障的非主要範圍的 I/O 也會啟動失敗。其他 I/O 交易可能會在等待解決故障 I/O 時累積,並導致主機進入無回應狀態。
因應措施:修正非主要範圍的 PDL 狀況以解決此問題。
- 虛擬 NVMe 控制器是適用於 Windows 10 客體作業系統的預設磁碟控制器
使用硬體版本 15 或更新版本時,虛擬 NVMe 控制器是下列客體作業系統的預設磁碟控制器:
Windows 10
Windows Server 2016
Windows Server 2019
使用虛擬 NVMe 控制器時,某些功能可能無法使用。如需詳細資訊,請參閱 https://kb.vmware.com/s/article/2147714
附註:某些用戶端使用先前預設的 LSI Logic SAS。這包括 ESXi Host Client 和 PowerCLI。
因應措施:如果您需要使用虛擬 NVMe 上未提供的功能,請切換至 VMware Paravirtual SCSI (PVSCSI) 或 LSI Logic SAS。如需使用 VMware Paravirtual SCSI (PVSCSI) 的相關資訊,請參閱 https://kb.vmware.com/s/article/1010398
- 將 ESXi 主機升級至 vSphere 7.0 後,存在重複的核心宣告規則,可能會導致非預期的行為
宣告規則會決定哪個多重路徑外掛程式 (例如 NMP、HPP 等) 擁有特定儲存裝置的路徑。ESXi 7.0 不支援重複的宣告規則。但是,如果您將重複規則新增至透過從舊版升級而繼承的現有宣告規則,則 ESXi 7.0 主機不會對您發出警示。由於使用重複的規則,儲存裝置可能會由非預期的外掛程式宣告,這可能會導致非預期的結果。
因應措施:請勿使用重複的核心宣告規則。在新增宣告規則前,刪除任何現有的相符宣告規則。
- 設有符合性狀態篩選器的 CNS 查詢可能需要很長時間才能完成
透過 CNS QueryVolume API,可以取得有關 CNS 磁碟區的資訊,例如磁碟區健全狀況和符合性狀態。檢查個別磁碟區的符合性狀態時,可以快速取得結果。但是,如果叫用 CNS QueryVolume API 以檢查多個磁碟區 (數十個或幾百個) 的符合性狀態,查詢的執行速度可能比較緩慢。
因應措施:避免使用大量查詢。當您需要取得符合性狀態時,請一次查詢一個磁碟區,或將查詢 API 中的磁碟區數目限制為 20 個或更少。使用查詢時,請避免執行其他 CNS 作業以取得最佳效能。
- 從 APD 或 PDL 故障復原後,NVMe over Fabrics 命名空間或裝置支援的 VMFS 資料存放區可能會永久無法存取
如果 ESXi 主機上的 VMFS 資料存放區由 NVMe over Fabrics 命名空間或裝置支援,則在出現所有路徑失效 (APD) 或永久裝置遺失 (PDL) 故障的情況下,資料存放區即使在復原後仍可能無法存取。您無法從 ESXi 主機或 vCenter Server 系統存取資料存放區。
因應措施:若要從此狀態復原,請在主機或叢集層級上執行重新掃描。如需詳細資訊,請參閱〈執行儲存區重新掃描〉。
- 如果在較短時間間隔內將 NVMe 裝置進行熱新增和熱移除,則 ESXi 主機可能會失敗,並顯示紫色診斷畫面
如果在較短時間間隔內將 NVMe 裝置進行熱新增和熱移除,則 NVMe 驅動程式可能會因命令逾時而無法初始化 NVMe 控制器。因此,驅動程式可能會存取清理程序中已釋放的記憶體。在反向追蹤中,會顯示類似下列內容的訊息:警告: NVMEDEV: NVMEInitializeController:4045: 無法取得控制器識別資料,狀態: 逾時
。
最終,ESXi 主機可能會失敗並顯示紫色診斷畫面,出現類似下列內容的訊息:#PF Exception ... in world ...:vmkdevmgr
。
因應措施:僅在插槽完成上一個熱插拔作業後,再對該插槽執行後續熱插拔作業。例如,如果要在熱新增作業後執行熱移除,請等待 HBA 建立完成並探索到 LUN。對於另一種情況,在熱移除作業後執行熱新增,請等待所有 LUN 和 HBA 均已移除。
- 如果將 USB 用作開機裝置,ESXi 主機可能會沒有回應,並且您會看到主機沒有回應且找不到開機區的警示
USB 裝置的佇列深度較小,並且由於 ESXi 儲存區堆疊中的競爭情形,某些 I/O 作業可能無法到達裝置。此類 I/O 將在 ESXi 儲存區堆疊中排入佇列且最終逾時。因此,ESXi 主機會變得沒有回應。
在 vSphere Client 中,會顯示類似下列內容的警示:警示: 在路徑「/bootbank」中找不到 /bootbank
以及主機沒有回應
。
在 vmkernel 記錄中,會顯示類似下列內容的錯誤:
2021-04-12T04:47:44.940Z cpu0:2097441)ScsiPath: 8058: Cancelled Cmd(0x45b92ea3fd40) 0xa0, cmdId.initiator=0x4538c859b8f8 CmdSN 0x0 from world 0 to path "vmhba32:C0:T0:L0".Cmd count Active:0 Queued:1.
2021-04-12T04:48:50.527Z cpu2:2097440)ScsiDeviceIO: 4315: Cmd(0x45b92ea76d40) 0x28, cmdId.initiator=0x4305f74cc780 CmdSN 0x1279 from world 2099370 to dev "mpx.vmhba32:C0:T0:L0" failed H:0x5 D:0x0 P:0x0 Cancelled from path layer.Cmd count Active:1
2021-04-12T04:48:50.527Z cpu2:2097440)Queued:4
因應措施:無。
- 已刪除的 CNS 磁碟區可能會在 CNS UI 中暫時顯示為存在
刪除支援 CNS 磁碟區的 FCD 磁碟後,該磁碟區可能仍會在 CNS UI 中顯示為存在。不過,嘗試刪除磁碟區會失敗。您可能會看到類似下列內容的錯誤訊息:
找不到參照的物件或項目
。
因應措施:下一次完整同步將可解決不一致的情況,並正確更新 CNS UI。
- 嘗試將多個 CNS 磁碟區附加至相同的網繭可能偶爾會失敗,並顯示錯誤
當您同時將多個磁碟區連結到相同的網繭時,附加作業可能偶爾會選擇相同的控制器插槽。因此,只有其中一個作業會成功,而其他磁碟區掛接會失敗。
因應措施:在 Kubernetes 重試失敗的作業後,如果節點虛擬機器上有可用的控制器插槽,則作業會成功。
- 在某些情況下,當 CNS 作業失敗時,vSphere Client 中的工作狀態會顯示為成功
比方說,當您使用不相容的儲存區原則來建立 CNS 磁碟區時,可能會發生此情況。作業會失敗,但 vSphere Client 會將工作狀態顯示為成功。
因應措施:vSphere Client 中的工作狀態為成功,並不保證 CNS 作業已成功。若要確定作業已成功,請確認其結果。
- 對 CNS 持續性磁碟區執行刪除作業失敗,可能會使磁碟區無法在 vSphere 資料存放區上取消刪除
當 CNS 刪除 API 嘗試刪除仍連結至網繭的持續性磁碟區時,可能會發生此問題。例如,當您刪除網繭執行所在的 Kubernetes 命名空間時。因此,該磁碟區會從 CNS 中清除,CNS 查詢作業不會傳回該磁碟區。但是,磁碟區會繼續存放在資料存放區上,且無法透過重複的 CNS 刪除 API 作業來刪除。
因應措施:無。
- 廠商提供者在 PNID 變更後離線
當您變更 vCenter IP 位址 (PNID 變更) 時,已登錄的廠商提供者會離線。
因應措施:重新登錄廠商提供者。
- 跨 vCenter 移轉虛擬機器失敗並顯示錯誤
當您使用跨 vCenter vMotion 將虛擬機器的儲存區和主機移至其他 vCenter Server 執行個體時,您可能會收到錯誤在目前的狀態下不允許執行此作業
。
如果虛擬機器指派有包含以主機為基礎的規則 (例如加密或任何其他 IO 篩選器規則) 的儲存區原則,則在「主機選取」步驟之後和「資料存放區選取」步驟之前,使用者介面精靈中會出現此錯誤。
因應措施:將虛擬機器及其磁碟指派給不含以主機為基礎的規則的儲存區原則。如果來源虛擬機器已加密,您可能需要解密虛擬機器。然後,重試跨 vCenter vMotion 動作。
- [硬體健全狀況] 索引標籤中的 [儲存區感應器] 資訊在 vCenter 使用者介面、主機使用者介面和 MOB 上顯示不正確的值
當您導覽至 vCenter 使用者介面上的主機 > 監控 > 硬體健全狀況 > 儲存區感應器時,儲存區資訊會顯示不正確或未知的值。主機使用者介面上以及 MOB 路徑 "runtime.hardwareStatusInfo.storageStatusInfo" 中也會出現相同的問題。
因應措施:無。
- vSphere 使用者介面主機進階設定會將目前的產品鎖定器位置顯示為空白,且預設為空白
vSphere 使用者介面主機進階設定會將目前的產品鎖定器位置顯示為空白,且預設為空白。這並不一致,因為實際的產品位置符號連結
已建立且有效。這會導致使用者造成混淆。無法從使用者介面更正預設值。
因應措施:使用者可以在主機上使用 esxcli 命令,以如下方式更正目前的產品鎖定器位置預設值。
1.移除具有以下內容的現有產品鎖定器位置設定:"esxcli system settings advanced remove -o ProductLockerLocation"
2.重新新增具有適當預設值的產品鎖定器位置設定:
2.a. 如果 ESXi 是完整安裝,則預設值為 "/locker/packages/vmtoolsRepo" export PRODUCT_LOCKER_DEFAULT="/locker/packages/vmtoolsRepo"
2.b.如果 ESXi 是 PXEboot 組態,例如 autodeploy,則預設值為:"/vmtoolsRepo" export PRODUCT_LOCKER_DEFAULT="/vmtoolsRepo"
執行下列命令以自動確定位置:export PRODUCT_LOCKER_DEFAULT=`readlink /productLocker`
新增設定:esxcli system settings advanced add -d "Path to VMware Tools repository" -o ProductLockerLocation -t string -s $PRODUCT_LOCKER_DEFAULT
您可以透過發出單一命令在步驟 2 中合併上述所有步驟:
esxcli system settings advanced add -d "Path to VMware Tools repository" -o ProductLockerLocation -t string -s `readlink /productLocker`
- 如果 vCenter Cloud Gateway 連結至 SDDC,則連結的軟體定義資料中心 (SDDC) vCenter Server 執行個體會顯示在內部部署 vSphere Client 中。
當 vCenter Cloud Gateway 部署在與內部部署 vCenter Server 相同的環境中,並連結至 SDDC,則 SDDC vCenter Server 會顯示在內部部署 vSphere Client 中。這是非預期的行為,因此應忽略連結的 SDDC vCenter Server。涉及連結的 SDDC vCenter Server 的所有作業應在 vCenter Cloud Gateway 內執行的 vSphere Client 上執行。
因應措施:無。
- 無法在已啟用用於共同管理所有主機上的映像設定和更新的叢集上啟用 NSX-T
NSX-T 與用於映像管理的 vSphere Lifecycle Manager 功能不相容。當您啟用叢集以在該叢集中的所有主機上共同進行映像設定和更新時,無法在該叢集上啟用 NSX-T。但是,您可以將 NSX Edge 部署到此叢集。
因應措施:將主機移到可使用基準進行管理的新叢集,並在該新叢集上啟用 NSX-T。
- vSphere Lifecycle Manager 和 vSAN 檔案服務不能同時在 vSphere 7.0 版本中的 vSAN 叢集上啟用
如果在叢集上啟用了 vSphere Lifecycle Manager,則不能在相同叢集中啟用 vSAN 檔案服務,反之亦然。若要在已啟用 VSAN 檔案服務的叢集上啟用 vSphere Lifecycle Manager,請先停用 vSAN 檔案服務,然後重試該作業。請注意,如果您轉換為由單一映像管理的叢集,則無法在該叢集上停用 vSphere Lifecycle Manager。
因應措施:無。
- 當硬體支援管理程式無法使用時,vSphere High Availability (HA) 功能會受到影響
如果在透過單一映像管理的叢集上無法使用硬體支援管理程式,其中已選取韌體和驅動程式附加元件並已啟用 vSphere HA,則 vSphere HA 功能會受到影響。您可能會遇到下列錯誤。
- 在叢集上設定 vSphere HA 失敗。
- 無法在主機上完成 vSphere HA 代理程式設定。
在叢集上套用 HA VIB 時發生故障。
- 修復 vSphere HA 失敗:
發生一般系統錯誤: 無法取得有效元件對應。
- 停用 vSphere HA 失敗:刪除解決方案工作失敗。
發生一般系統錯誤: 從存放庫或硬體支援管理程式中找不到硬體支援套件。
因應措施:
- 如果硬體支援管理程式暫時無法使用,請執行下列步驟。
- 將硬體支援管理程式重新連線至 vCenter Server。
- 從 [主機和叢集] 功能表中選取叢集。
- 選取 [設定] 索引標籤。
- 在 [服務] 下,按一下 [vSphere 可用性]。
- 重新啟用 vSphere HA。
- 如果硬體支援管理程式永久無法使用,請執行下列步驟。
- 從映像規格中移除硬體支援管理程式和硬體支援套件
- 重新啟用 vSphere HA。
- 從 [主機和叢集] 功能表中選取叢集。
- 選取 [更新] 索引標籤。
- 按一下 [編輯]。
- 移除韌體和驅動程式附加元件,然後按一下 [儲存]。
- 選取 [設定] 索引標籤。
- 在 [服務] 下,按一下 [vSphere 可用性]。
- 重新啟用 vSphere HA。
- 在 vSphere Lifecycle Manager 中執行修復程序後,未從叢集中移除 I/OFilter
透過在 vSphere Lifecycle Manager 中修復叢集以從叢集中移除 I/OFilter 失敗,並顯示下列錯誤訊息:iofilter XXX 已存在
。該 iofilter 仍會列示為已安裝。
因應措施:
- 從 vCenter Server 受管理物件 (IoFilterManager) 呼叫 IOFilter API
UninstallIoFilter_Task
。
- 在 vSphere Lifecycle Manager 中修復叢集。
- 從 vCenter Server 受管理物件 (IoFilterManager) 呼叫 IOFilter API
ResolveInstallationErrorsOnCluster_Task
,以更新資料庫。
- 在 vSphere Lifecycle Manager 中修復已啟用 vSphere HA 的叢集的同時,新增主機會導致 vSphere HA 錯誤狀態
在已啟用 vSphere HA 之叢集的修復程序期間新增一或多個 ESXi 主機,會導致下列錯誤訊息:在叢集上套用 HA VIB 時發生故障。
因應措施:在叢集修復作業完成後,執行下列其中一項工作。
- 在出現故障的 ESXi 主機上按一下滑鼠右鍵,然後選取針對 vSphere HA 重新設定。
- 針對叢集停用並重新啟用 vSphere HA。
- 在 vSphere Lifecycle Manager 中修復已啟用 vSphere HA 的叢集的同時,停用並重新啟用 vSphere HA 會導致 vSphere HA 錯誤狀態
由於 vSphere HA 健全狀況檢查報告主機尚未安裝 vSphere HA VIB,在叢集的修復程序期間停用並重新啟用 vSphere HA 可能會導致修復程序失敗。您可能會看到以下錯誤訊息:為叢集設定所需的映像規格失敗
。
因應措施:在叢集修復作業完成後,針對叢集停用並重新啟用 vSphere HA。
- 在 vSphere Lifecycle Manager 中檢查大型叢集中的建議映像時效能低下
在具有超過 16 個主機的大型叢集中,建議產生工作可能需要超過一小時的時間才能完成,或者可能會顯示為當機。建議工作的完成時間取決於在每個主機上設定的裝置數目,以及 vSphere Lifecycle Manager 在取得有效的建議映像之前需要處理的存放庫中的映像候選數目。
因應措施:無。
- 在 vSphere Lifecycle Manager 中檢查大型叢集中的硬體相容性時效能低下
在具有超過 16 個主機的大型叢集中,驗證報告產生工作可能最多需要 30 分鐘的時間才能完成,或者可能會顯示為當機。完成時間取決於在每個主機上設定的裝置數目,以及叢集中設定的主機數目。
因應措施:無
- 在 vSphere Lifecycle Manager 中修復叢集時,會以非英文顯示不完整的錯誤訊息
在 vCenter Server 使用者介面中,可能會出現當地語系化語言的不完整錯誤訊息。vSphere Lifecycle Manager 中的叢集修復程序失敗後,會顯示這些訊息。例如,您可能會看到下列錯誤訊息。
以英文顯示的錯誤訊息:Virtual machine 'VMC on DELL EMC -FileServer' that runs on cluster 'Cluster-1' reported an issue which prevents entering maintenance mode: Unable to access the virtual machine configuration: Unable to access file[local-0] VMC on Dell EMC - FileServer/VMC on Dell EMC - FileServer.vmx
以法文顯示的錯誤訊息:La VM « VMC on DELL EMC -FileServer », située sur le cluster « {Cluster-1} », a signalé un problème empêchant le passage en mode de maintenance : Unable to access the virtual machine configuration: Unable to access file[local-0] VMC on Dell EMC - FileServer/VMC on Dell EMC - FileServer.vmx
因應措施:無。
- 將不含廠商附加元件、元件或韌體和驅動程式附加元件的映像匯入到其映像包含此類元素的叢集,不會移除現有映像的映像元素
僅會將 ESXi 基礎映像取代為已匯入映像中的映像。
因應措施:匯入程序完成後,編輯映像,並視需要移除廠商附加元件、元件以及韌體和驅動程式附加元件。
- 將使用基準的叢集轉換為使用單一映像的叢集時,會顯示一個警告,指出 vSphere HA VIB 將被移除
將使用基準的已啟用 vSphere HA 的叢集轉換為使用單一映像的叢集可能會導致出現警告訊息,指出 vmware-fdm
元件將被移除。
因應措施:可忽略此訊息。轉換程序會安裝 vmware-fdm
元件。
- 如果 vSphere Update Manager 設定為透過 Proxy 伺服器從網際網路下載修補程式更新,則在升級至 vSphere 7.0 (將 Update Manager 轉換為 vSphere Lifecycle Manager) 後,從 VMware 修補程式存放庫下載修補程式可能會失敗
在舊版 vCenter Server 中,您可以針對 vCenter Server 和 vSphere Update Manager 設定獨立 Proxy 設定。升級至 vSphere 7.0 後,vSphere Update Manager 服務會成為 vSphere Lifecycle Manager 服務的一部分。對於 vSphere Lifecycle Manager 服務,將從 vCenter Server Appliance 設定中進行 Proxy 設定。如果您已將 Update Manager 設定為透過 Proxy 伺服器從網際網路下載修補程式更新,但 vCenter Server Appliance 沒有 Proxy 設定組態,則在 vCenter Server 升級至 7.0 版後,vSphere Lifecycle Manager 無法連線至 VMware 存放庫且無法下載修補程式或更新。
因應措施:登入 vCenter Server Appliance 管理介面 (https://vcenter-server-appliance-FQDN-or-IP-address:5480),以設定 vCenter Server Appliance 的 Proxy 設定,並啟用 vSphere Lifecycle Manager 以使用 Proxy。
- 將版本 6.5 的主機設定檔套用到版本 7.0 的 ESXi 主機時,符合性檢查會失敗
將版本 6.5 的主機設定檔套用到版本 7.0 的 ESXi 主機時,會導致核心傾印檔設定檔報告為與主機不相符。
因應措施:有兩種可行的因應措施。
- 當您建立版本 6.5 的主機設定檔時,請在 ESXi 主機上將進階組態選項 VMkernel.Boot.autoCreateDumpFile 設定為 false。
- 當您套用版本 6.5 的現有主機設定檔時,請在主機設定檔中新增進階組態選項 VMkernel.Boot.autoCreateDumpFile,將選項設定為固定原則,並將值設定為 false。
- 當動態接收端調整 (DYN_RSS) 或一般 RSS (GEN_RSS) 功能已開啟時,Mellanox ConnectX-4 或 ConnectX-5 原生 ESXi 驅動程式可能會出現輕微輸送量降低的情況
當 DYN_RSS 和 GEN_RSS 功能開啟時,Mellanox ConnectX-4 或 ConnectX-5 原生 ESXi 驅動程式的輸送量下降可能不到 5%,這可能會影響正常工作負載。
因應措施:您可以使用下列命令停用 DYN_RSS 和 GEN_RSS 功能:
# esxcli system module parameters set -m nmlx5_core -p "DYN_RSS=0 GEN_RSS=0"
# reboot
- 在 PVRDMA 環境中,同一主機上的兩個虛擬機器之間的 RDMA 流量可能會出現故障
在 PVRDMA 環境的 vSphere 7.0 實作中,如果存在 HCA,虛擬機器會透過 HCA 傳遞流量以進行本機通訊。但是,RDMA 流量的回送無法在 qedrntv 驅動程式上運作。 例如,在同一個上行連接埠下設定之虛擬機器上執行的 RDMA 佇列配對無法相互通訊。
在 vSphere 6.7 及更早版本中,如果 SRQ 已啟用,則 HCA 用於本機 RDMA 流量。對於使用已啟用 SRQ 的 PVRDMA 版本以及使用 RoCE v2 的最低硬體版本 14 的虛擬機器,vSphere 7.0 將會使用 HCA 回送。
目前版本的 Marvell FastLinQ 介面卡韌體不支援相同 PF 或連接埠的 QP 之間的回送流量。
因應措施:將在已通過 vSphere 7.0 認證的立即可用的驅動程式中新增必要支援。如果您使用的是收件匣 qedrntv 驅動程式,則必須使用包含 3 個主機的組態,並將虛擬機器移到第三個主機。
- qedrntv 驅動程式中不可靠的資料包流量 QP 存在限制
Marvell FastLinQ qedrntv RoCE 驅動程式與不可靠的資料包 (UD) 流量有限制。在 qedrntv 驅動程式中,涉及大量流量的 UD 應用程式可能會失敗。此外,UD QP 僅適用於 DMA 記憶體區域 (MR)。不支援實體 MR 或 FRMR。嘗試使用實體 MR 或 FRMR 以及 UD QP 的應用程式在與 qedrntv 驅動程式搭配使用時無法傳遞流量。此類測試應用程式的已知範例為 ibv_ud_pingpong
和 ib_send_bw
。
VMware ESXi 環境中的標準 RoCE 和 RoCEv2 使用案例,例如 iSER、NVMe-oF (RoCE) 和 PVRDMA,不受此問題影響。用於 UD 流量的使用案例會受到限制,此問題會影響需要大量 UD 流量的一小部分應用程式。
Marvell FastLinQ 硬體不支援 RDMA UD 流量卸載。為了滿足支援 GSI QP 的 VMware PVRDMA 需求,qedrntv 驅動程式中新增了 UD QP 支援的僅受限軟體實作。實作的目標是為控制路徑 GSI 通訊提供支援,而不是完整實作 UD QP (支援大量流量和進階功能)。
由於在軟體中實作了 UD 支援,因此,實作可能不會維持大量流量,且封包可能會遭到捨棄。這可能會導致大量 UD 流量出現故障。
因應措施:qedrntv 驅動程式不支援大量 UD QP 流量,並且目前沒有因應措施。諸如 iSER、NVMe、RDMA 和 PVRDMA 等 VMware ESXi RDMA (RoCE) 使用案例不受此問題影響。
- 在頻繁連線或中斷連線 iSCSI LUN 時,配備 QLogic 578xx NIC 的伺服器可能會失敗
如果您在短時間內頻繁觸發 QLogic 578xx NIC iSCSI 連線或中斷連線,則伺服器可能會因為 qfle3 驅動程式的問題而失敗。這是由於裝置韌體中的已知缺陷所致。
因應措施:無。
- 在 Broadcom NVMe over FC 環境中,ESXi 可能會在驅動程式解除載入或控制器中斷連線作業期間失敗
在 Broadcom NVMe over FC 環境中,ESXi 可能會在驅動程式解除載入或控制器中斷連線作業期間失敗,並顯示類似下列內容的錯誤訊息:@BlueScreen: #PF Exception 14 in world 2098707:vmknvmeGener IP 0x4200225021cc addr 0x19
因應措施:無。
- 在某些 Dell 伺服器上,ESXi 不會顯示 i350/X550 NIC 的 OEM 韌體版本號碼
收件匣 ixgben 驅動程式僅可識別 i350/X550 NIC 的韌體資料版本或簽章。在某些 Dell 伺服器上,OEM 韌體版本號碼將按照 OEM 套件版本區域進行程式設計,而收件匣 ixgben 驅動程式無法讀取此資訊。僅會顯示 8 位數的韌體簽章。
因應措施:若要顯示 OEM 韌體版本號碼,請安裝非同步 ixgben 驅動程式版本 1.7.15 或更新版本。
- 在 ESXi 中,X710 或 XL710 NIC 可能會失敗
當您對 X710 或 XL710 NIC 起始某些破壞性作業 (例如,重設 NIC 或操縱 VMKernel 的內部裝置樹狀結構) 時,NIC 硬體可能會從非封包記憶體讀取資料。
因應措施:請勿重設 NIC 或操縱 vmkernel 內部裝置狀態。
- 在系統重新開機後,NVMe-oF 無法保證持續性 VMHBA 名稱
NVMe-oF 是 vSphere 7.0 中的一項新功能。如果您的伺服器具有使用 vmhba30+ 的 USB 儲存區安裝並且還具有 NVMe over RDMA 組態,則在系統重新開機後,VMHBA 名稱可能會變更。這是因為針對 NVMe over RDMA 的 VMHBA 名稱指派與 PCIe 裝置不同。ESXi 無法保證持續性。
因應措施:無。
- 針對 300 GB 或以上的 vCenter 資料庫大小備份失敗
如果 vCenter 資料庫大小為 300 GB 或以上,則以檔案為基礎的備份將會失敗並出現逾時。且會顯示下列錯誤訊息:逾時! 無法在 72000 秒內完成。
因應措施:無。
- 還原從含外部 Platform Services Controller 的 vCenter Server 6.x 升級至 vCenter Server 7.0 的 vCenter Server 7.0 可能會失敗
當您還原從含外部 Platform Services Controller 的 6.x 升級至 vCenter Server 7.0 的 vCenter Server 7.0 時,還原可能會失敗,並顯示下列錯誤:無法擷取應用裝置儲存清單
因應措施:在還原程序的第一個階段期間,請增加 vCenter Server 7.0 的儲存區層級。例如,如果 vCenter Server 6.7 外部 Platform Services Controller 設定的儲存區類型較小,請針對還原程序選取較大儲存區類型。
- 在主機設定檔修復程序期間未設定已啟用的 SSL 通訊協定組態參數
在主機設定檔修復期間未設定已啟用的 SSL 通訊協定
組態參數,並且僅啟用系統預設通訊協定 tlsv1.2
。在 vCenter Server 7.0 環境中,版本 7.0 及更早版本的主機設定檔會出現此行為。
因應措施:若要為 SFCB 啟用 TLSV 1.0 或 TLSV 1.1 SSL 通訊協定,請使用 SSH 登入 ESXi 主機,然後執行下列 ESXCLI 命令:esxcli system wbem -P <protocol_name>
- 無法使用主機設定檔設定鎖定模式設定
鎖定模式無法透過安全性主機設定檔進行設定,且無法一次套用到多個 ESXi 主機。您必須手動設定每個主機。
因應措施:在 vCenter Server 7.0 中,您可以使用安全性主機設定檔來設定鎖定模式並管理鎖定模式例外使用者清單。
- 將主機設定檔套用到叢集時,ESXi 主機中遺失增強型 vMotion 相容性 (EVC) 設定
當 VMware 組態檔 /etc/vmware/config
修改後,該組態檔中的某些設定不會由主機設定檔管理並且被封鎖。因此,當主機設定檔套用到叢集時,EVC 設定會遺失,從而導致 EVC 功能缺失。例如,取消遮罩的 CPU 會向工作負載公開。
因應措施:重新設定叢集中的相關 EVC 基準以復原 EVC 設定。
- 在 vCenter Server 7.0 中使用定義核心傾印磁碟分割的主機設定檔會導致錯誤
在 vCenter Server 7.0 中,無法在主機設定檔中設定和管理核心傾印磁碟分割。嘗試套用定義核心傾印磁碟分割的主機設定檔時,會產生下列錯誤:找不到任何有效的核心傾印磁碟分割。
因應措施:無。在 vCenter Server 7.0 中,主機設定檔僅支援以檔案為基礎的核心傾印。
- 如果執行 ESXCLI 命令來解除載入防火牆模組,則 hostd 服務會失敗,並且 ESXi 主機會中斷連線
如果您在包含多個 ESXi 主機的環境中自動執行防火牆組態,並執行破壞篩選器和解除載入防火牆模組的 ESXCLI 命令 esxcli network firewall unload
,則 hostd 服務會失敗,並且 ESXi 主機會中斷連線。
因應措施:建議在任何時候都不要解除載入防火牆模組。如果必須解除載入防火牆模組,請使用下列步驟:
- 使用以下命令停止 hostd 服務:
/etc/init.d/hostd stop。
- 使用以下命令解除載入防火牆模組:
esxcli network firewall unload。
- 執行必要的作業。
- 使用以下命令載入防火牆模組:
esxcli network firewall load。
- 使用以下命令啟動 hostd 服務:
/etc/init.d/hostd start。
- 由於網路檔案複製 (NFC) 管理程式的工作階段未經驗證,在 vSAN 環境中執行 vSphere Storage vMotion 作業可能會失敗
透過對至少具有一個快照和多個虛擬磁碟 (使用不同的儲存區原則) 的虛擬機器執行 vSphere Storage vMotion 來移轉到 vSAN 資料存放區可能會失敗。發生此問題的原因是,由於簡單物件存取通訊協定 (SOAP) 主體超過允許的大小,導致 NFC 管理程式的工作階段未經驗證。
因應措施:先移轉虛擬機器首頁命名空間,並且僅移轉其中一個虛擬磁碟。完成此作業後,對其餘 2 個磁碟執行僅磁碟移轉。
- 在重新開機後,可能不會保存 ESXi 主機上的裝置和儲存區的內容和屬性變更
如果裝置探索程序常式在 ESXi 主機重新開機期間逾時,則 jumpstart 外掛程式可能不會從主機上所有已登錄的裝置接收到裝置和儲存區的所有組態變更。這樣一來,此程序可能會在重新開機後將部分裝置或儲存區的內容還原為預設值。
因應措施:手動還原受影響的裝置或儲存區的內容變更。
- 如果使用 ESXi 7.0 Beta 版,在某些生命週期作業期間,ESXi 主機可能會失敗並顯示紫色診斷畫面
如果使用 ESXi 7.0 Beta 版,則在某些生命週期作業 (例如,解除載入驅動程式或在 ENS 模式和原生驅動程式模式之間切換) 期間,ESXi 主機可能會失敗並顯示紫色診斷畫面。例如,如果您嘗試變更 ENS 模式,則在反向追蹤中會顯示類似下列內容的錯誤訊息:case ENS::INTERRUPT::NoVM_DeviceStateWithGracefulRemove hit BlueScreen: ASSERT bora/vmkernel/main/dlmalloc.c:2733
此問題特定於 Beta 版,不會影響 ESXi 7.0 等發行版本。
因應措施:更新至 ESXi 7.0 GA。
- 由於摘要作業失敗錯誤,無法建立虛擬機器的快照
如果發生在更新以內容為基礎的讀取快取 (CBRC) 摘要檔案期間出現所有路徑失效 (APD) 狀態的罕見競爭情形,可能會導致摘要檔案不一致。因此,無法建立虛擬機器快照。在反向追蹤中,會顯示類似下列內容的錯誤:儲存快照時發生錯誤: 摘要作業失敗
。
因應措施:重新啟動虛擬機器電源以觸發對 CBRC 雜湊進行重新計算,並清除摘要檔案中的不一致情況。
- 由於 qedentv 驅動程式中極少見的競爭情形,ESXi 主機可能會失敗,並顯示紫色診斷畫面
qedentv 驅動程式中極少見的競爭情形可能會導致 ESXi 主機失敗並顯示紫色診斷畫面。如果在一般服務介面 (GSI) 佇列配對 (QP) 銷毀後立即出現 Rx 完全中斷 (例如,在 qedentv 驅動程式解除載入或系統關閉期間),則會發生此問題。在這種情況下,qedentv 驅動程式可能會存取已釋放的 QP 位址,從而造成 PF 例外狀況。在與具有大量未經請求的 GSI 流量的忙碌實體交換器連線的 ESXi 主機中,可能會發生此問題。在反向追蹤中,會顯示類似下列內容的訊息:
cpu4:2107287)0x45389609bcb0:[0x42001d3e6f72]qedrntv_ll2_rx_cb@(qedrntv)#<None>+0x1be stack: 0x45b8f00a7740, 0x1e146d040, 0x432d65738d40, 0x0, 0x
2021-02-11T03:31:53.882Z cpu4:2107287)0x45389609bd50:[0x42001d421d2a]ecore_ll2_rxq_completion@(qedrntv)#<None>+0x2ab stack: 0x432bc20020ed, 0x4c1e74ef0, 0x432bc2002000,
2021-02-11T03:31:53.967Z cpu4:2107287)0x45389609bdf0:[0x42001d1296d0]ecore_int_sp_dpc@(qedentv)#<None>+0x331 stack: 0x0, 0x42001c3bfb6b, 0x76f1e5c0, 0x2000097, 0x14c2002
2021-02-11T03:31:54.039Z cpu4:2107287)0x45389609be60:[0x42001c0db867]IntrCookieBH@vmkernel#nover+0x17c stack: 0x45389609be80, 0x40992f09ba, 0x43007a436690, 0x43007a43669
2021-02-11T03:31:54.116Z cpu4:2107287)0x45389609bef0:[0x42001c0be6b0]BH_Check@vmkernel#nover+0x121 stack: 0x98ba, 0x33e72f6f6e20, 0x0, 0x8000000000000000, 0x430000000001
2021-02-11T03:31:54.187Z cpu4:2107287)0x45389609bf70:[0x42001c28370c]NetPollWorldCallback@vmkernel#nover+0x129 stack: 0x61, 0x42001d0e0000, 0x42001c283770, 0x0, 0x0
2021-02-11T03:31:54.256Z cpu4:2107287)0x45389609bfe0:[0x42001c380bad]CpuSched_StartWorld@vmkernel#nover+0x86 stack: 0x0, 0x42001c0c2b44, 0x0, 0x0, 0x0
2021-02-11T03:31:54.319Z cpu4:2107287)0x45389609c000:[0x42001c0c2b43]Debug_IsInitialized@vmkernel#nover+0xc stack: 0x0, 0x0, 0x0, 0x0, 0x0
2021-02-11T03:31:54.424Z cpu4:2107287)^[[45m^[[33;1mVMware ESXi 7.0.2 [Releasebuild-17435195 x86_64]^[[0m
#PF Exception 14 in world 2107287:vmnic7-pollW IP 0x42001d3e6f72 addr 0x1c
因應措施:無
- 可能會拒絕由特定程式庫向 vSphere 發出的 HTTP 要求
vSphere 7.0 中的 HTTP 反向 Proxy 會強制執行比先前版本更嚴格的標準符合性。這可能會在應用程式用於對 vSphere 之 SOAP 呼叫的某些第三方程式庫中暴露預先存在的問題。
如果開發使用此類程式庫的 vSphere 應用程式或包括依賴 vSphere 堆疊中這類程式庫的應用程式,則當這些程式庫向 VMOMI 傳送 HTTP 要求時,您可能會遇到連線問題。例如,從 vijava 程式庫發出的 HTTP 要求會採用下列格式:
POST /sdk HTTP/1.1
SOAPAction
Content-Type: text/xml; charset=utf-8
User-Agent: Java/1.8.0_221
此範例中的語法違反了必須在 SOAPAction 後使用冒號的 HTTP 通訊協定標頭欄位要求。因此,要求會在執行過程中遭到拒絕。
因應措施:在應用程式中使用不符合標準的程式庫的開發人員,可以考慮改用遵循 HTTP 標準的程式庫。例如,使用 vijava 程式庫的開發人員可以改為使用最新版本的 yavijava 程式庫。
- 在主機設定檔中編輯進階選項參數,並將值設定為 false 時,會導致將值設定為 true
在主機設定檔中嘗試將進階選項參數的值設定為 false
時,使用者介面會建立一個非空白字串值。非空白的值會轉譯為 true
,而進階選項參數則會在主機設定檔中收到 true
值。
因應措施:有兩種可行的因應措施。
- 在參考 ESXi 主機上將進階選項參數設定為
false
,並從此主機的主機設定檔中複製設定。
附註:主機必須符合主機設定檔,才能在主機上修改進階選項參數。
- 在參考 ESXi 主機上將進階選項參數設定為
false
,並從此主機建立主機設定檔。然後將主機設定檔設定從新的主機設定檔複製到現有的主機設定檔。
- 使用 Broadcom 驅動程式 lsi_msgpt3、lsi_msgpt35 和 lsi_mr3 時,可能會看到傾印檔案
使用 lsi_msgpt3、lsi_msgpt35 和 lsi_mr3 控制器時,看到傾印檔案 lsuv2-lsi-drivers-plugin-util-zdump 會有潛在的風險。結束此外掛程式公用程式中使用的 storelib 時,會發生問題。不會對 ESXi 作業產生任何影響,您可以忽略此傾印檔案。
因應措施:您可以放心地忽略此訊息。您可以使用下列命令移除 lsuv2-lsi-drivers-plugin:
esxcli software vib remove -n lsuv2-lsiv2-drivers-plugin
- 在 vCenter 中配置 PCI 裝置的 SR-IOV 之後,您可能會看到不需要重新開機,但第三方延伸所進行的裝置組態可能會遺失,且需要重新開機才能重新套用。
在 ESXi 7.0 中,會套用 SR-IOV 組態而無需重新開機,且會重新載入裝置磁碟機。ESXi 主機可能具有第三方延伸執行在開機期間載入裝置磁碟機後需要執行的裝置組態。需要重新開機,這些第三方延伸才能重新套用裝置組態。
因應措施:您必須在設定 SR-IOV 後重新開機,才能套用第三方裝置組態。