您可以使用邏輯和實體分隔的兩個非可路由 VLAN 產生氣隙拓撲。
此範例提供 vSphere Distributed Switch 的組態步驟,但您也可以使用 vSphere 標準交換器。它使用 2 個 10 Gb 的實體 NIC,並以邏輯方式將其分隔在 vSphere 網路層。
為每個 vSAN VMkernel vmknic 建立兩個分散式連接埠群組。每個連接埠群組都有一個單獨的 VLAN 標籤。對於 vSAN VMkernel 組態,vSAN 流量需要這兩個 VLAN 上的兩個 IP 位址。
實際的實作通常會使用四個實體上行來實現完整備援。
對於每個連接埠群組,整併和容錯移轉原則會使用預設設定。
-
負載平衡設定為根據原始連接埠識別碼進行路由
-
網路故障偵測設定為僅限連結狀態
-
通知交換器設定為預設值是
-
容錯回復設定為預設值是
-
上行組態在作用中位置有一個上行,且未使用位置有一個上行。
一個網路與其他網路完全隔離。
vSAN 連接埠群組 1
此範例使用名為 vSAN-DPortGroup-1 的分散式連接埠群組。使用下列整併和容錯移轉原則,為此連接埠群組標記 VLAN 3266:
-
連接埠群組上的流量標記為 VLAN 3266
-
負載平衡設定為根據原始連接埠識別碼進行路由
-
網路故障偵測設定為僅限連結狀態
-
通知交換器設定為預設值是
-
容錯回復設定為預設值是
-
上行組態在作用中位置有上行 1,且未使用位置有上行 2。
vSAN 連接埠群組 2
若要補充 vSAN 連接埠群組 1,請設定名為 vSAN-2 的第二個分散式連接埠群組,其差異如下:
-
連接埠群組上的流量標記為 VLAN 3265
-
上行組態在作用中位置有上行 2,且未使用位置有上行 1。
vSAN VMkernel 連接埠組態
建立兩個 vSAN VMkernel 介面及在兩個連接埠群組上。在此範例中,連接埠群組名為 vmk1 和 vmk2。
-
vmk1 與 VLAN 3266 (172.40.0.xx) 相關聯,且作為產生的連接埠群組 vSAN-DPortGroup-1。
-
vmk2 與 VLAN 3265 (192.60.0.xx) 相關聯,且作為產生的連接埠群組 vSAN-DPortGroup-2。
負載平衡
vSAN 沒有負載平衡機制可區分多個 vmknic,因此所選的 vSAN I/O 路徑在實體 NIC 之間不具確定性。vSphere 效能圖顯示某個實體 NIC 的使用頻率往往高於另一個實體 NIC。在我們實驗室中執行的簡單 I/O 測試,使用 120 台虛擬機器搭配 70:30 讀取/寫入比率,並於四台主機的全快閃 vSAN 叢集上使用 64K 區塊大小,顯示了 NIC 間不平衡的負載。
vSphere 效能圖顯示 NIC 間的負載不平衡。
網路上行備援遺失
考慮在此組態中出現的網路故障。指定的 vSAN 主機上已停用 vmnic1。因此,連接埠 vmk2 會受到影響。失敗的 NIC 同時觸發網路連線警示和備援警示。
針對 vSAN,此容錯移轉程序會在 CMMDS (叢集監控、成員資格和目錄服務) 偵測到失敗後觸發大約 10 秒。在容錯移轉和復原期間,vSAN 會停止失敗網路上的任何作用中連線,並嘗試在剩餘的正常運作網路上重新建立連線。
由於兩個分隔的 vSAN VMkernel 連接埠會在隔離的 VLAN 上進行通訊,因此可能會觸發 vSAN 健全狀況檢查失敗。這是可以預期的,因為 vmk2 無法再於 VLAN 3265 上與其對等節點進行通訊。
效能圖顯示受影響的工作負載已在 vmnic0 上重新開始,因為 vmnic1 發生故障 (已針對此測試目的停用)。此測試說明 vSphere NIC 整併與此拓撲之間的重要差異。vSAN 會嘗試在剩餘的網路上重新建立或重新開始連線。
但是,在某些故障案例中,由於 ESXi TCP 連線逾時,復原受影響的連線可能需要最多 90 秒才能完成。後續連線嘗試可能會失敗,但連線嘗試會在 5 秒後逾時,並嘗試對所有可能的 IP 位址進行輪替。此行為可能會影響虛擬機器客體 I/O。因此,可能需要重試應用程式和虛擬機器 I/O。
例如,在 Windows Server 2012 虛擬機器上,可能會在容錯移轉和復原程序期間記錄事件識別碼 153 (裝置重設) 和 129 (重試事件)。在此範例中,在復原 I/O 之前,記錄了事件識別碼 129 大約 90 秒。
您可能必須修改某些客體作業系統的磁碟逾時設定,以確保它們不會受到嚴重影響。磁碟逾時值可能會有所不同,具體取決於 VMware Tools 是否存在,以及特定的客體作業系統類型和版本。如需有關變更客體作業系統磁碟逾時值的詳細資訊,請移至 VMware 知識庫 1009465。
復原和容錯回復
當網絡恢復時,除非發生強制平衡工作負載的其他故障,否則工作負載不會自動重新平衡。一旦受影響的網路復原,它便可用於新的 TCP 連線。