更新時間:2021 年 4 月 06 日

VMware vSphere Bitfusion 3.0.1 | 2021 年 4 月 06 日 | 組建編號 4

多個修正。請參閱〈已解決的問題:vSphere Bitfusion 3.0.1〉

VMware vSphere Bitfusion 3.0 | 2021 年 3 月 11 日 | 組建編號 11

版本說明的內容

此版本說明涵蓋下列主題。

關於 vSphere Bitfusion

VMware vSphere Bitfusion 共用圖形處理單元 (GPU) 等加速器以提供網路可存取的共用資源集區,從而能夠支援資源密集型人工智慧 (AI) 和機器學習 (ML) 工作負載。vSphere Bitfusion 可跨 AI 架構、雲端站台、網路以及在虛擬機器、容器和筆記型電腦等環境中運作。

vSphere Bitfusion 3.0 的新增功能

  • 後續 vSphere Bitfusion 伺服器的全新安裝體驗
  • 改善了對具有多個網路的 vSphere Bitfusion 伺服器的支援
  • 在 vSphere Bitfusion 用戶端上透明安裝 nvidia-smi 應用程式
  • NVIDIA 驅動程式 460
  • NVIDIA CUDA 11.1
  • 支援 TensorFlow 2.4
  • 支援 PyTorch 1.6
  • 支援 TensorRT 7.1.3
  • 支援 PaddlePaddle 2.0

系統需求

如需 vSphere Bitfusion 用戶端和伺服器的系統需求清單,請參閱《vSphere Bitfusion 安裝指南》

相容性和互通性

如需與 vSphere Bitfusion 相容的版本、型號和產品的清單,請參閱〈VMware vSphere Bitfusion 相容性和互通性〉頁面。

開放原始碼元件

下列網址提供了適用於 vSphere Bitfusion 3.0 中散佈的開放原始碼軟體元件的版權聲明與授權:http://www.vmware.com。可以針對任意 GPL、LGPL、需要原始程式碼或需要修改原始程式碼的其他類似授權下載來源檔案,以使其適用於 vSphere Bitfusion 的最新可用版本。

已解決的問題

已解決的問題分類如下。

vSphere Bitfusion 3.0.1
  • 使用 vSphere Bitfusion 外掛程式安裝後續伺服器時,主要網路只能是標準網路

    已在此版本中修正此問題。主要網路可以是具有 VMXNET3 或 PVRDMA 介面卡的分散式連接埠群組。

  • CUDA 11.1 範例測試可能會導致 cuModuleGetGlobal_v2 模組失敗

    已在此版本中修正此問題。

VMware vSphere Bitfusion 3.0
  • vSphere Bitfusion 伺服器未回應 Ping 動作

    已在此版本中修正此問題。

VMware vSphere Bitfusion 2.5.1
  • 支援服務包包含更多資訊

    此版本包含支援服務包中的其他記錄。

  • 如果 ESXi 主機上已部署 vSphere Bitfusion 伺服器,則無法擷取主機設定檔

    已在此版本中修正此問題。

  • vSphere Bitfusion 無法驗證 NTP 伺服器組態

    此版本包含健全狀況檢查,用於驗證 NTP 伺服器是否已正確設定。

  • NTP 組態問題可能會導致 vSphere Bitfusion 伺服器時鐘偏離同步

    vSphere Bitfusion 伺服器應用裝置的預設 NTP 組態包含可解決此問題的改進。

  • 如果網路介面已連線到不同的網路,則 vSphere Bitfusion 無法將個別網路介面用於資料和管理流量

    已在此版本中修正此問題。有兩個新的客體變數,您可以將其設定為使用所需的網路介面。您可以使用 guestinfo.bitfusion.server.web-ifaceguestinfo.bitfusion.server.mgmt-iface 變數,以將資料流量和管理流量指派給網路介面。

  • 當您在客戶密碼中輸入特殊字元時,vSphere Bitfusion 伺服器的部署會失敗

    已在此版本中修正此問題。

已知問題

已知問題分類如下。

GPU 問題
  • 不支援虛擬 GPU

    此版本不支援 NVIDIA 虛擬 GPU 軟體和 NVIDIA GRID 虛擬 GPU 技術。

  • 部署後續 vSphere Bitfusion 伺服器時無法指定 GPU 記憶體

    使用 vSphere Bitfusion 外掛程式安裝後續伺服器時,在選取 GPU 頁面上指定 GPU 記憶體總計對 vSphere Bitfusion 伺服器的已部署虛擬機器沒有影響。

  • 將多個 GPU 新增至 vSphere Bitfusion 伺服器虛擬機器後,虛擬機器無法啟動

    將多個 GPU 新增至 vSphere Bitfusion 伺服器虛擬機器時,vCenter Server 會多次新增第一個 GPU。如此一來,虛擬機器便無法啟動。

    因應措施:使用唯一值為其他 GPU 更新 PCI 匯流排識別碼。

    1. 在 vSphere Client 中,在詳細目錄內的 vSphere Bitfusion 虛擬機器上按一下滑鼠右鍵,然後選取編輯設定
    2. 從每個 PCI 裝置下拉式功能表中,為 GPU 選取唯一識別碼。
  • 當 vSphere Bitfusion 伺服器上使用的 GPU 的記憶體總計超過 128 GB 時,無法使用 GPU 傳遞

    依預設,GPU 傳遞 pciPassthru.64bitMMIOSizeGB 的進階虛擬機器內容設定為 256。如果單一 vSphere Bitfusion 伺服器上使用的 GPU 的記憶體總計超過 128 GB,此組態可能會導致傳遞失敗。

    因應措施:

    1. pciPassthru.64bitMMIOSizeGB 計算正確的值。計算 vSphere Bitfusion 伺服器虛擬機器使用的 PCI 裝置 (例如 GPU 和網路卡) 的數目,將此數值乘以 GPU 大小 (以 GB 為單位),然後將值向上四捨五入到下一個 2 的乘冪。例如,若要將 GPU 傳遞用於 2 個 16 GB 的 GPU 裝置,請將值向上四捨五入為 64 (2 * 16 = 32 * 2 = 64)。對於單一 16 GB GPU,請使用值 32。
    2. 修改虛擬機器內容。
      1. 導覽至虛擬機器,選取該虛擬機器,然後關閉其電源。
      2. 選取虛擬機器後,選取動作 > 編輯設定 > 虛擬機器選項 > 進階 > 編輯組態。  
      3. 搜尋 pciPassthru.64bitMMIOSizeGB,然後設定新值。
      4. 開啟虛擬機器電源。
  • 單一 GPU 可能在 vCenter Server 中出現多次

    在 vCenter Server 中,NVIDIA T4 GPU 可能出現多次。

    因應措施:在 ESXi 主機的 BIOS 設定中,啟用 SR-IOV 支援。

  • 從 vSphere Bitfusion 叢集中刪除的 vSphere Bitfusion 用戶端仍可請求 GPU

    使用 vSphere Bitfusion 外掛程式刪除 vSphere Bitfusion 用戶端 2.0.2 版及更早版本後,該用戶端可以繼續從 vSphere Bitfusion 伺服器請求 GPU。

    因應措施:執行下列其中一項工作。

    • 如果您使用 vSphere Bitfusion 外掛程式啟用用戶端,請在 vSphere Bitfusion 用戶端的虛擬機器終端機中執行下列命令。
      • vmtoolsd --cmd 'info-set guestinfo.bitfusion.client.accesstoken'​
      • rm ~/.bitfusion/client.yaml
    • 如果您透過產生授權 Token 來啟用用戶端,請使用 vSphere Bitfusion 外掛程式撤銷用戶端的 Token。
  • 使用已指派給執行中 vSphere Bitfusion 伺服器的 GPU 時,無法啟動 vSphere Bitfusion 伺服器虛擬機器

    將已指派給執行中 vSphere Bitfusion 伺服器的 GPU 指派給 Bitfusion 伺服器虛擬機器會阻止新的伺服器虛擬機器啟動。您只能將一個 GPU 傳遞至一個 vSphere Bitfusion 伺服器。

vSphere Bitfusion 伺服器問題
  • 變更 vSphere Bitfusion 伺服器上的時間可能會導致叢集失敗

    如果在建立叢集後伺服器時間發生變更或未同步,叢集可能會失敗。

    因應措施:  叢集中的所有 vSphere Bitfusion 伺服器都必須同步為相同的時間。同步叢集中所有伺服器的時間,然後將其重新啟動。

  • 具有不同時間的伺服器可能會導致叢集失敗

    如果使用 DHCP 設定 vSphere Bitfusion 伺服器的 IP 位址且 DHCP 伺服器未提供 NTP 伺服器資訊,或手動輸入 vSphere Bitfusion 伺服器的 IP 位址,則叢集可能會因伺服器之間的時間差異而失敗。所有伺服器都必須同步為相同的時間。

    因應措施:在伺服器的組態中,新增 NTP 伺服器的 IP 位址。

  • 無法加入透過將虛擬機器複製到叢集進行部署的 vSphere Bitfusion 伺服器 

    複製 vSphere Bitfusion 伺服器的虛擬機器並刪除其他已複製的伺服器虛擬機器後,可能無法將新複製的虛擬機器加入叢集。

  • 如果 vSphere Bitfusion 伺服器處於離線狀態,則無法將新的 vSphere Bitfusion 伺服器新增至叢集

    如果叢集中的一部 vSphere Bitfusion 伺服器虛擬機器處於離線狀態,則無法將其他伺服器新增至該叢集。

    因應措施:執行下列其中一項工作。

    • 使用 vSphere Bitfusion 外掛程式從叢集中移除該伺服器。
    • 使用 vSphere Client 在伺服器虛擬機器上設定客體作業系統環境變數 guestinfo.bitfusion.server.cassandra-removenode
    • 在執行中 vSphere Bitfusion 伺服器的終端機中,執行 bitfusion removenode 命令。
  • 複製 vSphere Bitfusion 伺服器虛擬機器或安裝後續 vSphere Bitfusion 伺服器之後,由於必要欄位遺失或不完整,新虛擬機器無法啟動

    在 vCenter Server 中對伺服器虛擬機器執行複製作業期間,精靈中的所有必填欄位均未標記為必填。在 vCenter Server 中對後續 vSphere Bitfusion 伺服器執行安裝作業期間,可能會錯誤地指定欄位。因此,虛擬機器可能無法啟動。

    因應措施:執行下列其中一項工作。

    • 在複製或安裝作業期間,確保正確指定所有欄位。
    • 複製或安裝作業完成後,使用 vCenter vApp 選項編輯器變更欄位的值。如需所有內容的清單,請參閱〈vSphere Bitfusion vApp 內容〉
      1. 導覽至 vSphere Bitfusion 伺服器的虛擬機器。
      2. 設定索引標籤上,展開設定,然後選取 vApp 選項
      3. 從清單中選取內容,然後按一下設定值按鈕。
  • 無法在刪除來源虛擬機器後啟動已複製的虛擬機器

    對 vSphere Bitfusion 虛擬機器執行複製作業後,如果在已複製的虛擬機器開啟電源之前刪除了來源虛擬機器,則已複製的虛擬機器將無法啟動。

    因應措施:開啟已複製虛擬機器的電源。然後,刪除來源虛擬機器。

  • vSphere Bitfusion 外掛程式將源自 vSphere Bitfusion 用戶端之已複製虛擬機器的活動識別為源自來源虛擬機器

    對 vSphere Bitfusion 用戶端虛擬機器執行複製作業後,vSphere Bitfusion 外掛程式會將源自來源虛擬機器和已複製虛擬機器的活動均識別為源自來源虛擬機器。

    因應措施:在已複製的 vSphere Bitfusion 用戶端虛擬機器上的 /etc/hostname 中,變更主機名稱項目。

網路問題
  • 後續 vSphere Bitfusion 伺服器的安裝程序可能會失敗 

    部署後續 vSphere Bitfusion 伺服器時,主要 vSphere Bitfusion 伺服器使用 HTTPS API 連線到後續 ESXi 主機。如果 vSphere Bitfusion 伺服器的管理網路介面和 ESXi 主機的 vmx0 介面使用 9000 位元組的 MTU 大小,但您的網路不支援這兩個介面之間的此 MTU 大小,則 HTTPS 連線可能會中止,並且安裝程序可能會失敗。

    因應措施:

    1. 確定兩個介面之間支援的 MTU 大小上限。
      1. 若要連線至 vSphere Bitfusion 伺服器的終端機,請執行 ssh customer@$server_ip
      2. 執行下列 shell 指令碼。
        • target_host=(ESXi host IP or DNS name)
          size=1272

          while ping -s $size -M do -c1 $target_host >&/dev/nulldo
              ((size+=4));
          done

          echo "Max MTU size: $((size-4+28))
    2. ​​將 ESXi 主機 vmx0 介面的 MTU 大小值變更為兩個介面之間支援的 MTU 大小上限。
  • 無法設定已複製的 vSphere Bitfusion 伺服器的網路介面卡

    在 vCenter Server 中對 vSphere Bitfusion 伺服器虛擬機器執行複製作業期間,無法變更其他網路介面卡的組態。

    因應措施:執行下列其中一項工作。

    • 建立原始虛擬機器時,啟用已複製虛擬機器所需的網路介面。
    • 透過使用 vCenter vApp 選項編輯器,變更網路設定的值。如需所有內容的清單,請參閱〈vSphere Bitfusion vApp 內容〉
      1. 導覽至 vSphere Bitfusion 伺服器的虛擬機器。
      2. 設定索引標籤上,展開設定,然後選取 vApp 選項
      3. 從清單中選取內容,然後按一下設定值按鈕。
  • 無法將多個網路介面連結至網路

    只能將一個網路介面連線至特定網路。 

    因應措施:若要將 Bitfusion 伺服器連線至多個網路,請使用多個網路介面。

  • 不支援網際網路通訊協定第 6 版

    此版本不支援 IPv6。

其他問題
  • vSphere Bitfusion 叢集的還原作業失敗

    從備份還原 vSphere Bitfusion 叢集後,可能會出現資料遺失,並且 vSphere Bitfusion 外掛程式的全域設定無法變更。

    因應措施:按順序重新啟動所有 vSphere Bitfusion 伺服器,並在重新啟動每個伺服器後等待 60 秒。

  • 如果沒有快速上傳網路,從本機電腦選取 OVA 檔案可能會失敗

    使用 vSphere Bitfusion 外掛程式安裝後續伺服器時,如果沒有快速上傳網路,從本機電腦選取 OVA 檔案可能會失敗。一般來說,大多數瀏覽器的逾時限制為 5 分鐘,而 vSphere Bitfusion OVA 檔案大小約為 740 MB。 

    因應措施:從 URL 選取 OVA 檔案。

  • 無法下載指定期間的 vSphere Bitfusion 監控資料

    在 vSphere Bitfusion 外掛程式中的某個索引標籤上按一下下載 CSV 按鈕時,會略過指定期間,且下載的檔案包含兩天的資料。

  • 執行第一個 GPU 請求後,vSphere Bitfusion 用戶端的識別碼發生了變更

    啟用用戶端虛擬機器 2.0.2 版及更早版本時,用戶端識別碼會顯示在 vSphere Bitfusion 外掛程式中。當用戶端第一次請求 GPU 後,此識別碼即會變更。

check-circle-line exclamation-circle-line close-line
Scroll to top icon