更新日:2020 年 12 月 3 日 VMware vSphere Bitfusion 2.5.1 | 2020 年 12 月 3 日 | ビルド 13 いくつかの修正があります。「解決した問題」の「vSphere Bitfusion 2.5.1」および「既知の問題」の「その他の問題」 サブセクションを参照してください。 VMware vSphere Bitfusion 2.5.0 | 2020 年 11 月 5 日 | ビルド 10 |
リリース ノートの概要
本リリース ノートには、次のトピックが含まれています。vSphere Bitfusion について
VMware vSphere Bitfusion は、グラフィック処理ユニット (GPU) などのアクセラレータを共有して、リソースを大量に使用する人工知能 (AI) および機械学習 (ML) のワークロードをサポートする共有ネットワーク アクセス可能なリソース プールを提供します。vSphere Bitfusion は、AI フレームワーク、クラウド サイト、ネットワークのいずれでも仮想マシン、コンテナ、ノートブックなどの環境で動作します。
vSphere Bitfusion 2.5.0 の新機能
- ベアメタル クライアントのサポート
- 健全性チェックの拡張と操作性の向上
- バージョン 2.0.0 以降の vSphere Bitfusion クライアントのサポート
- NVIDIA ドライバ 450
- NVIDIA CUDA 11
- TensorFlow 2.3 のサポート
- PyTorch 1.5 のサポート
- TensorRT 7.1.3 のサポート
システム要件
vSphere Bitfusion クライアントとサーバのシステム要件のリストについては、『vSphere Bitfusion インストール ガイド』を参照してください。
オープン ソースのコンポーネント
vSphere Bitfusion 2.5.0 で配布されているオープン ソース ソフトウェア コンポーネントに適用される著作権情報およびライセンスは、http://www.vmware.com を参照してください。入手可能な vSphere Bitfusion の最新リリースで利用できるようにするためにソース コードやソース コードへの改変が必要になる GPL、LGPL などのライセンスのソース ファイルをダウンロードすることができます。
解決した問題
解決された問題には、次のトピックが含まれます。
vSphere Bitfusion 2.5.1
- サポートバンドルに詳細情報が含まれる
このリリースでは、サポート バンドルにさらに多くのログが含まれます。
- vSphere Bitfusion server が ESXi ホストにデプロイされている場合、ホスト プロファイルを抽出できない
本リリースで、この問題は修正されました。
- vSphere Bitfusion が NTP サーバ構成を検証できない
このリリースには、NTP サーバが正しく構成されていることを検証する健全性チェックが含まれています。
- NTP 構成の問題によって vSphere Bitfusion サーバのクロックが同期に失敗することがある
vSphere Bitfusion サーバ アプライアンスのデフォルトの NTP 構成には、この問題を解決するための機能強化が含まれています。
- ネットワーク インターフェイスが別のネットワークに接続されている場合、vSphere Bitfusion がデータ トラフィックと管理トラフィックに個別のネットワーク インターフェイスを使用できない
本リリースで、この問題は修正されました。2 つの新しいゲスト変数で、必要なネットワーク インターフェイスを使用するように設定できます。
guestinfo.bitfusion.server.web-iface
およびguestinfo.bitfusion.server.mgmt-iface
変数を使用することで、データ トラフィックと管理トラフィックをネットワーク インターフェイスに割り当てることができます。 - ユーザーのパスワードに特殊文字を入力すると、vSphere Bitfusion サーバの展開に失敗する
本リリースで、この問題は修正されました。
vSphere Bitfusion 2.0.2
- ディープ ラーニングのフレームワークである Caffee を使用しているときに、問題が発生することがある
セグメンテーション エラー (SIGSEGV) ハンドラを登録するアプリケーションのサポートを追加しました。
- 準仮想化 RDMA (PVRDMA) を使用しているときに、健全性チェックの問題が発生することがある
本リリースで、この問題は修正されました。
- vSphere Bitfusion クライアントを使用しているときに、フリーズやハングが発生することがある
本リリースで、この問題は修正されました。
- vSphere Bitfusion クラスタの統計情報を更新すると、まれに競合状態が発生することがある
本リリースで、この問題は修正されました。
vSphere Bitfusion 2.0.1
- バージョン 7.0b 以前の VMware vSphere を使用すると、ライセンスが誤って検出されることがある
本リリースで、この問題は修正されました。
- NVIDIA ドライバのサポートを追加
このリリースでは、NVIDIA ドライバ バージョン 440.95.01 がサポートされています。
- 単一の vCenter Server インスタンス内で複数のデータセンターのサポートを追加
このリリースでは、同一の vCenter Server インスタンス内の複数のデータセンターがサポートされます。
既知の問題
既知の問題には、次のトピックが含まれます。
GPU の問題
- 仮想 GPU はサポート対象外
このリリースでは、仮想 GPU はサポートされていません。
- 複数の GPU を vSphere Bitfusion サーバ仮想マシンに追加した後、仮想マシンを起動できない
複数の GPU を vSphere Bitfusion サーバ仮想マシンに追加すると、vCenter Server は最初の GPU を複数回追加します。その結果、仮想マシンは起動できません。
回避策:vCenter Server の vApp オプション エディタを使用して、追加の GPU の PCI バスの ID を一意の値で更新します。
- vSphere Bitfusion サーバの仮想マシンに移動します。
- [構成] タブの [設定] を展開し、[vApp オプション] を選択します。
- [編集] ボタンをクリックします。
- [PCI デバイス] ドロップダウン メニューから、追加のすべての GPU に一意の ID を選択します。
- vSphere Bitfusion サーバで使用されている GPU のビデオ メモリの合計が 128 GB RAM より大きい場合、GPU パススルーを使用できない
デフォルトでは、GPU パススルーの高度な仮想マシン プロパティ
pciPassthru.64bitMMIOSizeGB
は 256 に設定されています。1 台の vSphere Bitfusion サーバ上で、128 GB RAM よりも大きいビデオ RAM を搭載した GPU を使用している場合、この構成によってパススルーの障害が発生する可能性があります。回避策:
pciPassthru.64bitMMIOSizeGB
の正しい値を計算します。vSphere Bitfusion サーバ仮想マシンが使用する GPU やネットワーク カードなどの PCI デバイスの数を数え、その数を GPU のサイズ (GB) で乗算して、値を 2 の累乗に切り上げます。たとえば、2 台の 16 GB GPU デバイスで GPU パススルーを使用する場合、値を 64 (2 * 16 = 32 * 2 = 64) に切り上げます。1 台の 16 GB GPU の場合、32 の値を使用します。- 仮想マシンのプロパティを変更します。
- 仮想マシンに移動して選択し、パワーオフします。
- 仮想マシンを選択した状態で、[アクション] > [設定の編集] > [仮想マシン オプション] > [詳細] > [設定の編集] を選択します。
pciPassthru.64bitMMIOSizeGB
を検索して、新しい値を設定します。- 仮想マシンをパワーオンします。
- 1 つの GPU が vCenter Server で複数回表示されることがある
NVIDIA T4 GPU が vCenter Server で複数回表示されることがあります。
回避策:ESXi ホストの BIOS 設定で、SR-IOV サポートを有効にします。
- vSphere Bitfusion クラスタから削除された vSphere Bitfusion クライアントでも GPU を要求できる
vSphere Bitfusion プラグインを使用して vSphere Bitfusion クライアント バージョン2.0.2 以前を削除すると、クライアントは vSphere Bitfusion サーバから GPU を引き続き要求できます。
回避策:次のタスクのいずれかを行なってください。
- 仮想マシンのターミナルで、次のコマンドを実行します。
vmtoolsd --cmd info-set guestinfo.bitfusion.client.accesstoken
rm ~/.bitfusion/client.yaml
- vSphere Bitfusion プラグインを使用して、クライアントのトークンを破棄します。
- 仮想マシンのターミナルで、次のコマンドを実行します。
vSphere Bitfusion サーバの問題
- vSphere Bitfusion サーバがオフラインの場合、クラスタに新しい vSphere Bitfusion サーバを追加できない
クラスタ内の 1 台の vSphere Bitfusion サーバ仮想マシンがオフラインの場合、別のサーバをクラスタに追加することができません。
回避策:次のいずれかのタスクを実行します。
- vSphere Bitfusion プラグインを使用して、クラスタからサーバを削除します。
- vSphere Client を使用して、サーバ仮想マシン上のゲスト OS 環境変数
guestinfo.bitfusion.server.cassandra-removenode
を設定します。 - 実行中の vSphere Bitfusion サーバのターミナルで、
bitfusion removenode
コマンドを実行します。
- 実行中の vSphere Bitfusion サーバにすでに割り当てられている GPU を使用している場合、vSphere Bitfusion サーバ仮想マシンを起動できない
GPU を Bitfusion サーバ仮想マシンに割り当てる際に、同一の GPU がすでに実行中の vSphere Bitfusion に割り当てられていると、新しいサーバ仮想マシンを起動できません。
- vSphere Bitfusion サーバの時刻を変更すると、クラスタで障害が発生することがある
クラスタが作成された後にサーバの時刻が変更された場合、または同期されていない場合、クラスタが失敗することがあります。
回避策: クラスタ内のすべての vSphere Bitfusion サーバを同じ時刻に同期させる必要があります。クラスタ内のすべてのサーバの時刻を同期して、再起動します。
- サーバ間で時刻が異なっている場合、クラスタに障害が発生することがある
DHCP を使用して vSphere Bitfusion サーバの IP アドレスを設定した際に、DHCP サーバが NTP サーバ情報を提供しなかった場合、または vSphere Bitfusion サーバの IP アドレスを手動で入力した場合、サーバ間の時間差が原因でクラスタに障害が発生することがあります。すべてのサーバを同じ時刻に同期させる必要があります。
回避策:サーバの構成で、NTP サーバの IP アドレスを追加します。
- 仮想マシンのクローン作成によってデプロイされた vSphere Bitfusion サーバがクラスタに参加できない
vSphere Bitfusion サーバの仮想マシンをクローン作成して、クローン作成された別のサーバ仮想マシンを削除すると、新しくクローン作成された仮想マシンがクラスタに参加できないことがあります。
- vSphere Bitfusion サーバの仮想マシンをクローン作成した後、必須フィールドが指定されていないため、新しい仮想マシンを起動できない
vCenter Server の仮想マシンのクローン作成操作で、ウィザードの必須フィールドのいずれも必須としてマークされていません。その結果、仮想マシンを起動できない場合があります。
回避策:仮想マシンのクローン作成操作で、次の情報を入力します。
- ホスト名
- vCenter Server の GUID
- vCenter Server の URL
- vCenter Server ユーザー名
- vCenter Server のパスワード(2 回入力)
- ソース仮想マシンを削除した後、クローン作成された仮想マシンを起動できない
vSphere Bitfusion 仮想マシンのクローン作成操作後、クローン作成された仮想マシンがパワーオンされる前にソース仮想マシンが削除されると、クローン作成された仮想マシンは起動できません。
回避策:クローン作成済みの仮想マシンをパワーオンします。次に、ソース仮想マシンを削除します。
- vSphere Bitfusion プラグインが vSphere Bitfusion クライアントのクローン仮想マシンから発生するアクティビティを、ソース仮想マシンから発生したと識別する
vSphere Bitfusion クライアントの仮想マシンのクローン作成操作後、vSphere Bitfusion プラグインが、ソース仮想マシンとクローン仮想マシンの両方から発生するアクティビティを、ソース仮想マシンからのみ発生しているように識別します。
回避策:クローン作成された vSphere Bitfusion クライアントの仮想マシンの
/etc/hostname
で、ホスト名のエントリを変更します。
その他の問題
- vSphere Bitfusion クラスタのリストア操作が失敗する
vSphere Bitfusion クラスタをバックアップからリストアした後、1 台以上のサーバにアクセスできなくなることがあります。
回避策:アクセスできないサーバ上で、vSphere Bitfusion を再起動します。
- アクセスできない vSphere Bitfusion サーバのターミナルに接続するには、
ssh customer@$server_ip
を実行します。 sudo systemctl bitfusion restart
を実行します。.
- アクセスできない vSphere Bitfusion サーバのターミナルに接続するには、
- 最初の GPU 要求の実行後、vSphere Bitfusion クライアントの ID が変更される
2.0.2 以前のバージョンを使用しているクライアントの仮想マシンを有効にすると、クライアント ID が vSphere Bitfusion プラグインに表示されます。クライアントが初めて GPU を要求した後、この ID が変更されます。
- クローン作成された vSphere Bitfusion サーバのネットワークアダプタを構成できない
vCenter Server で vSphere Bitfusion サーバ仮想マシンのクローン作成操作を行うと、追加のネットワーク アダプタの構成は変更できません。
回避策:次のいずれかのタスクを実行します。
- 元の仮想マシンを作成するときに、クローン作成された仮想マシンに必要なネットワーク インターフェイスを有効にします。
- vCenter Server の vApp オプション エディタを使用して、ネットワーク設定の値を変更します。
- vSphere Bitfusion サーバの仮想マシンに移動します。
- [構成] タブの [設定] を展開し、[vApp オプション] を選択します。
- [編集] ボタンをクリックします。
- これらのゲスト OS の環境変数を
True
またはFalse
に設定して、ネットワーク アダプタの構成をオーバーライドします。guestinfo.bitfusion.host.net2.configure
g
uestinfo.bitfusion.host.net3.configure
guestinfo.bitfusion.host.net4.configure
- ネットワークに複数のネットワーク インターフェイスを接続できない
特定のネットワークにはネットワーク インターフェイスを 1 つのみ接続できます。
回避策:Bitfusion サーバを複数のネットワークに接続するには、複数のネットワーク インターフェイスを使用します。
- インターネット プロトコル バージョン 6 にサポートしていない
今回のリリースでは IPv6 はサポートされていません。