VMware vSphere Bitfusion 4.5 | 2021 年 11 月 23 日 | ビルド 4

VMware vSphere Bitfusion 4.5.1 | 2022 年 1 月 27 日 | ビルド 9

VMware vSphere Bitfusion 4.5.2 | 2022 年 6 月 23 日 | ビルド 16

各リリース ノートで、追加および更新された機能をご確認ください。

新機能

リリース ノートの概要

本リリース ノートには、次のトピックが含まれています。

  • vSphere Bitfusion について
  • vSphere Bitfusion 4.5.2 の新機能
  • vSphere Bitfusion 4.5 の新機能
  • システム要件
  • 互換性、相互運用性、およびライフサイクル
  • オープン ソースのコンポーネント
  • 解決した問題
  • 既知の問題

vSphere Bitfusion について

VMware vSphere Bitfusion は、グラフィック処理ユニット (GPU) などのアクセラレータを共有して、リソースを大量に使用する人工知能 (AI) および機械学習 (ML) のワークロードをサポートする共有ネットワーク アクセス可能なリソース プールを提供します。vSphere Bitfusion は、AI フレームワーク、クラウド サイト、ネットワーク全体、および仮想マシン、コンテナ、ノートブックなどの環境で動作します。

vSphere Bitfusion 4.5.2 の新機能

  • vSphere Bitfusion クライアントは、vSphere Bitfusion コマンドライン インターフェイスで現在の GPU の割り当てと使用率を表示できます。
  • vSphere Bitfusion クライアントは、run または request コマンドを実行するときにラベルを付けることができます。これにより、vSphere Bitfusion ユーザー インターフェイスでクライアントを効率的に識別できます。
  • vSphere Bitfusion サーバ証明書は、vSphere Bitfusion コマンドライン インターフェイスを使用して更新できます。
  • vSphere Bitfusion クライアント証明書は、vSphere Bitfusion ユーザー インターフェイスを使用して更新できます。
  • Ubuntu Linux 22.04 のサポートを追加しました。
  • SUSE Linux Enterprise Server 15.3 のサポートを追加しました。
  • Red Hat Enterprise Linux 7.9 以降のマイナー バージョンのサポートを追加しました。
  • Red Hat Enterprise Linux 8.5 以降のマイナー バージョンのサポートを追加しました。
  • NVIDIA Driver 470.129.06 のサポートを追加しました。
  • NVIDIA CUDA 11.3 および 11.4.4 のサポートを追加しました。
  • NVIDIA cuDNN 8.2.4 のサポートを追加しました。
  • PyTorch 1.2.~ 1.8 のサポートを追加しました。
  • Tensorflow 1.15、2.2、2.3、2.4 および 2.6 のサポートを追加しました。
  • TensorRT 7.1.3、7.2.3 および 8.0.3 のサポートを追加しました。
  • PaddlePaddle 2.0.0、2.2.2 および 2.3.0 のサポートを追加しました。
  • CentOS 8 のサポートを削除しました。

vSphere Bitfusion 4.5 の新機能

  • vSphere Bitfusion には、vSphere Bitfusion クラスタのメモリ使用率とコア使用率に関する情報が表示されます。
  • vSphere Bitfusion 2.x.x クライアントのサポートは、vSphere Bitfusion 4.5.0 で削除されます。

システム要件

vSphere Bitfusion クライアントとサーバのシステム要件のリストについては、『vSphere Bitfusion インストール ガイド』を参照してください。

互換性、相互運用性、およびライフサイクル

vSphere Bitfusion と互換性のあるバージョン、モデル、製品のリストについては、VMware 製品の相互運用性マトリックスを参照してください。

サポートされている vSphere Bitfusion のバージョンとライフサイクルのリストについては、「VMware Product Lifecycle Matrix」を参照してください。

オープン ソースのコンポーネント

vSphere Bitfusion 4.5 で配布されているオープン ソース ソフトウェア コンポーネントに適用される著作権情報およびライセンスは、http://www.vmware.com を参照してください。入手可能な vSphere Bitfusion の最新リリースで利用できるようにするためにソース コードやソース コードへの改変が必要になる GPL、LGPL などのライセンスのソース ファイルをダウンロードすることができます。

解決した問題 4.5.2

  • 同じネットワークに複数のネットワーク インターフェイスを接続できない

    複数のインターフェイスが同一のネットワークに接続されている複数のネットワーク インターフェイスを使用する vSphere Bitfusion サーバを構成すると、ネットワーク ルーティング テーブルが破損し、ネットワーク ルートのないネットワーク インターフェイスが発生する可能性があります。本リリースで、この問題は修正されました。

  • vSphere Bitfusion のネットワーク パフォーマンス コマンドを実行すると、結果が GB/秒で表示される

    bitfusion net_perf コマンドを実行すると、ネットワーク パフォーマンスがギガバイト毎秒(GB/秒)で表示されます。この問題は、本リリースで修正されました。ネットワーク 速度は、ネットワーク パフォーマンスの標準的な測定単位であるギガビット毎秒(Gb/秒)で表示されます。

  • 複数のユーザー ロールを持つ vCenter Server ユーザーが vSphere Bitfusion のユーザー インターフェイスにアクセスできない

    vSphere Bitfusion は、vCenter Server ユーザーに割り当てられた最初のユーザー ロールのみを検証します。vCenter Server で複数のユーザー ロールが割り当てられているユーザーがログインを試行すると、401 トークン エラーが発生し、ユーザー ロールに privilege.Bitfusion.Management.label 権限がある場合でも vSphere Bitfusion のユーザー インターフェイスにアクセスできなくなることがあります。本リリースで、この問題は修正されました。

  • vSphere Bitfusion プラグインでユーザー インターフェイスに空白のページが表示されることがある

    vSphere Bitfusion インターフェイスを使用すると、空白の iframe が表示されることがあります。これは、Javascript のエラーによるものです。本リリースで、この問題は修正されました。

  • クライアント認証トークンを作成または更新した後、新しいトークンを作成できない

    フロント エンドの問題により、トークンの作成または更新後に新しい認証トークンを作成できない場合があります。本リリースで、この問題は修正されました。

  • vSphere Bitfusion プラグインを初めて実行すると、セッション エラーが発生することがある

    プライマリ vSphere Bitfusion をデプロイし、vSphere Bitfusion プラグインを起動すると、セッション エラーの結果として、インターネット ブラウザで vSphere Bitfusion のユーザー インターフェイスを表示できないことがあります。この問題は、断続的に発生することがあります。本リリースで、この問題は修正されました。

解決した問題 4.5.1

  • ユーザーとして vSphere Bitfusion クライアント コマンドを実行すると、エラー メッセージが表示されることがある

    vSphere Bitfusion でユーザーとしてクライアント コマンドを実行すると、次のエラー メッセージが表示されることがあります。Error: open /etc/bitfusion/tls/ca.crt: permission denied.Detail: Error: Missing credentials file. Please configure this Bitfusion client and then try again. このエラー メッセージが表示されるのは、ca.crt 証明書が vSphere Bitfusion Linux ユーザー グループ bitfusion に含まれていないためです。本リリースで、この問題は修正されました。

  • vSphere Bitfusion の設定で GPU 割り当てを指定しても機能しない

    グローバル クライアントのデフォルト設定で GPU 割り当てを指定しても、vSphere Bitfusion サーバから GPU を要求するときは無効になります。本リリースで、この問題は修正されました。

  • vSphere Bitfusion サーバのインストール プロセス中に、1 つの分散仮想ポート グループ (DVPG) ネットワーク インターフェイスを使用するように最初のネットワークを指定した場合、この仮想マシン上にネットワークが作成されない

    本リリースで、この問題は修正されました。

  • クライアント認証トークンを作成または編集すると、操作が失敗することがある

    トークンを作成または編集して Kubernetes ポッドで vSphere Bitfusion クライアントを有効にすると、API エラーが原因で操作が失敗することがあります。名前空間の Kubernetes シークレットはすでに vSphere Bitfusion にリンクされていますが、データは vSphere Bitfusion データベースに保存されていないため、API はエラー メッセージを返します。本リリースで、この問題は修正されました。

  • 指定した期間に vSphere Bitfusion 監視データのダウンロードができない

    vSphere Bitfusion プラグインのタブで [CSV のダウンロード] ボタンをクリックすると、指定した期間とは関係なく、ダウンロードしたファイルには 2 日間のデータが含まれます。本リリースで、この問題は修正されました。

解決した問題 4.5

  • vCenter Server のアップグレード後に vSphere Bitfusion が動作を停止することがある

    vCenter Server をバージョン 7.0.2 にアップグレードした後、vSphere Bitfusion に「Invalid Bitfusion License」というエラー メッセージが表示され、動作が停止することがあります。本リリースで、この問題は修正されました。

  • 長時間実行した後、vSphere Bitfusion クライアントが vSphere Bitfusion サーバから切断される場合がある

    TCP キープアライブ設定が正しく構成されていないと、vSphere Bitfusion サーバとクライアント間の接続が中断されることがあります。本リリースで、この問題は修正されました。

  • vSphere Bitfusion サーバ仮想マシンのクローン作成後、または後続の vSphere Bitfusion サーバのインストール後に、必須フィールドがないか、不完全であることが原因で新しい仮想マシンを起動できない

    vCenter Server の仮想マシンのクローン作成操作で、ウィザードの必須フィールドのいずれも必須としてマークされていません。vCenter Server 内の後続の vSphere Bitfusion サーバのインストール操作で、フィールドが適切に指定されていない可能性があります。その結果、仮想マシンを起動できない場合があります。この問題は、vCenter Server 7.0.3 で修正されました。

  • 仮想マシンのクローン作成によってデプロイされた vSphere Bitfusion サーバがクラスタに参加できない

    vSphere Bitfusion サーバの仮想マシンをクローン作成して、クローン作成された別のサーバ仮想マシンを削除すると、新しくクローン作成された仮想マシンがクラスタに参加できないことがあります。本リリースで、この問題は修正されました。

  • ソース仮想マシンを削除した後、クローン作成された仮想マシンを起動できない

    vSphere Bitfusion 仮想マシンのクローン作成操作後、クローン作成された仮想マシンがパワーオンされる前にソース仮想マシンが削除されると、クローン作成された仮想マシンは起動できません。本リリースで、この問題は修正されました。

既知の問題:GPU の問題

  • 仮想 GPU はサポート対象外

    本リリースでは、NVIDIA 仮想 GPU ソフトウェアおよび NVIDIA GRID 仮想 GPU テクノロジーはサポートされません。

既知の問題:vSphere Bitfusion サーバの問題

  • サーバ間で時刻が異なっている場合、クラスタに障害が発生することがある

    DHCP を使用して vSphere Bitfusion サーバの IP アドレスを設定した際に、DHCP サーバが NTP サーバ情報を提供しなかった場合、または vSphere Bitfusion サーバの IP アドレスを手動で入力した場合、サーバ間の時間差が原因でクラスタに障害が発生することがあります。すべてのサーバを同じ時刻に同期させる必要があります。

    回避策:vCenter Server vApp オプション エディタを使用して、NTP サーバの IP アドレスを 1 つ以上追加します。

    1. vSphere Bitfusion サーバの仮想マシンに移動します。
    2. 仮想マシンをパワーオフします。
    3. [構成] タブの [設定] を展開し、[vApp オプション] を選択します。
    4. プロパティ の下のリストで guestinfo.bitfusion.host.net1.ntp プロパティを選択し、[値の設定] ボタンをクリックします。
    5. 値の設定 ダイアログ ボックスで、NTP サーバの IP アドレスを 1 つ以上追加します。

      複数のアドレスはスペース文字で区切ることができます。

    6. OK をクリックします。
    7. 仮想マシンをパワーオンします。
  • vSphere Bitfusion サーバがオフラインの場合、クラスタに新しい vSphere Bitfusion サーバを追加できない

    クラスタ内の 1 台の vSphere Bitfusion サーバ仮想マシンがオフラインの場合、別のサーバをクラスタに追加することができません。

    回避策:次のタスクのいずれかを行なってください。

    • vSphere Bitfusion プラグインを使用して、クラスタからサーバを削除します。
    • vSphere Client を使用して、サーバ仮想マシン上のゲスト OS 環境変数 guestinfo.bitfusion.server.cassandra-removenode を設定します。
    • 実行中の vSphere Bitfusion サーバのターミナルで、bitfusion removenode コマンドを実行します。
  • vSphere Bitfusion クライアントの仮想マシンのクローン作成操作後、vSphere Bitfusion プラグインが、ソース仮想マシンとクローン仮想マシンの両方から発生するアクティビティを、ソース仮想マシンからのみ発生しているように識別する

    vSphere Bitfusion クライアントの仮想マシンのクローン作成操作後、vSphere Bitfusion プラグインが、ソース仮想マシンとクローン仮想マシンの両方から発生するアクティビティを、ソース仮想マシンからのみ発生しているように識別します。

    回避策:クローン作成された vSphere Bitfusion クライアントの仮想マシンの /etc/hostname で、ホスト名のエントリを変更します。

  • vSphere Bitfusion サーバの時刻を変更すると、クラスタで障害が発生することがある

    クラスタが作成された後にサーバの時刻が変更された場合、または同期されていない場合、クラスタが失敗することがあります。

    回避策:クラスタ内のすべての vSphere Bitfusion サーバを同じ時刻に同期させる必要があります。クラスタ内のすべてのサーバの時刻を同期して、再起動します。

  • vSphere Bitfusion サーバ ログに、ディスク容量不足に関する警告メッセージが含まれることがある

    Apache Cassandra は、vSphere Bitfusion サーバの利用可能なディスク容量が 64 GB 未満の場合に、「Only 42.645GiB free across all data volumes. Consider adding more capacity to your cluster or removing obsolete snapshots」などの警告を表示します。ディスク容量の要件はハードコードのため、構成では変更できません。

    回避策:vSphere Bitfusion サーバのディスク サイズを 75 GB 以上に増やします。

既知の問題:ネットワークの問題

  • インターネット プロトコル バージョン 6 がサポートされていない

    今回のリリースでは IPv6 はサポートされていません。

  • クローン作成された vSphere Bitfusion サーバのネットワークアダプタを構成できない

    vCenter Server での vSphere Bitfusion サーバ仮想マシンのクローン作成操作中は、追加のネットワーク アダプタの構成を変更できません。

    回避策:次のタスクのいずれかを行なってください。

    • 元の仮想マシンを作成するときに、クローン作成された仮想マシンに必要なネットワーク インターフェイスを有効にします。
    • vCenter Server の vApp オプション エディタを使用して、ネットワーク設定の値を変更します。すべてのプロパティのリストについては、「vSphere Bitfusion vApp のプロパティ」を参照してください。
      1. vSphere Bitfusion サーバの仮想マシンに移動します。
      2. [構成] タブの [設定] を展開し、[vApp オプション] を選択します。
      3. リストからプロパティを選択し、[値の設定] ボタンをクリックします。
  • 後続の vSphere Bitfusion サーバのインストール手順が失敗することがある

    後続の vSphere Bitfusion サーバをデプロイすると、プライマリ vSphere Bitfusion サーバは HTTPS API を使用して後続の ESXi ホストに接続します。vSphere Bitfusion サーバの管理ネットワーク インターフェイスと ESXi ホストの vmx0 インターフェイスが 9,000 バイトの MTU サイズを使用している場合に、ネットワークが 2 つのインターフェイス間でこの MTU サイズをサポートしていない場合、HTTPS 接続が中止され、インストール手順が失敗することがあります。

    回避策:

    1. 2 つのインターフェイス間でサポートされる最大の MTU サイズを特定します。
      1. vSphere Bitfusion サーバのターミナルに接続するには、ssh customer@$server_ip を実行します。
      2. 次のシェル スクリプトを実行します。
        • target_host=(ESXi host IP or DNS name)
          size=1272
          while ping -s $size -M do -c1 $target_host >&/dev/null; do
          ((size+=4));
          done
          echo "Max MTU size: $((size-4+28))
    2. ​​ESXi ホストの vmx0 インターフェイスの MTU サイズの値を、2 つのインターフェイス間でサポートされる最大の MTU サイズに変更します。

既知の問題:バックアップとリストアの問題

  • vSphere Bitfusion 4.5 クラスタのリストア操作が失敗する

    リストア操作の完了後、vSphere Bitfusion サービスが再開されないことが原因で vSphere Bitfusion サーバが起動しないことがあります。

    回避策:vSphere Bitfusion サービスを再開します。

    1. ターミナル アプリケーションを開き、ssh customer@ip_address コマンドを実行します。ここで、ip_address は vSphere Bitfusion サーバの IP アドレスです。

      サーバの IP アドレスは、vSphere Bitfusion プラグインから取得できます。

    2. vSphere Bitfusion サーバのデプロイ時に指定したユーザー パスワードを入力します。
    3. sudo systemctl restart bitfusion コマンドを実行し、サービスを再開します。
  • 現在オンライン状態の vSphere Bitfusion クラスタから新しいクラスタにバックアップをリストアすると、両方のクラスタが機能を停止することがある

    リストア操作中、vSphere Bitfusion は、新しいクラスタ内のサーバに対し、オンライン状態のサーバの ID と同一のホスト ID を作成します。これにより、両クラスタが通信する際に競合が発生します。

    回避策:元のクラスタをオフラインにしてから、新しいクラスタでリストア操作を実行します。

  • 2 台以上のサーバで構成される vSphere Bitfusion クラスタでリストア操作が失敗することがある

    データベースの断続的な問題が原因で、リストア操作が Apache Cassandra エラーを表示して失敗することがあります。

    回避策:単一のサーバを含む vSphere Bitfusion クラスタでリストア操作を実行し、次に後続のサーバを作成します。詳細については、vSphere Bitfusion のアップグレードを参照してください。

    1. 新しいプライマリ vSphere Bitfusion サーバをインストールします。
      1. デプロイ プロセスで、古いプライマリ vSphere Bitfusion サーバで使用されているのと同じホスト名を入力します。
      2. 新しい仮想マシンの設定で、古いプライマリ vSphere Bitfusion サーバで使用されているのと同じ数の GPU を追加します。
      3. 新しい仮想マシンの詳細設定で、guestinfo.bitfusion.server.host-id 構成パラメータを追加します。パラメータ値は、manifest.json ファイルにリストされている古いプライマリ サーバのホスト ID と一致する必要があります。
    2. 古い vSphere Bitfusion クラスタのバックアップを新しいクラスタにリストアします。
    3. 新しいプライマリ vSphere Bitfusion サーバを順次インストールします。
      1. デプロイ プロセスで、対応する古い vSphere Bitfusion サーバの manifest.json にリストされているホスト名とホスト ID を入力します。
      2. 新しい仮想マシンの設定で、対応する古い vSphere Bitfusion サーバで使用されているのと同じ数の GPU を追加します。
      3. 新しい仮想マシンの設定で、guestinfo.bitfusion.server.host-id 構成パラメータを追加します。パラメータ値は、manifest.json ファイルにリストされている、対応する古いサーバのホスト ID と一致する必要があります。
  • vSphere Bitfusion 4.0.1 以前のクラスタからバックアップをリストアすると、リストア操作が失敗することがある

    vSphere Bitfusion 4.0.1 以前から vSphere Bitfusion 4.5 以降のクラスタにバックアップをリストアすると、次のエラー メッセージが表示されてリストア操作が失敗することがあります。summary error: failed to restore one or more tables: failed to restore one or more table snapshots.この問題は、Apache Cassandra データベースをバージョン 4.0 に内部的に更新した場合に発生します。

    回避策:リストア操作を開始する前に、Apache Cassandra 構成の enable_legacy_ssl_storage_port パラメータを true に設定します。

  • リストア操作後、vSphere Bitfusion サーバ ログにエラー メッセージが記録されることがある

    リストア操作後、サーバ ログに "snapshotting time series" に関連したエラー メッセージが記録されることがあります。このエラー メッセージは、リストア操作後に vSphere Bitfusion サービスが再起動し、前のセッションが適切に終了しなかったことが原因で記録されることがあります。

    回避策:エラー メッセージを無視します。

  • vSphere Bitfusion 3.0 クラスタのリストア操作が失敗する

    マルチノードの vSphere Bitfusion クラスタをバックアップからリストアした後、データの損失が発生して vSphere Bitfusion プラグインのグローバル設定が変更されない可能性があります。

    回避策:すべての vSphere Bitfusion サーバを順次再起動し、各サーバの再起動後に 60 秒間待機します。

既知の問題:その他の問題

  • ベアメタル マシンまたは別の vCenter Server インスタンスにインストールされている vSphere Bitfusion 3.5 以前のクライアントのアクティベーションが失敗することがある

    client.yaml ファイルに関する権限の問題が原因で、vSphere Bitfusion クライアントが有効にならない場合があります。

    回避策:アクティベーション手順の完了後、client.yaml ファイルの権限を変更します。詳細については、トークンを使用した vSphere Bitfusion クライアントの有効化を参照してください。

    1. クライアント マシンのターミナルで、cd ~/.bitfusion/ でフォルダに移動します。
    2. sudo chmod 0600 client.yaml コマンドを実行します。

  • vSphere Bitfusion アプライアンスのデプロイ中に、vCenter Server が vSphere Bitfusion 証明書の誤った警告を報告することがある

    vSphere Bitfusion 4.0 アプライアンスを使用してプライマリ vSphere Bitfusion サーバを vCenter Server 7.0.2 および 7.0.3 にインストールすると、[OVF テンプレートのデプロイ] ダイアログ ボックスの [詳細の確認] ページに次の警告が表示されることがあります。 Invalid certificate. 警告は誤りで、vSphere Bitfusion 証明書は有効です。

    回避策:警告を無視し、[次へ] をクリックして OVF テンプレートの詳細を確認します。この問題は、今後の vCenter Server リリースで修正されます。

  • [健全性ログ] ダイアログ ボックスの [グローバルのデフォルトに一致] ボタンが無効になっていることがある

    [設定] > [グローバル健全性チェックのデフォルト] タブですべての vSphere Bitfusion サーバのグローバル健全性チェック設定を変更して vSphere Bitfusion サーバの健全性ステータスを確認した後、[健全性ログ] ダイアログ ボックスの [グローバルのデフォルトに一致] ボタンが無効になることがあります。これは、JavaScript のエラーです。

    回避策:トグル ボタンをクリックして健全性チェックの有効/無効を切り替え、[保存] をクリックします。

  • 高速アップロード ネットワークがない場合、ローカル マシンからの OVA ファイルの選択が失敗することがある

    高速アップロード ネットワークがない場合、vSphere Bitfusion プラグインを使用して後続のサーバをインストールする際に、ローカル マシンからの OVA ファイルの選択が失敗することがあります。通常、多くのブラウザには 5 分のタイムアウト制限があり、vSphere Bitfusion の OVA ファイルのサイズは約 740 MB です。

    回避策:URL から OVA ファイルを選択します。

  • CentOS 7 および 8 にインストールされた vSphere Bitfusion 3.5 以前のクライアントでライブラリ エラーが発生する場合がある

    CentOS 7 および 8 用の vSphere Bitfusion 3.5 以前のクライアントは、EPEL capstone RPM パッケージからインストールされる libcapstone.so.3 ライブラリに依存しています。capstone パッケージには現在、libcapstone.so.4 ライブラリのみが含まれています。vSphere Bitfusion クライアントがインストールされると、クライアントは EPEL から最新のライブラリを含む最新のパッケージをダウンロードしてインストールしますが、次のエラー メッセージが表示されることがあります。error while loading shared libraries: libcapstone.so.3: cannot open shared object

    回避策:次のタスクのいずれかを行なってください。

    • vSphere Bitfusion サーバとクライアントをバージョン 4.0.0 以降にアップデートします。
    • libcapstone.so.3 ライブラリを含む古いバージョンの capstone パッケージをインストールします。
  • vSphere Bitfusion 2.5 以降のライセンスを使用すると、vCenter Server バージョン 7.0.0 以前でエラーが発生することがある

    vCenter Server バージョン 7.0.0 以前では、vSphere Bitfusion は文字列を使用して vSphere Bitfusion ライセンスの有効性を判断します。文字列の結果が一致しない場合、ライセンスの問題が発生する可能性があります。

    回避策:vCenter Server をバージョン 7.0.2 以降にアップグレードします。

check-circle-line exclamation-circle-line close-line
Scroll to top icon