次のリストに、最も重要な vSphere Bitfusion コマンドとそのタスクに関する情報を示します。必要に応じて、VMware サポート チームから追加の CLI コマンドが提供されることがあります。

vSphere Bitfusion での GPU の割り当て

単一のアプリケーションに複数の GPU を割り当てるには、bitfusion run コマンドを実行します。

複数の GPU を割り当ててセッションを開始し、同じ GPU で複数のアプリケーションを実行できるようにするには、bitfusion request_gpus を実行します。

vSphere Bitfusion でのアプリケーションの実行

単一のアプリケーションを起動するには、bitfusion run コマンドを実行します。

bitfusion request_gpus コマンドで開始されたセッション内で複数のアプリケーションを起動するには、bitfusion client コマンドを実行します。

vSphere Bitfusion での GPU の割り当て解除

bitfusion request_gpus コマンドで開始されたセッション内で GPU の割り当てを解除するには、bitfusion release_gpus コマンドを実行します。

vSphere Bitfusion で使用可能な GPU の一覧表示

vSphere Bitfusion サーバのインストールを確認し、使用可能な GPU のリストを検索するには、bitfusion list_gpus コマンドを実行します。

 - server 0 [172.16.31.162:56001]: running 0 tasks
   |- GPU [0]: free memory (15109 / 15109MiB) Tesla T4 (7.5)
 - server 1 (leader)  [172.16.31.156:56001]: running 0 tasks
   |- GPU [0]: free memory (15109 / 15109MiB) Tesla T4 (7.5)

vSphere Bitfusion での健全性チェックの実行

健全性チェックにはコマンド ラインからアクセスできます。
  • すべての vSphere Bitfusion サーバと Bitfusion クライアントの健全性をチェックするには、bitfusion health を実行します。
  • 1 台の vSphere Bitfusion クライアントまたはサーバの健全性をチェックするには、bitfusion localhealth を実行します。

vSphere Bitfusion のバージョンの確認

インストールされている vSphere Bitfusion のバージョンを表示するには、bitfusion version コマンドを実行します。

Bitfusion version: 4.0.0 release

vSphere Bitfusion での GPU 情報の表示

GPU 情報を表示するには、bitfusion smi コマンドを実行します。また、同様な出力を取得するには、bitfusion run コマンドを使用して nvidia-smi アプリケーションを起動します。

+----------------------------------------------------------------------------------------+
| 172.16.31.162:56001                                          Driver Version: 460.73.01 |
+--------------------------------------+-------------------------+-----------------------+
| GPU  Name              Persistence-M | Virt Mem    Alloc / All | BusId  Vol Uncorr ECC |
| Fan  Temp  Perf        Pwr:Usage/Cap | Phy Mem     Used  / All | GPU-Util   Compute M. |
|======================================+=========================+=======================|
| 0    Tesla T4               Enabled  | 0       MB / 15109   MB | 00000000:13:00.0    0 |
| 0 %   28C  P8             10W /  70W | 3       MB / 15109   MB |   0%          Default |
+--------------------------------------+-------------------------+-----------------------+
+----------------------------------------------------------------------------------------+
| 172.16.31.156:56001                                          Driver Version: 460.73.01 |
+--------------------------------------+-------------------------+-----------------------+
| GPU  Name              Persistence-M | Virt Mem    Alloc / All | BusId  Vol Uncorr ECC |
| Fan  Temp  Perf        Pwr:Usage/Cap | Phy Mem     Used  / All | GPU-Util   Compute M. |
|======================================+=========================+=======================|
| 0    Tesla T4               Enabled  | 0       MB / 15109   MB | 00000000:13:00.0    0 |
| 0 %   34C  P8             10W /  70W | 3       MB / 15109   MB |   0%          Default |
+--------------------------------------+-------------------------+-----------------------+

vSphere Bitfusion でのバンド幅のテスト

vSphere Bitfusion のクライアントとサーバ間の帯域幅および遅延をテストするには、bitfusion net_perf コマンドを実行します。

単一のネットワーク インターフェイス
Displayed results are calculated from round-trip measurements
BW(1MB) = 1000/(LAT(1MB) - LAT(1B))

[ <client>] ens160 => [10.202.8.169] net1 ( tcp) Single packet lat = 51 us, bw(1MB) = 1.71 GB/s
[ <client>] ens160 => [10.202.8.185] net1 ( tcp) Single packet lat = 48 us, bw(1MB) = 1.09 GB/s
[ <client>] ens160 => [10.202.8.233] net1 ( tcp) Single packet lat = 50 us, bw(1MB) = 0.87 GB/s
複数のネットワーク インターフェイス
Displayed results are calculated from round-trip measurements
BW(1MB) = 1000/(LAT(1MB) - LAT(1B))

[ <client>] ens160 => [10.202.8.169] net1 ( tcp) Single packet lat = 51 us, bw(1MB) = 1.71 GB/s
[ <client>] ens160 => [10.202.8.185] net1 ( tcp) Single packet lat = 48 us, bw(1MB) = 1.09 GB/s
[ <client>] ens160 => [10.202.8.233] net1 ( tcp) Single packet lat = 50 us, bw(1MB) = 0.87 GB/s
[ <client>] ens192f0 => [10.202.8.169] net2 ( tcp) Single packet lat = 47 us, bw(1MB) = 2.14 GB/s
[ <client>] ens192f0 => [10.202.8.185] net2 ( tcp) Single packet lat = 49 us, bw(1MB) = 1.11 GB/s
[ <client>] ens192f0 => [10.202.8.233] net2 ( tcp) Single packet lat = 50 us, bw(1MB) = 1.15 GB/s
[ <client>] vmw_pvrdma0 => [10.202.8.169] vmw_pvrdma0 (infiniband) Single packet lat = 19 us, bw(1MB) = 3.66 GB/s Single packet Write lat = 8 us, bw = 10.101 GB/s
[ <client>] vmw_pvrdma0 => [10.202.8.185] vmw_pvrdma0 (infiniband) Single packet lat = 21 us, bw(1MB) = 3.45 GB/s Single packet Write lat = 8 us, bw = 10.5263 GB/s
[ <client>] vmw_pvrdma0 => [10.202.8.233] vmw_pvrdma0 (infiniband) Single packet lat = 21 us, bw(1MB) = 3.46 GB/s Single packet Write lat = 8 us, bw = 10.4167 GB/s

vSphere Bitfusion でのヘルプの表示

vSphere Bitfusion CLI コマンドの完全なリストまたは特定のコマンドの詳細を取得するには、bitfusion help コマンドを実行します。

NAME:
   Bitfusion - Run application with VMware Bitfusion

USAGE:
   bitfusion <command> <options> "application"
   bitfusion <command> <options> -- [application]
   bitfusion help [command]

   For more information, system requirements, and advanced usage please visit docs.bitfusion.io

COMMANDS:
        tls-certs, TC    Manage TLS certificates used by bitfusion server.  Requires root privileges.
        version, v       Display full Bitfusion version
        localhealth, LH  Run health check on current node only
        dealloc          Deallocate license certificate.  Requires root priviledges.
        crashreport      Send crash report to bitfusion
        list_gpus        List the available GPUs in a shared pool
        initdb           Init database setup
        token            Fetch and manipulate tokens
        register         Register remote server as the plugin
        unregister       Unregister remote plugin
        removenode       Remove unavailable nodes
        user             Manage bitfusion users
        help, h          Shows a list of commands or help for one command
   Client Commands:
        client, c     Run application
        health, H     Run health check on all specified servers and current node
        request_gpus  Request GPUs from a shared pool
        release_gpus  Release GPUs back into a shared pool. Options must match a previous request_gpus command
        run           Request GPUs from a shared pool, run a client command, then release the GPUs
        stats         Gather stats from all servers.
        smi           Display smi-like info for all servers.
        local         Run a CUDA application locally
        net_perf      Gather network performance data from all SRS servers.
   Server Commands:
        server, s                Run dispatcher service - listens for 'bitfusion client' commands
        resource_scheduler, srs  Run Bitfusion resource scheduler (SRS) on GPU server
        analytics                Run Bitfusion analytics server
        manager                  Run Bitfusion manager server

EXAMPLES:
   $ bitfusion resource_scheduler --srs_port 50001

   $ bitfusion run -n 4 -- <application>

   $ bitfusion request_gpus -n 1 -p 0.25