vSphere Bitfusion プラグイン、CLI、または監視プラグインを使用して、vSphere Bitfusion 環境を監視することができます。クラスタ、サーバ、およびクライアントの監視データをダウンロードすることもできます。

vSphere Bitfusion 監視データをダウンロードする方法

vSphere Bitfusion プラグインで、vSphere Bitfusion クラスタ、サーバ、およびクライアントの監視データをダウンロードできます。

監視データをエクスポートすると、外部ツールを使用して vSphere Bitfusion 環境の確認とトラブルシューティングを実行できるようになります。vSphere Bitfusion プラグインの各タブで [CSV のダウンロード] ボタンをクリックすると、異なる監視データ セットが提供されます。過去 5 分間、過去 1 時間、過去 24 時間、および過去 30 日間の監視データをダウンロードできます。

手順

  1. vSphere Client[メニュー(vSphere Client メニュー アイコン)] > [[Bitfusion]] の順に選択します。
  2. 監視データの期間を選択します。
  3. 必要な監視データをダウンロードします。
    オプション 操作
    クラスタ データ クラスタの GPU 割り当てデータを保存するには、[クラスタ] タブで [CSV のダウンロード] をクリックします。
    サーバ データ 表示されているデータを選択したサーバおよびペインに保存するには、[サーバ] タブで [CSV のダウンロード] をクリックします。
    クライアント データ 表示されているデータを選択したクライアントおよびペインに保存するには、[クライアント] タブで [CSV のダウンロード] をクリックします。
  4. (オプション) ローカル マシン上の .csv ファイルの場所を選択します。

vSphere Bitfusion プラグインでの vSphere Bitfusion の監視

vSphere Bitfusion プラグインで、vSphere Bitfusion クラスタ、サーバ、クライアントの IP アドレス、ホスト名、GPU の割り当て、メモリ使用量などのデータを表示することができます。

vSphere Bitfusion クラスタを監視する方法

vSphere Bitfusion プラグインを使用すると、クラスタの次のデータを表示できます。
  • プライマリ vSphere Bitfusion サーバの IP アドレス。vSphere Bitfusion プラグインは、通信に IP アドレスを使用します。
  • [クラスタ GPU 割り当て] チャートには、GPU の割り当て履歴が表示されます。このチャートの対象範囲は、過去 5 分間~ 30 日間の範囲の、すべての vSphere Bitfusion サーバから割り当てられた GPU の数と、クラスタをポピュレートする GPU の数です。
  • [サーバ] テーブルには、無効またはパワーオフ状態のサーバを含めた、vSphere Bitfusion クラスタ内のすべての vSphere Bitfusion サーバが表示されます。各エントリには、ホスト名、IP アドレス、割り当てられた GPU の数が表示されます。
  • [クライアント] テーブルには、vSphere Bitfusion サーバ上でアプリケーションを実行しているすべての vSphere Bitfusion クライアントが表示されます。各エントリには、ホスト名、ID、および現在クライアントに割り当てられている GPU の数がリストされます。

vSphere Bitfusion サーバを監視する方法

vSphere Bitfusion プラグインを使用すると、サーバの次のデータを表示できます。
  • [サーバ] テーブルには、vSphere Bitfusion クラスタ内のすべての vSphere Bitfusion サーバが表示されます。任意のサーバを選択して、サーバの詳細を表示できます。このテーブルには、各サーバのホスト名、IP アドレス、現在の GPU の割り当て、および現在の健全性の状態が表示されます。
  • [割り当て] チャートには、ヒート マップがサーバ上の各 GPU に対するエントリとともに表示されます。各セルは、選択した時間内で GPU が使用された程度を、色の強度で表示します。使用のレベルは、メモリの割り当てと CUDA セル使用量の重み付けされた合計です。
  • メモリおよびコア使用量チャートは各 GPU に対して 1 つのペアで表示されます。[メモリ] チャートには、メモリ容量も表示されます。
  • 各ネットワーク インターフェイスの発信トラフィックと受信トラフィック。

vSphere Bitfusion クライアントを監視する方法

vSphere Bitfusion プラグインを使用すると、クライアントの次のデータを表示できます。

  • [クライアント] テーブルには、vSphere Bitfusion クラスタ内のすべての vSphere Bitfusion クライアントが表示されます。新しいクライアントが、初回にサーバ接続を必要とする vSphere Bitfusion コマンドを実行すると、リストに新しいエントリが表示されます。クライアントを選択して、クライアントの詳細を表示できます。表は、各クライアントのホスト名、ID、現在の GPU 割り当て、およびバージョンを示しています。
  • [GPU 割り当て] チャートには、クライアントに割り当てられている GPU が表示されます。クライアントは、個別の GPU を割り当てて複数のアプリケーションを実行できますが、これらは一緒に表示されます。部分的な GPU の割り当てでは、合計に小数値が加算されます。

CLI での vSphere Bitfusion の監視

CLI コマンドを使用すると、vSphere Bitfusion クライアントのシャドウ メモリ、ネットワークの MTU サイズが確認できます。また、エラー統計情報およびドロップされたパケット数もネットワーク インターフェイスで確認できます。

シャドウ メモリ チェック

vSphere Bitfusion クライアントはメモリ容量の一部を、割り当てられたリモート GPU メモリのシャドウ メモリとして使用します。クライアント ホストで必要なメモリの正確な量は、アプリケーションによって異なります。シャドウ メモリ チェックでは、ホストのメモリが GPU メモリより大きいかどうかが判断されます。メモリ要件の詳細については、『VMware vSphere Bitfusion のインストール』の「vSphere Bitfusion のシステム要件」トピックを参照してください。

クライアント上のメモリの量は、pseudo ファイルの /proc/meminfoMemTotal 行に表示されています。GPU メモリを計算するには、GPU サーバから bitfusion smi または nvidia-smi コマンドを実行し、すべての GPU のメモリ サイズを合算します。

要件を満たすために、vSphere Bitfusion クライアントにメモリを追加することができます。または、アプリケーションの実行時に、vSphere Bitfusion クライアントのメモリのシャドウとして使用可能なメモリを超えて GPU を割り当てないようにします。

MTU サイズ チェック

vSphere Bitfusion のパフォーマンスは、健全性、低遅延、高速ネットワークに依存しています。アプリケーションのパフォーマンスは、多数の小さなパケットによる送信を、少数の大きなパケットによる送信に置き換えることで向上します。最大転送ユニット (MTU) チェックでは、すべての高速 (³10 Gbps) インターフェイスに大規模 (³4K) の MTU が設定されているかどうかを判断されます。vSphere Bitfusion で使用しないインターフェイスでは、このチェックは無視します。

注: vSphere Bitfusion で実行するアプリケーションのパフォーマンスを最適化するには、MTU を 4,096 以上に設定し、デプロイされた vSphere Bitfusion サーバの MTU サイズと一致するように vSphere Bitfusion クライアントを設定します。MTU が 1,500 を超えている場合は、ネットワーク スイッチでジャンボ フレームを有効にします。
MTU サイズを取得と設定を実行するには、次の例を参照してください。
  • MTU サイズを確認するには、ifconfig コマンドを実行します。
  • ネットワーク インターフェイス enp175s の MTU サイズを 4,096 バイトに変更するには、ifconfig enp175s mtu 4096 を実行します。
MTU の詳細については、 MTU の最大値の決定を参照してください。

ネットワーク エラー チェック

ネットワーク インターフェイスで、エラーの統計情報とドロップされたパケット数を確認できます。ファイルは以下の場所にあります。

/sys/class/net/<interface>/statistics/*errors

/sys/class/net/<interface>/statistics/*dropped

ネットワークが健全な場合、チェック間のエラー数が増えることはありません。また、新しいエラー メッセージが表示されることも、パケットがドロップされることもありません。ファイルは、再起動後にのみゼロ アウトされます。

監視プラグインを使用した vSphere Bitfusion の監視

vSphere Bitfusion 4.0 以降では、監視アプリケーションを使用し、監視プラグインを構成することで、vSphere Bitfusion サーバの仮想マシン (VM) および関連サービスの詳細情報を監視できます。たとえば、サーバ仮想マシンの負荷平均やディスク容量の使用率を定期的に確認できます。

監視プラグイン パッケージとは

通常、仮想マシンで監視アプリケーションを使用することで、複数のプラグインを実行して環境内のホストとサービスのステータスを確認できます。vSphere Bitfusion 4.0 以降では、すべての vSphere Bitfusion サーバに事前にインストールされた監視プラグイン パッケージを使用して、クラスタ内の vSphere Bitfusion サーバを監視できます。このパッケージには、Icinga、Naemon、Nagios、Sinken、Sensu などの監視アプリケーションの標準プラグインが 50 以上含まれています。各プラグインはスタンドアロンのコマンドライン ツールで、それぞれが特定のタイプのチェックを実行します。

負荷平均、プロセス、ディスク容量の使用率などのシステム メトリックをローカルでチェックできるプラグインや、ICMP、SNMP、HTTP などのさまざまなネットワーク プロトコルを使用してリモートでチェックを実行できるプラグインがあります。詳細については、Monitoring Plugins Projectのドキュメントを参照してください。

vSphere Bitfusion で監視プラグイン パッケージを構成する方法

監視プラグイン パッケージに含まれているプラグインを使用したり、監視アプリケーションでチェックのためのコマンドを実行したりするには、パスワードを使用することなく vSphere Bitfusion サーバの仮想マシンに安全に接続できるよう、あらかじめ監視アプリケーションの check_by_ssh プラグインを構成する必要があります。次に、監視対象ホストのリストに仮想マシンを追加し、特定の監視チェックを追加します。

  1. SSH (Secure Shell) プロトコルを使用して vSphere Bitfusion サーバの仮想マシンに接続し、監視アカウントのパスワードを有効にします。ここで、IP_BF_VMvSphere Bitfusion サーバの仮想マシンの IP アドレスです。
    export bfm_ip=IP_BF_VM
    ssh customer@$bfm_ip
    sudo passwd monitoring
  2. 監視アカウントのパブリック キーを authorized_keys フォルダにコピーします。

    scp ~/.ssh/id_rsa.pub monitoring@$bfm_ip:~/.ssh/authorized_keys

  3. 監視アプリケーションで、vSphere Bitfusion サーバの仮想マシンを監視対象ホストのリストに追加します。
  4. 監視アプリケーションの仮想マシンで、ssh monitoring@$bfm_ip コマンドを実行します。

    パスワードを使用することなく vSphere Bitfusion サーバの仮想マシンにログインできる必要があります。パスワードの入力を求められた場合、authorized_keys フォルダに保存されているパブリック キーが、監視アカウントのパブリック キーと異なっています。

  5. check_by_ssh プラグインが動作し、チェックのためのコマンドが機能することを確認するには、監視アプリケーションの仮想マシンで $ /usr/lib/nagios/plugins/check_by_ssh -H $bfm_ip -l monitoring -C '/usr/libexec/check_disk --units GB --critical 15 -p /' コマンドを実行します。

    ディスクの空き容量が 15 GB を超えているため、ディスク容量が十分であることを示す結果が返されます。たとえば、DISK OK - free space: / 36 GB (78% inode=98%);| /=10GB;;34;0;4 です。

  6. 監視アプリケーションの check_by_ssh プラグインを使用して監視チェックを追加します。

    check_by_ssh プラグインを使用して監視チェックを追加する方法については、IcingaNaemonNagiosShinkenSensu などの監視アプリケーションのドキュメントを参照してください。