健全性チェックを実行して、vSphere Bitfusion サーバのパフォーマンス、安定性、システム リソース、およびソフトウェア バージョンを確認することができます。

選択した vSphere Bitfusion サーバの健全性ステータスを確認し、必要に応じてトラブルシューティングを実行できます。健全性チェックでは、選択した vSphere Bitfusion サーバのパフォーマンス、安定性、システム リソース、およびソフトウェア バージョンと、サーバの周囲の vCenter Server 環境が確認されます。各健全性チェックでは、パス、最低限、または致命的のステータスを返すことができます。

たとえば、健全性チェックによって、すべてのノードが実行中であること、十分な空き容量があること、vCenter Server への接続が機能していることが確認されます。使用可能なすべての健全性チェックのリストを表示するには、vSphere Bitfusion の健全性チェックのリスト を参照してください。

次の手順に従って健全性チェックを無効にすることで、特定の vSphere Bitfusion サーバの健全性チェックの設定を変更できます。健全性チェックは、無効にしてもバックグラウンドで引き続き実行されますが、チェックのステータスによって [サーバ] タブに表示されるサーバの全体的な健全性ステータスが変更されることはありません。すべての vSphere Bitfusion サーバに対するグローバルな健全性チェック設定は、[設定] > [グローバル健全性チェックのデフォルト] タブで変更できます。

手順

  1. vSphere Client[メニュー(vSphere Client メニュー アイコン)] > [[Bitfusion]] の順に選択します。
  2. [サーバ ] タブで、リストからサーバを選択します。
  3. [アクション] ドロップダウン メニューから、[健全性] を選択します。
    [健全性ログ] ダイアログ ボックスが表示され、健全性チェックの結果が表示されます。チェックのステータス、タイプ、名前、および詳細が表示されます。
  4. (オプション) 特定の健全性チェックを無効にするには、トグル ボタンをクリックします。
  5. [保存して終了] をクリックします。

次のタスク

vSphere Bitfusion の健全性チェックのリスト

vSphere Bitfusion では、サーバの健全性チェックが vSphere Bitfusion プラグインから開始されると、以下のチェックが実行されます。

健全性チェック リスト

名前 タイプ 説明
cass_buckets 安定性 使用率およびその他の項目に関するデータを保存するために Cassandra で使用されるバケッティングを検証します。
cass_node_num 安定性 Cassandra と Bitfusion で、クラスタ内のサーバが同じ数表示されていることを確認します。
cass_nodetool 安定性 Cassandra でクラスタが健全な状態であると表示されていることを確認します。
cass_replication 安定性 レプリケーション係数を確認します。
compute_mode 安定性 GPU のコンピューティング モードが適切に設定されていることを確認します。
network 安定性 ネットワーク上にドロップされたパケットがあるかどうかを確認します。
ecc 安定性 GPU に ECC エラーがあるかどうかを確認します。
gpu_api 安定性 GPU API が一致していることを確認します。
pci_nvml 安定性 すべての GPU を列挙できることを確認します。
pci_p2p 安定性 PCIe P2P がサポートされていることを確認します。
temperature 安定性 GPU の温度が 100℃ を下回っていることを確認します。
vcenter_check 安定性 サーバが vCenter Server に接続可能であることを検証します。
xid 安定性 GPU Xid 障害があるかどうかを確認します。
bogomips パフォーマンス パフォーマンスを検証します。メトリックは、Linux カーネルで使用されます。
hostmem パフォーマンス システムに十分なホスト メモリがあることを検証します。
iface_compat パフォーマンス ネットワークの構成が有効であることを検証します。
memops パフォーマンス GPU で memops が有効になっていることを確認します。
mtu パフォーマンス ネットワークでジャンボ フレームが有効になっていることを確認します。
nvidia_stats パフォーマンス GPU の統計情報を検証します。
nvidia_topo パフォーマンス ホスト トポロジーを検証します。
pci_width パフォーマンス GPU が PCIe レーンの最大容量を使用していることを検証します。
ulimit_n パフォーマンス ファイル記述子の最大値が適切であることを確認します。
diskspace システム リソース サーバ上の空き容量を確認します。
install システム リソース Bitfusion のインストールを検証します。
pciinfo システム リソース PCI 構成を検証します。
shadow_mem システム リソース システム メモリの量が、GPU 上のフレーム バッファ メモリの量以上あることを確認します。
cuda_version ソフトウェア バージョン CUDA バージョンを確認します。
libdep ソフトウェア バージョン Bitfusion のソフトウェア依存関係がインストールされていることを確認します。
driver_version ソフトウェア バージョン NVIDIA ドライバ バージョンを確認します。