健全性チェックを実行して、vSphere Bitfusion サーバのパフォーマンス、安定性、システム リソース、およびソフトウェア バージョンを確認することができます。
選択した vSphere Bitfusion サーバの健全性ステータスを確認し、必要に応じてトラブルシューティングを実行できます。健全性チェックでは、選択した vSphere Bitfusion サーバのパフォーマンス、安定性、システム リソース、およびソフトウェア バージョンと、サーバの周囲の vCenter Server 環境が確認されます。各健全性チェックでは、パス、最低限、または致命的のステータスを返すことができます。
たとえば、健全性チェックによって、すべてのノードが実行中であること、十分な空き容量があること、vCenter Server への接続が機能していることが確認されます。使用可能なすべての健全性チェックのリストを表示するには、vSphere Bitfusion の健全性チェックのリスト を参照してください。
次の手順に従って健全性チェックを無効にすることで、特定の vSphere Bitfusion サーバの健全性チェックの設定を変更できます。健全性チェックは、無効にしてもバックグラウンドで引き続き実行されますが、チェックのステータスによって [サーバ] タブに表示されるサーバの全体的な健全性ステータスが変更されることはありません。すべての vSphere Bitfusion サーバに対するグローバルな健全性チェック設定は、 タブで変更できます。
手順
次のタスク
vSphere Bitfusion の健全性チェックのリスト
vSphere Bitfusion では、サーバの健全性チェックが vSphere Bitfusion プラグインから開始されると、以下のチェックが実行されます。
健全性チェック リスト
名前 | タイプ | 説明 |
---|---|---|
cass_buckets |
安定性 | 使用率およびその他の項目に関するデータを保存するために Cassandra で使用されるバケッティングを検証します。 |
cass_node_num |
安定性 | Cassandra と Bitfusion で、クラスタ内のサーバが同じ数表示されていることを確認します。 |
cass_nodetool |
安定性 | Cassandra でクラスタが健全な状態であると表示されていることを確認します。 |
cass_replication |
安定性 | レプリケーション係数を確認します。 |
compute_mode |
安定性 | GPU のコンピューティング モードが適切に設定されていることを確認します。 |
network |
安定性 | ネットワーク上にドロップされたパケットがあるかどうかを確認します。 |
ecc |
安定性 | GPU に ECC エラーがあるかどうかを確認します。 |
gpu_api |
安定性 | GPU API が一致していることを確認します。 |
pci_nvml |
安定性 | すべての GPU を列挙できることを確認します。 |
pci_p2p |
安定性 | PCIe P2P がサポートされていることを確認します。 |
temperature |
安定性 | GPU の温度が 100℃ を下回っていることを確認します。 |
vcenter_check |
安定性 | サーバが vCenter Server に接続可能であることを検証します。 |
xid |
安定性 | GPU Xid 障害があるかどうかを確認します。 |
bogomips |
パフォーマンス | パフォーマンスを検証します。メトリックは、Linux カーネルで使用されます。 |
hostmem |
パフォーマンス | システムに十分なホスト メモリがあることを検証します。 |
iface_compat |
パフォーマンス | ネットワークの構成が有効であることを検証します。 |
memops |
パフォーマンス | GPU で memops が有効になっていることを確認します。 |
mtu |
パフォーマンス | ネットワークでジャンボ フレームが有効になっていることを確認します。 |
nvidia_stats |
パフォーマンス | GPU の統計情報を検証します。 |
nvidia_topo |
パフォーマンス | ホスト トポロジーを検証します。 |
pci_width |
パフォーマンス | GPU が PCIe レーンの最大容量を使用していることを検証します。 |
ulimit_n |
パフォーマンス | ファイル記述子の最大値が適切であることを確認します。 |
diskspace |
システム リソース | サーバ上の空き容量を確認します。 |
install |
システム リソース | Bitfusion のインストールを検証します。 |
pciinfo |
システム リソース | PCI 構成を検証します。 |
shadow_mem |
システム リソース | システム メモリの量が、GPU 上のフレーム バッファ メモリの量以上あることを確認します。 |
cuda_version |
ソフトウェア バージョン | CUDA バージョンを確認します。 |
libdep |
ソフトウェア バージョン | Bitfusion のソフトウェア依存関係がインストールされていることを確認します。 |
driver_version |
ソフトウェア バージョン | NVIDIA ドライバ バージョンを確認します。 |