상태 점검을 수행하여 vSphere Bitfusion 서버의 성능, 안정성, 시스템 리소스 및 소프트웨어 버전을 점검할 수 있습니다.
선택한 vSphere Bitfusion 서버의 상태를 점검하고, 필요한 경우 문제 해결을 수행할 수 있습니다. 상태 점검은 선택한 vSphere Bitfusion 서버 및 서버의 주변 vCenter Server 환경에 대한 성능, 안정성, 시스템 리소스 및 소프트웨어 버전을 검사합니다. 각 상태 점검은 통과, 경미 또는 치명적 상태를 반환할 수 있습니다.
예를 들어 상태 점검은 모든 노드가 실행 중인지 확인하고, 사용 가능한 공간이 충분하며, vCenter Server에 대한 연결이 작동하는지 확인합니다. 사용 가능한 모든 상태 점검 목록을 보려면 vSphere Bitfusion의 상태 점검 목록 항목을 참조하십시오.
다음 절차에서 상태 점검을 비활성화하면, 특정 vSphere Bitfusion 서버에 대해서만 상태 점검 설정이 변경됩니다. 비활성화된 상태 점검은 여전히 백그라운드에서 수행되지만 점검의 상태는 서버 탭에 표시되는 서버의 전반적인 상태를 변경하지 않습니다. 모든 vSphere Bitfusion 서버에 대한 글로벌 상태 점검 설정은 탭에서 변경할 수 있습니다.
프로시저
다음에 수행할 작업
vSphere Bitfusion의 상태 점검 목록
vSphere Bitfusion은 vSphere Bitfusion 플러그인에서 서버에 대한 상태 점검이 시작되면 다음과 같은 점검을 수행합니다.
상태 점검 목록
이름 | 유형 | 설명 |
---|---|---|
cass_buckets |
안정성 | Cassandra에서 활용률 및 기타 항목에 대한 데이터를 저장하는 데 사용하는 버킷팅의 유효성을 검사합니다. |
cass_node_num |
안정성 | Cassandra와 Bitfusion에서 클러스터의 서버 수가 동일하게 보이는지 확인합니다. |
cass_nodetool |
안정성 | Cassandra에 클러스터가 정상 상태로 보이는지 확인합니다. |
cass_replication |
안정성 | 복제 요소를 확인합니다. |
compute_mode |
안정성 | GPU에 계산 모드가 적절하게 설정되어 있는지 확인합니다. |
network |
안정성 | 네트워크에 손실된 패킷이 있는지 확인합니다. |
ecc |
안정성 | GPU에 ECC 오류가 있는지 확인합니다. |
gpu_api |
안정성 | GPU API가 일치하는지 확인합니다. |
pci_nvml |
안정성 | 모든 GPU를 열거할 수 있는지 확인합니다. |
pci_p2p |
안정성 | PCIe P2P가 지원되는지 확인합니다. |
temperature |
안정성 | GPU 온도가 섭씨 100도 미만인지 확인합니다. |
vcenter_check |
안정성 | 서버가 vCenter Server에 연결할 수 있는지 확인합니다. |
xid |
안정성 | GPU Xid 오류가 있는지 확인합니다. |
bogomips |
성능 | 성능을 검증합니다. 메트릭은 Linux 커널에서 사용됩니다. |
hostmem |
성능 | 시스템에 호스트 메모리가 충분한지 확인합니다. |
iface_compat |
성능 | 네트워크 구성이 유효한지 확인합니다. |
memops |
성능 | GPU에 memops 를 사용하도록 설정되어 있는지 확인합니다. |
mtu |
성능 | 네트워크에 점보 프레임을 사용하도록 설정되어 있는지 확인합니다. |
nvidia_stats |
성능 | GPU에 대한 통계를 검증합니다. |
nvidia_topo |
성능 | 호스트 토폴로지를 검증합니다. |
pci_width |
성능 | GPU가 최대 PCIe 레인 용량을 사용하고 있는지 확인합니다. |
ulimit_n |
성능 | 최대 파일 설명자 제한이 적절한지 확인합니다. |
diskspace |
시스템 리소스 | 서버의 사용 가능한 공간을 확인합니다. |
install |
시스템 리소스 | Bitfusion 설치의 유효성을 검사합니다. |
pciinfo |
시스템 리소스 | PCI 구성의 유효성을 검사합니다. |
shadow_mem |
시스템 리소스 | GPU에 있는 프레임 버퍼 메모리와 동일한 양 이상의 시스템 메모리가 있는지 확인합니다. |
cuda_version |
소프트웨어 버전 | CUDA 버전을 확인합니다. |
libdep |
소프트웨어 버전 | Bitfusion에 대한 소프트웨어 종속성이 설치되어 있는지 확인합니다. |
driver_version |
소프트웨어 버전 | NVIDIA 드라이버 버전을 확인합니다. |