상태 점검을 수행하여 vSphere Bitfusion 서버의 성능, 안정성, 시스템 리소스 및 소프트웨어 버전을 점검할 수 있습니다.

선택한 vSphere Bitfusion 서버의 상태를 점검하고, 필요한 경우 문제 해결을 수행할 수 있습니다. 상태 점검은 선택한 vSphere Bitfusion 서버 및 서버의 주변 vCenter Server 환경에 대한 성능, 안정성, 시스템 리소스 및 소프트웨어 버전을 검사합니다. 각 상태 점검은 통과, 경미 또는 치명적 상태를 반환할 수 있습니다.

예를 들어 상태 점검은 모든 노드가 실행 중인지 확인하고, 사용 가능한 공간이 충분하며, vCenter Server에 대한 연결이 작동하는지 확인합니다. 사용 가능한 모든 상태 점검 목록을 보려면 vSphere Bitfusion의 상태 점검 목록 항목을 참조하십시오.

다음 절차에서 상태 점검을 비활성화하면, 특정 vSphere Bitfusion 서버에 대해서만 상태 점검 설정이 변경됩니다. 비활성화된 상태 점검은 여전히 백그라운드에서 수행되지만 점검의 상태는 서버 탭에 표시되는 서버의 전반적인 상태를 변경하지 않습니다. 모든 vSphere Bitfusion 서버에 대한 글로벌 상태 점검 설정은 설정 > 글로벌 상태 점검 기본값 탭에서 변경할 수 있습니다.

프로시저

  1. vSphere Client에서 메뉴(vSphere Client 메뉴 아이콘) > Bitfusion을 선택합니다.
  2. 서버 탭의 목록에서 서버를 선택합니다.
  3. 작업 드롭다운 메뉴에서 상태를 선택합니다.
    상태 로그 대화 상자가 나타나고 상태 점검 결과가 표시됩니다. 점검의 상태, 유형, 이름 및 세부 정보가 표시됩니다.
  4. (선택 사항) 특정 상태 점검을 비활성화하려면 토글 버튼을 클릭합니다.
  5. 저장 및 종료를 클릭합니다.

다음에 수행할 작업

vSphere Bitfusion의 상태 점검 목록

vSphere BitfusionvSphere Bitfusion 플러그인에서 서버에 대한 상태 점검이 시작되면 다음과 같은 점검을 수행합니다.

상태 점검 목록

이름 유형 설명
cass_buckets 안정성 Cassandra에서 활용률 및 기타 항목에 대한 데이터를 저장하는 데 사용하는 버킷팅의 유효성을 검사합니다.
cass_node_num 안정성 Cassandra와 Bitfusion에서 클러스터의 서버 수가 동일하게 보이는지 확인합니다.
cass_nodetool 안정성 Cassandra에 클러스터가 정상 상태로 보이는지 확인합니다.
cass_replication 안정성 복제 요소를 확인합니다.
compute_mode 안정성 GPU에 계산 모드가 적절하게 설정되어 있는지 확인합니다.
network 안정성 네트워크에 손실된 패킷이 있는지 확인합니다.
ecc 안정성 GPU에 ECC 오류가 있는지 확인합니다.
gpu_api 안정성 GPU API가 일치하는지 확인합니다.
pci_nvml 안정성 모든 GPU를 열거할 수 있는지 확인합니다.
pci_p2p 안정성 PCIe P2P가 지원되는지 확인합니다.
temperature 안정성 GPU 온도가 섭씨 100도 미만인지 확인합니다.
vcenter_check 안정성 서버가 vCenter Server에 연결할 수 있는지 확인합니다.
xid 안정성 GPU Xid 오류가 있는지 확인합니다.
bogomips 성능 성능을 검증합니다. 메트릭은 Linux 커널에서 사용됩니다.
hostmem 성능 시스템에 호스트 메모리가 충분한지 확인합니다.
iface_compat 성능 네트워크 구성이 유효한지 확인합니다.
memops 성능 GPU에 memops를 사용하도록 설정되어 있는지 확인합니다.
mtu 성능 네트워크에 점보 프레임을 사용하도록 설정되어 있는지 확인합니다.
nvidia_stats 성능 GPU에 대한 통계를 검증합니다.
nvidia_topo 성능 호스트 토폴로지를 검증합니다.
pci_width 성능 GPU가 최대 PCIe 레인 용량을 사용하고 있는지 확인합니다.
ulimit_n 성능 최대 파일 설명자 제한이 적절한지 확인합니다.
diskspace 시스템 리소스 서버의 사용 가능한 공간을 확인합니다.
install 시스템 리소스 Bitfusion 설치의 유효성을 검사합니다.
pciinfo 시스템 리소스 PCI 구성의 유효성을 검사합니다.
shadow_mem 시스템 리소스 GPU에 있는 프레임 버퍼 메모리와 동일한 양 이상의 시스템 메모리가 있는지 확인합니다.
cuda_version 소프트웨어 버전 CUDA 버전을 확인합니다.
libdep 소프트웨어 버전 Bitfusion에 대한 소프트웨어 종속성이 설치되어 있는지 확인합니다.
driver_version 소프트웨어 버전 NVIDIA 드라이버 버전을 확인합니다.